Prosegue il benchmark sui sempre più numerosi strumenti di intelligenza artificiale generativa oggi disponibili, continuando a simulare il loro utilizzo, in questo caso a supporto del Project Manager responsabile per un progetto ICT pubblico nell’ambito del PNRR. Dopo la valutazione, durata oltre un anno, sulla qualità offerta dall’AI per il supporto al Project Manager (PM) e in particolare dagli strumenti di AI gen più diffusi come ChatGPT, ora è stato valutata anche l’AI gen Deepseek dalla Cina.
Oltre all’ottima valutazione, lo si è poi voluto confrontare con gli storici campioni USA e si è iniziato a considerare anche il campione francese Mistral, primo europeo ad entrare nel benchmark. Dal benchmark emergono molti elementi di interesse, specialmente in merito alla evoluzione storica delle performance espresse. Nel complesso risulta finalmente efficace il supporto della IA nel ruolo che ci si attende da un personal assistant al Project Manager, in particolare dove la situazione emergente richieda risposte più puntuali e orientate all’azione e non solo in ottica di fornire un supporto metodologico e didattico.
Ai gen per il project manager, l’ambito del benchmark
Per memoria si ricorda che le prime valutazioni siano state effettuate a partire dalla primavera del 2023, in pieno dibattito sulla efficacia di questa tecnologia, in particolare per valutare la qualità delle soluzioni di IA come ChatGPT in qualità di personal assistant di un project manager, responsabile per un progetto ICT pubblico nell’ambito del PNRR. A questa prima valutazione sono seguiti successivi benchmark effettuati nel corso del 2023, chiamati a comparare alcuni chatbot allora selezionati, per poi, a fine 2024, effettuare un confronto anche storico (sempre rispetto a ChatGPT) sugli stessi chatbot considerati leader di mercato.
Si è limitato, sempre per omogeneità di confronto, il campo di indagine ai tool teoricamente con funzionalità di interazione simili, selezionando i seguenti:
- ChatGPT [https://chat.openai.com/chat], preso a riferimento;
- Claude [https://claude.ai/new] (precedentemente [https://www.anthropic.com/product]);
- Gemini [https://gemini.google.com/app] (precedentemente Bard [https://bard.google.com/]);
- Deepseek [https://chat.deepseek.com/] da poco presente sul mercato.
I primi tre tool precedentemente esaminati erano tutti di origine USA, come storicamente ovvio. Ma da poco tempo si è presentato sul mercato internazionale il primo tool realizzato in Cina (Deepseek), tra l’altro offerto solo gratuitamente e che, pur con qualche sospetto di essere lesivo della privacy, dichiara di avere costi di realizzazione e gestione inferiori per qualche ordine di grandezza rispetto ai “campioni USA” selezionati (ChatGPT, Claude, Gemini).
In appendice sono riportati frammenti delle schermate contenenti le risposte di Deepseek alla prima domanda per ciascuna delle fasi simulate nel ciclo di vita del progetto preso a “campione”.
Per tutti i benchmark, allo scopo di mantenere una omogeneità nel confronto tra i vari chatbot (che ovviamente si avvalgono di differenti “motori” di generative AI), le configurazioni selezionate sono state per tutti quelle ad accesso gratuito, anche se presentano limiti sulla finestra temporale o sulla quantità di informazioni (token) scambiata nella conversazione.
Piano di benchmark
Nelle varie sessioni, appositamente dedicate a ciascuno dei chatbot (1, 2, 3, 4), sono state poste le stesse domande, inizialmente formulate per ChatGPT nella prima valutazione, e poi ripetute anche per i successivi benchmark effettuati nel 2023: estate ed autunno, nel loro possibile ruolo come personal assistant del Project Manager responsabile di un medesimo “progetto campione”, lo stesso progetto utilizzato per tutti gli assessment di qualità nel contesto citato.
Si ricorda che le 30 domande, in formato aperto, sono relative alla gestione del progetto campione, estratto/semplificato da un reale progetto ICT del PNRR, posizionandole temporalmente in successivi momenti del suo ciclo di vita:
- ad avvio progetto (Fase 1: principale focus su approccio metodologico),
- dopo 1 mese da inizio progetto (Fase 2: principale focus su situazione/azione richiesta),
- ad 1 settimana dalla fine del progetto (Fase 3: principale focus su lezioni apprese).
Questo ha consentito di ottenere risposte tra loro comparabili e valutabili, paragonandole anche con quelle ottenute nei successivi benchmark effettuati a circa 1 anno di distanza (estate 2024, inverno 2025), ora presentati.
Il modello di qualità applicato nei benchmark
Le risposte ottenute alle domande poste sono state valutate dagli autori secondo il modello di qualità applicato nell’assessment di ChatGPT e per il primo benchmark, di cui nel riquadro si ricordano le caratteristiche salienti.
Modello di qualità |
Caratteristiche esaminate |
Adeguatezza: Risposte pertinenti, precise, verificabili e tarate sulle esigenze del project manager. Completezza: Risposte approfondite, basate su più fonti affidabili, con eventuali alternative indicate. Originalità e capacità apprendimento: Risposte rielaborate autonomamente, linguaggio appropriato, capacità di migliorare dai feedback. Usabilità: Risposte rapide, chiare, facili da seguire e coerenti anche su più sessioni. |
Valutazione delle risposte |
Scala 0–3 per ogni sotto-caratteristica, con soglia minima 2; aggregazione tramite somma pesata. |
Valutazione risultati del benchmark
La valutazione comparativa di Deepseek con i “campioni USA”, secondo il modello sistematicamente adottato, è illustrata in sintesi nella seguente figura (Figura 1), mentre le analisi per caratteristica di qualità sono rappresentate nella successiva tabella (Tabella 1). Oltre ad ottenere una valutazione complessiva leggermente migliore rispetto agli altri tool (2,38), è da notare che Deepseek primeggia nella caratteristica “Completezza” e si posiziona ragionevolmente bene anche nelle altre caratteristiche di qualità.
Figura 1 – Andamento valutazioni Tool USA/Cina (qualità complessiva)
Tabella 1 – Andamento valutazioni Tool USA/Cina per caratteristica di qualità
Specificità degli strumenti esaminati
L’effettuazione di questi benchmark ha consentito di rilevare, mediante le risposte fornite, alcune caratteristiche salienti dei vari strumenti, attraverso una analisi sulla evoluzione “longitudinale” nel tempo (dove possibile) o sulle modalità di fornire riferimenti e link a documenti/esperienze reali.
Preliminarmente si è notato che per tutti i chatbot esaminati le conversazioni sono fluite regolarmente, senza difficoltà di comunicazione. Questo ha portato ad un miglioramento generalizzato sulla “adeguatezza” dei contenuti, valorizzando ulteriormente la caratteristica della “usabilità”. Anche i casi del fenomeno noto alla comunità specialistica come hallucination sembrano del tutto scomparsi, anche per la maggiore prudenza dei tool nel fornire link, spesso sostituiti da una serie di istruzioni per come cercarli autonomamente sul web.
I chatbot oggetto del benchmark, tutti supportati da differenti “motori” di generative AI, mostrano tuttavia caratteristiche simili: buoni risultati sulle questioni di carattere metodologico, ed ora anche una ragionevole efficacia nel rispondere a quesiti che richiedono una maggiore comprensione della situazione e previsione della possibile evoluzione del progetto, pur se ancora dei limiti nel fornire un efficace supporto alle decisioni o generare alert per il Project Manager.
Per questo motivo, tutti i chatbot ricevono valutazioni positive per le risposte relative alla Fase 1 (avvio progetto), mentre nei momenti successivi (Fasi 2 e 3), la valutazione risulta leggermente inferiore, ma ancora sopra la soglia, salvo che per Gemini, che risulta sotto la soglia per la fase 3. In ogni caso, per tutti i chatbot la valutazione per la fase 3 risulta leggermente peggiore che per la fase 2.
AI gen per il project manager, le priorità da affrontare
Dopo molti mesi di test e valutazioni, è chiaro che i chatbot AI stanno facendo progressi straordinari, ma il cammino verso la perfezione è ancora lungo. Per diventare veri assistenti di project management dovranno:
- Evitare di essere dispersivi, semplificando le interazioni e fornendo risposte più dirette.
- Migliorare la comprensione del contesto, adattando le risposte alle esigenze specifiche del project manager.
- Diventare più proattivi, suggerendo miglioramenti e anticipando le necessità dell’utente.
Mistral per il project manager: un primo esame
Alla domanda su cosa sia sviluppato e disponibile in Europa, una prima risposta (ancora superficiale) si è ottenuta dall’esame di Mistral. In particolare, la soluzione è stata preliminarmente testata, effettuando una conversazione con lo stesso scenario e le domande già poste agli altri chatbot. In attesa del perfezionamento di una valutazione completa, coerente al modello di qualità sopra indicato, emergono le seguenti prime indicazioni:
- Le risposte fornite sono state immediate ed esaurienti, anche se più sintetiche rispetto agli altri già testati;
- Il livello di qualità percepito risulterebbe appena al di sotto dei migliori chatbot da poco valutati;
- Il tono e completezza delle risposte sembra simile a ChatGPT di quasi un anno fa, ma in forma più sintetica (e senza allucinazioni).
Ma la cosa curiosa è che tra i riferimenti forniti (tutti italiani e attinenti il PNRR) è stato citato un articolo di questi stessi autori, sempre pubblicato su Agenda Digitale, di ma alcuni anni fa (Immagine 1)!
Allora non si parlava ancora di Intelligenza Artificiale, ma di Project Management per il PNRR: tema ancora oggi di notevole importanza.
D’altra parte, si può solo parzialmente capire il mancato riferimento a successivi articoli (pubblicati sempre dagli stessi autori od altri), visto che per Mistral l’aggiornamento delle conoscenze sul web è fermo all’autunno 2023 (come anche dichiara Deepseek), mentre i “campioni USA” affermano di aver ricevuto l’ultimo aggiornamento circa un anno dopo.
Immagine 1 — Riferimenti a documenti o esperienze specifiche di progetti nel settore ICT finanziati dal PNRR
Il futuro dell’AI gen per il project manager
La valutazione dei chatbot esaminati (e probabilmente anche di altri) è ora generalmente di livello accettabile in tutte le fasi del progetto. Questo rende finalmente efficace il supporto della IA nel ruolo che ci si attende da un personal assistant al Project Manager, ossia proprio dove la situazione emergente richiede risposte più puntuali e orientate all’azione e non solo limitata a fornire un supporto metodologico/didattico. Anche solo così sarebbe comunque utile (soprattutto per i meno esperti), visto che ora i riferimenti/link sono più specifici ed agevolmente accessibili.
Per esempio, potrebbe (o ormai, solo si poteva?) essere inserito in un solido programma di formazione a favore delle strutture pubbliche coinvolte nella gestione dei progetti PNRR, in modo da poter iniziare la sperimentazione degli strumenti di IA dedicati, presenti ed in continua evoluzione sul mercato.
Visto che il PNRR è composto sostanzialmente di progetti e ha tra le sue principali missioni/componenti proprio la “Digitalizzazione, innovazione, competitività, cultura e turismo/Digitalizzazione, innovazione e sicurezza nella PA, Task Force digitalizzazione, monitoraggio e performance”, sarebbe stato utile includere anche un progetto dedicato alla sperimentazione di un sistema di Project Management (PM) supportato dall’IA, proprio per monitorare lo sviluppo del PNRR stesso con l’AI, in modo da fornirlo come strumento in prova al PMO (Project Management Office) nell’ambito della “Task Force digitalizzazione, monitoraggio e performance”.
Proposte già enunciate anni fa, con circa le stesse parole e che forse si è ancora in tempo a recepire: sicuramente le competenze di base sono già presenti e la relativa formazione (sostanzialmente un aggiornamento) non dovrebbe essere particolarmente impegnativa.
Restiamo, come comunità di esperti/appassionati di PM ed ICT, ovviamente a disposizione: sono certamente le persone che portano i progetti a raggiungere il risultato (e ottenere i relativi benefici)!
Appendice
Risposte Deepseek (estratto screenshot)
Screenshot 1 – prima domanda-Fase 1 (Approccio Metodologico: avvio progetto)
Screenshot 2 –prima domanda-Fase 2 (Situazione/Azione: dopo 1 mese da inizio progetto)
Screenshot 3 –prima domanda-Fase 3 (Lezioni apprese: ad 1 settimana da fine progetto)
***** l’articolo pubblicato è ritenuto affidabile e di qualità*****
Visita il sito e gli articoli pubblicati cliccando sul seguente link