Negli ultimi mesi, la traiettoria dell’intelligenza artificiale ha subito una svolta silenziosa ma profonda. A ridisegnare le mappe del potere tecnologico non è stato un nuovo supermodello da miliardi di parametri, ma una serie di modelli “piccoli”, agili, sorprendentemente efficaci.
La crisi della legge di scala nell’intelligenza artificiale
Tra questi, DeepSeek ha segnato un punto di svolta: ha dimostrato che anche architetture compatte, se ben progettate, possono competere con i giganti come GPT-4, minando alla base il modello di business fondato sulla vendita di accessi a modelli proprietari, tariffati in base al numero di token — minuscole sequenze di caratteri, unità contabili del linguaggio macchina.
Fino a pochi mesi fa la legge che guidava la creazione di nuovi modelli era la “legge di Scala”. La legge di scala, nel contesto dell’intelligenza artificiale, postula che l’aumento delle dimensioni di un modello—misurato in termini di parametri e dati di addestramento—comporti un miglioramento proporzionale delle sue prestazioni. Questo principio ha guidato lo sviluppo dei modelli linguistici di grandi dimensioni (LLM) fino a poco tempo fa.
Storicamente, la legge di scala ha trovato applicazione in vari ambiti dell’IA, con l’idea che “più grande è meglio” diventando un mantra per molte aziende tecnologiche. L’addestramento di modelli sempre più grandi ha portato a progressi significativi, ma anche a un aumento esponenziale dei costi computazionali ed energetici.
Tuttavia, esempi recenti indicano che questa relazione sta mostrando segni di cedimento. Modelli come GPT-4.5 e Llama 4, nonostante le loro dimensioni imponenti, non hanno offerto i miglioramenti attesi, sollevando dubbi sulla sostenibilità di questo approccio sia in termini economici che ambientali. In alcuni casi i modelli più grandi stanno producendo risposte peggiori, hanno problemi di “dimenticare” informazioni, comportamenti anomali.
Implicazioni economiche del cambio di paradigma AI
La messa in discussione della legge di scala ha implicazioni economiche significative. Le aziende che hanno investito miliardi in infrastrutture per supportare modelli sempre più grandi stanno rivedendo le loro strategie (vedi Microsoft). Inoltre, l’attenzione si sta spostando verso modelli più efficienti e sostenibili, che offrono prestazioni competitive con un minore impatto ambientale e costi ridotti.
In risposta ai limiti della legge di scala, sta emergendo un nuovo approccio focalizzato sull’efficienza piuttosto che sulla grandezza. Modelli come DeepSeek dimostrano che è possibile ottenere prestazioni competitive con risorse computazionali significativamente inferiori.
Questa tendenza verso soluzioni più leggere e accessibili apre nuove opportunità per l’adozione dell’intelligenza artificiale in contesti aziendali e istituzionali, riducendo i costi e l’impatto ambientale. Le aziende possono implementare modelli AI personalizzati senza la necessità di infrastrutture costose, democratizzando l’accesso a queste tecnologie avanzate.
L’approccio low cost non solo rende l’IA più accessibile, ma promuove anche l’innovazione in settori precedentemente esclusi a causa delle barriere economiche. Inoltre, favorisce lo sviluppo di modelli open source, che possono essere adattati e migliorati dalla comunità globale, accelerando il progresso tecnologico in modo collaborativo.
Tensioni geopolitiche e reazioni del mercato AI
L’effetto non è stato solo tecnico. Ha toccato le borse, spaventato gli investitori, e provocato reazioni politiche. Negli Stati Uniti, i principali attori del mercato — OpenAI, Anthrophic e altri — hanno sollecitato interventi governativi per limitare l’uso di modelli cinesi, accusandoli, senza prove pubbliche, di mettere a rischio la sicurezza dei dati. Una campagna stampa aggressiva ha preso piede, mescolando timori geopolitici e interessi finanziari. In questo clima, diventa essenziale separare il segnale dal rumore.
La distillazione: tecnica chiave per modelli AI compatti
Una delle nuove tecniche di training che promette meglio è la “distillazione”. La distillazione dei modelli è una tecnica di compressione dell’intelligenza artificiale che consente di trasferire le conoscenze da un modello di grandi dimensioni (denominato “insegnante”) a uno più piccolo e leggero (denominato “studente”). Questo processo permette di ottenere modelli più efficienti in termini di risorse computazionali, mantenendo prestazioni comparabili a quelle dei modelli originali.
Il concetto di distillazione è usato per descrivere il processo di trasferimento delle informazioni da un modello complesso a uno più semplice. Tuttavia, le prime idee risalgono agli anni ‘90, quando si studiavano configurazioni di reti neurali “insegnante-studente” per migliorare l’efficienza dell’apprendimento.
Durante la distillazione, il modello insegnante genera output (spesso probabilità “soft”) su un set di dati. Il modello studente viene quindi addestrato a replicare questi output, apprendendo non solo le risposte corrette, ma anche le incertezze e le sfumature presenti nelle previsioni dell’insegnante. Questo approccio consente al modello studente di acquisire una comprensione più profonda dei dati, migliorando la generalizzazione e riducendo il rischio di overfitting.
In questa “guerra” tra aziende proprietarie che producono modelli, investimenti da capogiro della finanza e questioni geopolitiche capire cosa sia davvero un modello linguistico, come funziona e cosa implica usarne uno — open source o proprietario — non è più solo una questione tecnica. È un atto di consapevolezza strategica. Bisogna guardare dentro la scatola nera dell’AI e interrogarsi su chi ne tiene la chiave.
Architettura e funzionamento dei modelli linguistici
Nella discussione pubblica sull’intelligenza artificiale, uno degli errori più diffusi è pensare che i modelli linguistici di grandi dimensioni, noti come LLM, siano programmi informatici come gli altri. In realtà, non lo sono. Un LLM non è un software, ma un insieme di numeri: una struttura matematica inerte, simile a una mappa stellare che rappresenta le connessioni tra parole, frasi, significati. Una gigantesca matrice di parametri, fino a centinaia di miliardi, ottenuta attraverso l’addestramento su enormi moli di testi. Ma, da sola, questa struttura non fa nulla. Non risponde, non genera, non capisce. Serve un meccanismo che la attivi.
Quel meccanismo è il software di inferenza. Lavorando dietro le quinte, prende in input una richiesta dell’utente, consulta la mappa incisa nel modello e produce una risposta, parola dopo parola, calcolando le probabilità più alte tra miliardi di possibili combinazioni. Il modello LLM, senza questo interprete, resterebbe silenzioso come un disco in vinile senza giradischi. Il software di inferenza legge i microsolchi del modello e li traduce in suono: in questo caso, testo. Ma proprio come i giradischi non suonano senza corrente, anche il software d’inferenza deve essere eseguito in un ambiente sicuro e controllato.
Ogni modello può essere paragonato a un disco differente: alcuni contengono sinfonie complesse, altri melodie semplici ed efficaci. Il giradischi, ovvero il motore di inferenza, deve essere compatibile con quel disco, e la qualità del braccio, della puntina e dell’equalizzatore influenza il suono finale. Così anche il software d’inferenza svolge il ruolo di interprete, ed eseguono il modello con maggiore o minore efficienza, precisione, velocità. Il comportamento può essere regolato da parametri precisi: temperature controlla quanto creativa o prevedibile sarà una risposta; top-k limita le opzioni a un numero ristretto di parole candidate; top-p calcola la probabilità cumulata delle parole più verosimili. Altri parametri definiscono quanto lungo può essere un testo o penalizzano la ripetizione di parole già usate.
Basta cambiare uno di questi valori per ottenere risposte completamente diverse. Alla richiesta di descrivere una startup che produce gelati con l’AI, un modello con temperature bassa restituirà una definizione tecnica e sobria, mentre con temperature alta potrà immaginare gusti esotici come peperoncino e lavanda suggeriti da algoritmi ispirati ai sogni.
Applicazioni aziendali dei modelli AI locali
Le applicazioni aziendali di questi strumenti sono vaste. Un’azienda manifatturiera può usare un LLM per semplificare l’accesso alla documentazione tecnica dei macchinari, interrogando un modello addestrato localmente sui propri manuali. Un ufficio legale può automatizzare l’analisi preliminare dei contratti, facendo individuare clausole critiche da un modello sicuro eseguito in locale. In un team di customer service, un LLM può assistere gli operatori suggerendo risposte coerenti alle domande più frequenti. In ognuno di questi casi, è essenziale il controllo del motore di inferenza: è lì che passa ogni domanda, ogni dato, ogni informazione sensibile.
Privacy e rischi nella gestione dei dati per i modelli compatti
Per addestrare un modello servono sempre più nuovi dati e di sempre maggiore qualità. La fame di conversazioni è insaziabile, soprattutto quelle degli utenti. Per questo che ogni conversazione o richiesta che facciamo ad un modello LLM viene registrata e utilizzata dalle grandi corporation. Anche quando leggiamo delle condizioni di utilizzo dei modelli nelle quali ci dicono che non useranno i nostri dati io non mi fiderei. Nessuno può darci la sicurezza che non vengano utilizzate e, nel caso trovassimo nostri dati in un modello, oltre ad essere abbastanza difficile da dimostrare che quei dati sono nostri e ancora più difficile (per non dire buffo) fare causa ad una delle big tech o a dei colossi con base negli USA coperti dalle leggi degli States.
Motori di inferenza e sicurezza dei dati nei modelli compatti
Il pericolo non sono i modelli di per sé ma è come vengono utilizzati i motori di inferenza per registrare o meno le conversazioni. Si dice che i dati per l’addestramento sono finiti a livello planetario, ogni nuovo byte è prezioso di per sé.
Modelli linguistici compatti open source: sicurezza, flessibilità e performance
Molte persone temono che usare modelli open-source possa esporre l’azienda a furti di dati. Ma questa paura è infondata, se il modello viene eseguito in locale. I modelli open-source, di per sé, non trasmettono nulla all’esterno. Non hanno accesso a internet, non conservano i prompt, non imparano dai dati immessi. Sono strumenti sicuri, a patto che l’inferenza sia gestita in ambienti protetti. Il vero rischio, piuttosto, è affidarsi a servizi esterni senza sapere dove finiscono i dati. Alcune aziende che offrono l’inferenza via API conservano le richieste inviate dagli utenti per addestrare nuovi modelli. Altre potrebbero essere soggette a vulnerabilità di sicurezza, bug, o accessi impropri.
La soluzione è adottare un paradigma di Private AI. I modelli possono essere usati all’interno dell’azienda, mantenendo sotto controllo ogni componente: dalla rete, al software d’inferenza, ai dati di input. Si possono integrare con sistemi esistenti, rispettare le policy di sicurezza, mantenere la piena conformità al GDPR. I modelli open-source offrono la massima flessibilità in questo senso. Non solo sono trasparenti e modificabili, ma oggi raggiungono performance sorprendentemente vicine ai modelli commerciali più grandi, soprattutto se specializzati su compiti ben definiti. Per attività come RAG, classificazione, agenti, estrazione di dati, generazione di sintesi o completamento di documenti, modelli leggeri come DeepSeek, Qwen, Mistral, LLaMA, Phi-4 o Gemma si dimostrano più che adeguati, con tempi di inferenza ridotti e costi operativi bassissimi.
Consapevolezza e controllo nell’uso dei modelli linguistici compatti
Ecco perché è fondamentale comprendere cosa davvero sia un LLM. Non un agente autonomo, non un sistema che capisce, ma un archivio di probabilità linguistiche, una biblioteca di frasi congelate. Per leggerle serve un bibliotecario: il software d’inferenza. E chi controlla quel bibliotecario, controlla tutto.
Impatto ambientale dell’intelligenza artificiale
Lo sviluppo e l’addestramento di grandi modelli di intelligenza artificiale richiedono enormi quantità di energia, contribuendo significativamente alle emissioni di carbonio. Questo solleva preoccupazioni ambientali, specialmente in un’epoca in cui la sostenibilità è una priorità globale. Ad esempio, l’addestramento di modelli come ChatGPT-3 ha comportato l’emissione di circa 300 tonnellate di CO₂, mentre l’utilizzo può richiedere oltre 400 milioni di litri d’acqua all’anno. Inoltre, la crescente domanda di energia per alimentare i data center potrebbe aumentare del 160% entro il 2030, rappresentando circa il 19% del fabbisogno energetico totale dei data center. La maggior parte del consumo idrico avviene durante la fase di addestramento dei modelli di intelligenza artificiale, piuttosto che durante l’inferenza o l’uso quotidiano da parte degli utenti. Ad esempio, l’addestramento di GPT-3 è stato stimato consumare circa 700.000 litri di acqua, equivalente all’impronta idrica della produzione di 320 veicoli elettrici Tesla.
Consumo idrico e variabilità negli impatti ambientali dei modelli linguistici
La questione del consumo idrico legato all’utilizzo di modelli di intelligenza artificiale come ChatGPT è stata oggetto di diverse stime e studi, con risultati variabili a seconda delle metodologie adottate. Uno studio condotto dall’Università della California a Riverside ha stimato che una conversazione con ChatGPT composta da 30-50 domande può consumare circa mezzo litro di acqua, principalmente a causa del raffreddamento necessario nei data center che ospitano i server di intelligenza artificiale. Tuttavia, è importante notare che queste stime possono variare significativamente in base a diversi fattori, come la posizione geografica dei data center e le condizioni climatiche locali. Ad esempio, in Texas, la generazione di un’email di 100 parole da parte di ChatGPT può consumare circa un quarto di litro di acqua, mentre la stessa operazione effettuata da Washington può richiedere fino a 1,4 litri, a causa delle differenze nei sistemi di raffreddamento e nelle fonti energetiche.
Modelli linguistici compatti e soluzioni per la sostenibilità ambientale
La crescente consapevolezza di questi impatti sta spingendo verso l’adozione di modelli più efficienti e meno energivori, in linea con le esigenze di un futuro più sostenibile. Le aziende stanno esplorando soluzioni come l’uso di energie rinnovabili e l’ottimizzazione degli algoritmi per ridurre l’impronta ecologica dell’IA.
Il settore dell’intelligenza artificiale è attraversato da un’ondata di entusiasmo che spesso confonde la realtà tecnica con le narrazioni economiche e le esigenze geopolitiche. Le grandi aziende dell’AI sembrano oggi rispondere più alle logiche dei finanziatori che a quelle del mercato, spinte a fare promesse sempre più ambiziose — e talvolta irrealistiche — nel tentativo di attrarre nuovi capitali. In questo scenario, la disinformazione non è un effetto collaterale, ma uno strumento strategico: serve a costruire consenso, alimentare aspettative e mantenere il vantaggio competitivo su scala globale.
Prospettive future e rischi legati alla concentrazione dei modelli AI
Dobbiamo sperare che nuove tecniche di training ci forniscano modelli sempre più efficienti e piccoli, disponibili e alla portata di sempre più persone e indipendenti da pochi fornitori. Come nell’intelligenza umana la diversificazione e la varietà consente alla collettività di progredire e crescere, il rischio di trovarci di fronte a pochi “cervelloni” non è solo un rischio economico e strategico ma soprattutto un rischio di minare le fondamenta del nostro genere umano che è bello perché è vario.
***** l’articolo pubblicato è ritenuto affidabile e di qualità*****
Visita il sito e gli articoli pubblicati cliccando sul seguente link