Il nocciolo della questione è questo “o no”. Se un modello di intelligenza artificiale lancia sciocchezze in risposta alle domande degli utenti o non risolve correttamente le attività, l’attività non è necessariamente al di là delle sue capacità. Potrebbe anche essere dovuto al modo in cui viene posta la domanda. I modelli AI acquisiscono competenze durante il pre-training (la “P” in GPT sta per “pre-training”). Il processo costoso e dispendioso in termini di tempo richiede mesi per i modelli di grandi dimensioni e di solito non viene ripetuto. Il comportamento viene successivamente modificato dalla regolazione fine (“fine tuning”). “Il modello base pre-addestrato è solo un sofisticato completamento automatico: non può ancora parlare con gli utenti”, spiegano gli autori di AI Snakeoil.
Modelli come ChatGPT apprendono il comportamento conversazionale solo attraverso la messa a punto. Le risposte spam vengono prevenute anche modificando nuovamente il modulo. Gli autori avvertono che la messa a punto affina le abilità desiderabili sopprimendo le altre. Le capacità del modello dovrebbero rimanere sostanzialmente le stesse nel tempo, mentre il comportamento del chatbot AI potrebbe cambiare radicalmente.
Durante la creazione del codice sorgente, il trio californiano Lingjiao Chen, Matei Zaharia e James Zou ha scoperto che il nuovo GPT-4 può aggiungere testo in linguaggio naturale all’output, non solo un puro linguaggio di programmazione. Il modulo tenta di fornire spiegazioni agli utenti con informazioni aggiuntive. Per la loro valutazione, tuttavia, gli autori hanno solo indagato se il codice del programma potesse essere eseguito direttamente, cioè descrivere un programma eseguibile. Le informazioni aggiuntive, che i tester umani hanno trovato costantemente utili, paradossalmente hanno abbassato il modello in questa forma di valutazione, secondo la newsletter di Snakeoil. Durante la valutazione dei problemi di matematica, gli autori di Snakeoil hanno riscontrato ulteriori incongruenze.
Discrepanze sistematiche nei test di matematica
Qui i modelli hanno dovuto affrontare 500 domande sui numeri primi. Ma in ogni caso, Chen, Zaharia e Zhou hanno servito un numero primo, quindi la risposta corretta avrebbe dovuto essere “sì” in tutti i casi. Apparentemente, i modelli non si sono preoccupati di testare tutti i possibili denominatori, hanno solo fatto finta e saltato questo passaggio, dice la newsletter. Il modello elencava denominatori da testare ma non convalidati, secondo Narayana e Kapoor. Pertanto, non esiste una vera soluzione al problema di matematica qui. Testando modelli con numeri complessi, gli autori di Snakeoil hanno scoperto che la presunta diminuzione delle prestazioni dell’IA era dovuta alla scelta dei materiali da valutare.
Poiché il trio californiano aveva testato solo numeri primi, hanno dovuto interpretare i risultati dei beta test come un massiccio calo delle prestazioni. Con GPT-3.5 sembrava esattamente l’opposto per loro. Kapoor e Narayana concludono che tutti e quattro i modelli sono “ugualmente cattivi” nel risolvere i problemi di matematica. La versione di marzo di GPT-4 indovina sempre numeri primi, mentre la versione di giugno indovina sempre numeri complessi.
La prestampa mostra che il comportamento del modello è cambiato nel tempo. Secondo Kapoor e Narayana, i test condotti non dicono nulla sulle capacità dei modelli. Il fatto che l’errore di calcolo del trio “si sia diffuso rapidamente” aveva a che fare con le aspettative del pubblico: circolavano voci secondo cui OpenAI aveva abbassato le prestazioni dei suoi modelli per risparmiare tempo e costi di elaborazione. Quando OpenAI lo ha pubblicamente negato, il pubblico lo ha interpretato come fuorviante.
La risposta della macchina riflette il livello della domanda umana
Non è stato possibile determinare se ci fosse del vero nelle voci sulla deliberata riduzione del potere. Una spiegazione plausibile per il “deterioramento” auto-percepito delle proposte di ChatGPT potrebbe essere che gli utenti stanno diventando più consapevoli dei limiti di ChatGPT e si rendono conto di non avere una macchina magica sotto le dita con l’aumentare della pratica. Inoltre, non tutti gli utenti sono ugualmente esperti e abili nella motivazione (descrivi il problema in linguaggio naturale al modello AI, che porta al risultato desiderato). Alcune persone soccombono alla frustrazione quando i loro suggerimenti non creano automaticamente un programma funzionante in uno o due passaggi o si traducono in un romanzo pronto per la stampa. Qui le competenze umane plasmano la percezione e il giudizio dei modelli con cui si interagisce.
D’altra parte, cambiare il comportamento del paradigma cambia inevitabilmente l’esperienza dell’utente, poiché i prompt e i diagrammi di istruzioni ben collaudati improvvisamente non funzionano più come al solito quando il comportamento cambia. Dal lato utente, è come se il modello fosse scivolato in termini di capacità, è un’esperienza negativa e, nel caso di applicazioni cucite attorno all’API OpenAI, può portare a interruzioni nei modelli di business.
“Le insidie che abbiamo scoperto ci ricordano quanto sia difficile quantificare i modelli linguistici”.
I vecchi snapshot dello stato del modello (“snapshot”) non arrivano alla radice del problema, poiché sono disponibili solo per un breve periodo e vengono sostituiti da nuovi snapshot. I modelli difficilmente possono essere ricercati scientificamente, poiché le serie di test non possono più essere riprodotte dopo poco tempo e l’IA generativa può dare risposte diverse a domande identiche o simili. È importante tenere presente che la continua messa a punto post-fine di modelli di linguaggio di grandi dimensioni può portare a cambiamenti imprevedibili e talvolta drastici nel comportamento del modello per determinate attività.
Gli autori di Snake Oil concludono con le loro note critiche: “Le insidie che abbiamo scoperto ci ricordano quanto sia difficile valutare quantitativamente i modelli linguistici”. Le note sul loro metodo sperimentale possono essere trovate alla fine del post sul blog. Se vuoi controllare tu stesso i moduli, dovresti sbrigarti prima che il comportamento del modulo ricominci a girare.
“Specialista del web. Appassionato di cultura pop. Pensatore. Foodaholic. Esperto di viaggi. Appassionato di caffè. Sostenitore televisivo amatoriale.”