La IA realment pensa? O només ho sembla?
Un nou estudi d’Apple assenyala les trampes cognitives dels grans models de llenguatge i suggereix que poden semblar intel·ligents tot i no comprendre el que diuen.
Recordeu quan en alguns exàmens omplíeu pàgines senceres amb frases ben construïdes però sense gaire contingut, només per fer veure que dominàveu la matèria? Doncs segons un nou estudi d’Apple, potser la IA generativa fa exactament això mateix: intenta semblar que ha entès la lliçó, tot i que no n’ha assimilat els conceptes clau.
Els grans models de llenguatge (LLMs), com GPT, Geminia o DeepSeek, són capaços de mantenir converses, resoldre problemes, generar codi i resumir documents com si fossin experts humans. Però darrere d’aquesta aparença d’intel·ligència s’hi amaga una il·lusió: no pensen, no entenen i no saben que no saben.
Aquesta és una de les conclusions més rellevants de la recerca recent publicada pel departament de Machine Learning d’Apple sota el títol The Illusion of Thinking (abril 2024), en què s’examina fins a quin punt els models d’IA poden “semblar que pensen” quan en realitat només repeteixen patrons estadístics apresos de grans volums de dades textuals.
Respostes convincents, però incorrectes
Els investigadors han analitzat diversos sistemes LLM entrenats amb arquitectures i dades similars, però amb petites variacions en el procés d'entrenament. El resultat és clar: la qualitat aparent d'una resposta no té una correlació directa amb la seva veracitat. És a dir, un model pot sonar convincent i articulat, però donar una resposta errònia.
És el que els autors anomenen “il·lusió de pensament”: com més elaborada és una resposta, més fàcil és per a nosaltres caure en la trampa de creure que el model sap de què parla.
La importància de les preguntes difícils
L’estudi també revela que molts LLM superen proves conegudes com el MMLU (Massive Multitask Language Understanding), però fallen en versions “parcialment contrastades”, on les preguntes són iguals però amb lleugers canvis o amb respostes més difícils de deduir per associació estadística.
Aquest tipus de proves són clau per distingir entre una IA que reprodueix patrons memoritzats i una que realment ha entès el concepte. Segons Apple, només els models entrenats explícitament per superar aquest tipus de reptes demostren una millora real en capacitat de raonament.
Quines lliçons podem extreure?
Per a empreses, institucions o administracions públiques que volen començar a aplicar IA generativa, l’article ens recorda tres advertiments importants:
La fluïdesa no és sinònim de comprensió. Una resposta ben escrita no implica que sigui certa.
Els models són predictius, no deductius. No raonen com els humans, sinó que anticipen paraules basant-se en estadístiques.
Cal dissenyar proves rigoroses. Per validar l’ús de la IA, no n’hi ha prou amb demanar-li que sembli competent, cal posar-la a prova amb escenaris reals i matisats.
Un cop més: no és màgia, és enginyeria
El gran mèrit d’aquest article no és només tècnic, sinó comunicatiu. Apple obre la capsa negra i demostra que, malgrat la seva aparent brillantor, la IA generativa no deixa de ser una eina estadística, molt potent, però plena de biaixos i limitacions.
Al final, potser la veritable intel·ligència és saber reconèixer on acaba la capacitat dels models i on comença la responsabilitat humana.
Ignasi, jo també he estat donant voltes al paper d'Apple aquesta setmana passada. Més enllà de tenir clar que els LLM no tenen un concepte socràtic del coneixement, em crida l’atenció que tot això que s’hi descriu, i que tu escenifiques molt bé en el primer paràgraf, són comportaments ben humans, oi? Igual que les al·lucinacions, igual que el fet que siguin capaces de fer trampes o mentir per assolir un objectiu.
El que vull dir és si no estem posant en marxa una IA feta a imatge nostra, amb tot el que això comporta, tant el bo com el dolent.