Um novo estudo conduzido por pesquisadores da Universidade do Estado do Arizona revela que a suposta capacidade de raciocínio dos modelos de linguagem em larga escala (LLMs) é, na verdade, uma “miragem”. Segundo a pesquisa, esses sistemas, que incluem assistentes de inteligência artificial como ChatGPT e Gemini, mostram-se incapazes de lidar com problemas lógicos que não estavam presentes em seu treinamento inicial.
Com a popularização de técnicas como "cadeia de pensamentos", que supostamente ajudam na identificação de respostas por meio de passos lógicos, os acadêmicos afirmam que essas ferramentas tampouco garantem a correção das soluções apresentadas. O estudo, disponível na plataforma Arxiv, sugere que os LLMs podem criar raciocínios que, embora pareçam corretos, incluem erros lógicos significativos.
Dificuldades com Novos Desafios
O trabalho dos cientistas foi focado em avaliar a eficácia do raciocínio dos modelos de linguagem. Para isso, foi desenvolvido um ambiente experimental onde transformações simples de texto foram utilizadas como base de tarefas. Em um dos testes, os modelos foram programados para cifrar palavras, mas, quando encararam desafios novos que exigiam a combinação de diferentes transformações, começaram a falhar. Por exemplo, um modelo treinado para deslocar letras não conseguiu embaralhar sua ordem, mostrando que sua capacidade de generalização estava comprometida.
Resultados Preocupantes
No experimento, verificou-se que os modelos apresentavam um desempenho pior conforme aumentava a complexidade do prompt e o número de etapas para alcançar uma resposta correta. Apesar de algumas tentativas de generalização baseadas em padrões aprendidos, os LLMs frequentemente erravam suas respostas. Os pesquisadores apontam que, mesmo com uma linha de raciocínio certa, o modelo poderia falhar na conclusão.
Implicações da Pesquisa
A pesquisa alerta para os riscos associados à confiança nas soluções fornecidas pelos LLMs. Se um usuário aceitar uma resposta sem a devida verificação, pode acabar adotando informações com falhas lógicas. Além disso, os acadêmicos questionam a estratégia de introduzir novos dados como solução para as lacunas identificadas, considerando-a "insustentável e reativa".
Estudos Anteriores e Críticas
Essa não é a primeira vez que acadêmicos apontam limitações nos sistemas de IA. Pesquisas anteriores, incluindo uma de cientistas associados à Apple, reafirmaram a visão de que LLMs dependem de reconhecimento de padrões, e não de um verdadeiro planejamento simbólico. Outros estudos, em universidades chinesas e na Universidade de Nova York, corroboraram essa ideia, identificando falhas na estratégia de resolução de problemas por parte da IA. No entanto, alguns críticos sustentam que esses estudos podem ser simplistas ao não considerar as capacidades dos LLMs de codificar soluções ou buscar informações em fontes externas.
As conclusões deste estudo levantam questões importantes sobre o uso atual de assistentes de inteligência artificial e destacam a necessidade de uma abordagem mais crítica diante de suas limitações.