A OpenAI lançou dois novos modelos de inteligência artificial avançada, o o3 e o o4-mini, em 16 de abril de 2025, com o objetivo de aprimorar as capacidades da IA em matemática, programação, raciocínio, ciências e compreensão visual. No entanto, foi constatado que esses modelos apresentam uma maior frequência de alucinações, que correspondem à geração de informações incorretas ou fabricadas, o que levanta preocupações sobre sua confiabilidade.
Os modelos o3 e o4-mini foram introduzidos como parte dos esforços mais recentes da OpenAI para melhorar o raciocínio da IA. O modelo o3 é promovido como o mais avançado da OpenAI até o momento, superando modelos anteriores em diversos benchmarks. O o4-mini, por sua vez, oferece um equilíbrio entre custo, velocidade e desempenho, atraindo desenvolvedores que buscam soluções de IA eficientes. Ambos os modelos têm a capacidade de utilizar ferramentas como navegação na web, execução de código Python e processamento de imagens dentro do ChatGPT, expandindo seu escopo funcional além da mera geração de texto.
Os novos modelos foram oficialmente lançados em 16 de abril de 2025 e estão disponíveis para assinantes dos planos Pro, Plus e Team da OpenAI. Este lançamento faz parte da estratégia da OpenAI para manter uma vantagem competitiva na corrida global de IA contra empresas como Google, Meta, xAI, Anthropic e DeepSeek.
Desenvolvedores, empresas e usuários finais que dependem da IA para informações precisas e tomada de decisões são os mais afetados pelo aumento nas taxas de alucinação. Historicamente, cada novo modelo da OpenAI costumava reduzir as alucinações, melhorando a confiança dos usuários. No entanto, os novos modelos o3 e o4-mini relatadamente produzem alucinações com mais frequência do que até mesmo modelos não-raciocinais, como o GPT-4o, o que é incomum e problemático em aplicações onde a precisão é crucial.
Investigações internas da OpenAI ainda não conseguiram identificar a causa exata do aumento nas alucinações. Um relatório técnico sugere que as técnicas de aprendizado por reforço usadas para treinar os modelos da série o podem amplificar problemas de alucinação que métodos de pós-treinamento anteriores apenas mitigavam parcialmente. Essa hipótese indica que os próprios métodos projetados para melhorar o raciocínio podem, inadvertidamente, aumentar a tendência a fabricar informações.
O aumento das alucinações representa um desafio para a OpenAI, que investiu pesadamente nesses modelos na expectativa de superá-los. Embora as alucinações possam, por vezes, fomentar a criatividade e gerar ideias novas, elas minam a confiabilidade necessária para uso comercial e profissional. Essa dicotomia complica a adoção desses modelos em ambientes onde a precisão é de suma importância, como programação, pesquisa científica e sistemas de apoio à decisão.
Apesar dos problemas com alucinações, o modelo o3 obteve uma pontuação de 69,1% no teste verificado SWE-bench, que mede a capacidade de codificação, enquanto o o4-mini alcançou 68,1%, indicando um desempenho forte em tarefas técnicas. Essas pontuações refletem avanços significativos, mas também destacam a tensão entre o aprimoramento do raciocínio e o aumento das taxas de alucinação.