Os modelos de inteligência artificial desenvolvidos pela equipe da DeepMind, do Google, e pela OpenAI conquistaram uma nova distinção ao derrotar estudantes do ensino médio em matemática. Ambas as empresas anunciaram que obtiveram medalhas de ouro na edição deste ano da Olimpíada Internacional de Matemática (IMO), uma das competições mais desafiadoras para jovens matemáticos. O evento reúne os melhores alunos do mundo, convidados a participar de uma prova que exige a resolução de questões complexas e de múltiplas etapas.
Na competição, os participantes se submeteram a dois exames de quatro horas e meia, nos quais deveriam solucionar seis perguntas, com valores diferentes atribuídos a cada parte das questões. Os modelos da DeepMind e da OpenAI conseguiram resolver cinco das seis questões perfeitamente, obtendo um total de 35 dos 42 pontos possíveis, um desempenho que lhes garantiu a medalha de ouro. Ao todo, 67 participantes humanos dos 630 que competiram também conquistaram o prêmio máximo.
Entretanto, surgiram algumas controvérsias sobre a participação da OpenAI na competição. A DeepMind recebeu um convite oficial para participar da IMO e divulgou seu rendimento em um post no blog na segunda-feira, logo após o anúncio dos resultados oficiais dos estudantes. Em contraste, a OpenAI, segundo informações da Implicator.ai, não participou da IMO. A empresa resolveu as questões que foram tornadas públicas e divulgou sua performance, alegando um desempenho ao nível de ouro, embora isso não possa ser verificado pela IMO devido à falta de participação.
Além disso, a OpenAI não aguardou o anúncio oficial dos resultados e revelou seu desempenho no fim de semana, contrariando os desejos da IMO, que pediu que as empresas não ofuscassem os estudantes. Os modelos de AI que solucionaram os problemas participaram do exame nas mesmas condições dos alunos, com quatro horas e meia para cada prova, sem acesso a ferramentas externas ou à internet.
Curiosamente, ambas as empresas optaram por utilizar IA de propósito geral, em vez de modelos especializados, que anteriormente se mostraram mais eficazes. Um ponto relevante sobre as declarações das duas empresas é que nenhum dos modelos que obteve a medalha de ouro está disponível publicamente, e modelos de acesso público apresentaram desempenhos muito abaixo do esperado. Pesquisadores testaram modelos como Gemini 2.5 Pro, Grok-4 e OpenAI o4, mas nenhum deles conseguiu pontuar mais de 13 pontos, abaixo dos 19 necessários para conquistar uma medalha de bronze.
A desconfiança em relação aos resultados ainda persiste, considerando que a má performance dos modelos públicos indica uma diferença significativa entre as ferramentas disponíveis e o que modelos mais ajustados podem realizar. Isso suscita questionamentos sobre porque esses modelos mais eficientes não podem ser ampliados para o uso geral. Contudo, é possível extrair duas lições importantes: os modelos laboratoriais estão avançando em habilidades de raciocínio e a OpenAI, parece, não conseguiu conter sua ânsia de roubar os holofotes de adolescentes brilhantes.