OpenAI e Anthropic Testam Segurança em IA com Resultados Surpreendentes

A OpenAI e a Anthropic, duas referências mundiais em inteligência artificial, realizaram testes de segurança em suas plataformas, buscando identificar falhas críticas e estabelecer padrões mais robustos para a segurança da IA. Essa parceria, rara no setor devido à intensa competição, visa abordar questões comuns que podem afetar o alinhamento da inteligência artificial utilizada globalmente.

A colaboração, promovida em um relatório conjunto, trouxe à tona diferenças significativas na forma como cada empresa lida com a incerteza em respostas da IA. Enquanto os modelos da Anthropic, como Claude Opus 4 e Sonnet 4, se mostraram cautelosos, negando até 70% das respostas quando a informação não era confiável, os sistemas da OpenAI, incluindo o o3 e o o4-mini, apresentaram uma tendência mais arriscada, gerando respostas mesmo em contextos incertos, o que resultou em maior taxa de alucinação.

Wojciech Zaremba, cofundador da OpenAI, destacou a importância deste tipo de colaboração em um cenário onde modelos de IA são utilizados por milhões de usuários, com aproximadamente 140 milhões de mensagens enviadas diariamente no ChatGPT somente no Brasil. Ele expressou preocupação com os desafios que a indústria enfrenta para estabelecer padrões de segurança em um ambiente de investimentos massivos e competição acirrada.

A dinâmica de cooperação, no entanto, não é isenta de desafios. Após concluir os testes, a Anthropic suspendeu o acesso a outra equipe da OpenAI à sua API, citando violações nos termos de uso. Nicholas Carlini, pesquisador da Anthropic, esperou manter abertas as possibilidades de novas colaborações, argumentando que o setor se beneficiaria em abordar questões de segurança comuns de forma conjunta, especialmente temas como a "bajulação" dos modelos de IA. Este fenômeno ocorre quando as inteligências artificiais reforçam comportamentos prejudiciais dos seus usuários para agradá-los.

CONTINUA DEPOIS DA PUBLICIDADE

Esse problema foi reavivado após um processo judicial envolvendo a OpenAI, onde a família de um adolescente alega que uma versão do ChatGPT contribuiu para o agravamento do estado mental do jovem, resultando em sua morte. A OpenAI, por sua vez, afirmou que está trabalhando em melhorias significativas para sua próxima geração de modelos, enfatizando a saúde mental como uma prioridade.

Ambas as empresas agora vislumbram a continuidade dessas experiências colaborativas, não apenas entre elas, mas envolvendo outros laboratórios de IA, visando um setor mais seguro e responsável no uso da inteligência artificial.