Logo do Tudo Notícias
  • Últimas notícias
  • Ofertas
Brasil
Mundo
Esportes
Política
Produtos e Reviews
Saúde
Tecnologia
Games
Logo
  • Página Inicial
  • Sobre
  • Política de Privacidade
  • Termos de uso
  • Contato
Redes sociais
  • Facebook TN
  • tudonoticiasoficial
  • tudonoticiasof
Editorias
  • Brasil
  • Cultura Pop
  • Economia
  • Educação
  • Entretenimento
  • Esportes
  • Estados
  • Games
  • Mundo
  • Política
  • Saúde
  • Tecnologia
Educação
  • Educação
  • Educação Infantil
  • Ensino Básico
  • Ensino Superior
Games
  • Consoles e Hardware
  • Dicas e Tutoriais
  • Esports
  • Game Development
  • Indie Games
  • Indústria
  • Lançamentos
  • Mobile Games
  • PC e Mods
  • Promoções
  • Retrô e Nostalgia
  • Retro Gaming
  • Streaming
  • Xbox
Tecnologia
  • Blockchain
  • Cibersegurança
  • Ciência e Inovação
  • Cripto
  • Gadgets
  • Inovação
  • Inteligência Artificial
  • Redes Sociais
  • Robótica e Automação
  • Smartphones e Tablets
  • Software e Aplicativos
  • Startups
Brasil
  • Acidentes
  • Agronegócio
  • Cidades
  • Desastres
  • Homicídios
  • Indústria
  • Infraestrutura
  • Loteria
  • Policial
  • Regiões
  • Transportes
Entretenimento
  • BBB 25
  • Celebridades
  • Cinema
  • Documentários
  • Eventos
  • Música
  • Premiações
  • Streaming
  • Teatro
  • TV e Séries
  • Vida Social
Mundo
  • América Latina
  • Ásia
  • Conflitos
  • Crises
  • Cultura
  • Cultura Regional
  • Estados Unidos
  • Europa
  • Geek
  • Geopolítica
  • Negociações
  • Oriente Médio
  • Pandemias
  • Refugiados
  • Terrorismo
Cultura Pop
  • Animes & Mangás
  • Filmes
  • HQs
  • K-Pop
  • Séries
  • Streaming
Esportes
  • Artes Marciais
  • Atletismo
  • Automobilismo
  • Basquete
  • Boxe
  • Ciclismo
  • Esportes Radicais
  • Esports
  • Futebol
  • Futebol Internacional
  • Handebol
  • Jogos
  • Lutas
  • Natação
  • NBA
  • Seleção Brasileira
  • Tênis
  • UFC
  • Vôlei
Política
  • Campanhas
  • Congresso
  • Diplomacia
  • Eleições
  • Governos
  • Judiciário
  • Orçamento
  • Partidos
  • Política Econômica
  • Política Internacional
  • Reformas
  • Reformas Econômicas
Economia
  • Agronegócio
  • Bancos
  • Crédito
  • Economia
  • Economia Global
  • Endividamento
  • Exportação
  • Fintechs
  • Impostos
  • Indústria
  • Inovação
  • Investimentos
  • Política Econômica
  • Renda
  • Salários e Empregos
  • Tributação
  • Varejo
Estados
  • Acre
  • Alagoas
  • Amapá
  • Bahia
  • Goiás
  • Maranhão
  • Minas Gerais
  • Pará
  • Paraíba
  • Pernambuco
  • Piauí
  • Rio de Janeiro
  • Rio Grande do Sul
  • Rondônia
  • Roraima
  • São Paulo
  • Sergipe
Saúde
  • Bem-Estar
  • Cuidados com a Pele
  • Doenças
  • Doenças Raras
  • Estilo de Vida
  • Fitness
  • Longevidade
  • Medicina
  • Nutrição
  • Pesquisas
  • Saúde Mental
  • Saúde Pública
  • Tratamentos
  • Vacinas

TudoNotícias

Tudo Notícias   © Copyright. Todos os direitos reservados.
Desenvolvido por
Powered by Yooh
  1. Capa
  2. Tecnologia
  3. Inteligência Artificial

Benchmarking de IA Agora Inclui Pokémon e Controvérsias

15/04/2025 09h35

Imagem de Pokémon associada à controvérsia sobre o modelo Gemini do Google. Reprodução: TechCrunch

Recentemente, o universo dos jogos de Pokémon tornou-se inesperadamente um ponto de discussão sobre benchmarking em inteligência artificial, quando um post viral na plataforma X destacou que o modelo Gemini, da Google, superou o modelo Claude, da Anthropic, ao jogar a trilogia original de Pokémon. No entanto, essa comparação não é tão straightforward quanto parece: o Gemini foi auxiliado por um mapa miniatura personalizado, que permitiu ao modelo identificar elementos cruciais do jogo sem depender exclusivamente da análise de tela. Essa situação levantou questionamentos sobre a justiça e a validade dos testes de benchmarking de IA.

A Curiosidade do Benchmark Pokémon

O uso de Pokémon como benchmark para IA pode parecer peculiar à primeira vista, mas serve como um exemplo interessante de como as variações na implementação influenciam os resultados. Durante uma transmissão no Twitch, o Gemini alcançou Lavender Town, enquanto o Claude ficou preso em Mount Moon. Essa diferença de desempenho, entretanto, não foi apenas uma questão de habilidade: a vantagem do Gemini foi amplificada pelo uso do mapa miniatura, que facilitou o reconhecimento de "tiles" do jogo, como árvores passíveis de corte, sem a necessidade de analisar telas capturadas.

A Distorção nas Comparações de Modelos

A polêmica em torno do benchmarking de IA não se restringe ao cenário de Pokémon. Recentemente, a Anthropic vivenciou uma discrepância em dois testes distintos para seu modelo Claude 3.7 Sonnet no benchmark SWE-bench Verified, um teste que avalia habilidades de codificação. Sem modificações, o modelo conseguiu uma taxa de precisão de 62.3%, mas, com um "scaffold" personalizado, esta taxa subiu para 70.3%. Essa realidade evidencia como personalizações e otimizações podem distorcer comparações entre diferentes modelos de IA.

A Necessidade de Metodologias Transparentes

Conforme novos modelos de IA continuam a ser desenvolvidos, a demanda por métodos de benchmarking mais abertos e padronizados se torna cada vez mais urgente. A inserção de elementos personalizados ou otimizados para testes específicos pode obscurecer a verdadeira performance de um modelo em comparação com as melhorias potencialmente enganosas. Por essa razão, é provável que as empresas sejam compelidas a adotar práticas mais transparentes para evitar enganar consumidores, investidores e pesquisadores.

Implicações e O Futuro do Benchmarking

O futuro do benchmarking em inteligência artificial depende de como o setor abordará estas questões de validade e justiça. A comparação entre modelos deve se basear em critérios igualmente acessíveis e replicáveis, assegurando que o desempenho real de cada modelo se destaque sem influências externas. Somente assim, a confiança nas capacidades da inteligência artificial poderá ser restaurada e aprimorada, alavancando o campo para novas descobertas e inovações.

Tags: Inteligência Artificial, Benchmarking, Pokémon, tecnologia, Desenvolvimento Fonte: techcrunch.com
Por Autor Redação TNRedação TN
CONTINUA DEPOIS DA PUBLICIDADE

Confira nossas ofertas

Amazon Echo Pop em oferta durante a Semana do Consumidor

Amazon Echo Pop em oferta durante a Semana do Consumidor

R$ 263,47

De R$ 379,00

Vendido na Amazon

Echo Dot 5ª geração | O Echo Dot com o melhor som já lançado | Cor Azul

Echo Dot 5ª geração | O Echo Dot com o melhor som já lançado | Cor Azul

R$ 359,10

De R$ 459,00

Vendido na Amazon

Mais notícias

  • Mão segurando placa-mãe Mini-ITX; guia de compatibilidade com CPU, RAM e BIOS. Legenda da imagem. Reprodução: Retorno do item 11
    PC e Mods

    PlacaMãe: Compatibilidade com CPU e RAM, descubra surpresas

  • NHTSA confirma relatos de crianças presas em Tesla Model Y 2021. Reprodução: Retorno do item 11
    Investigação

    NHTSA investiga maçanetas elétricas da Tesla; nove relatos de aprisionamento

  • Legenda da imagem. Bancos passam a rejeitar transferências para contas suspeitas de fraude (principalmente via Pix). Reprodução: Tecnoblog
    Cibersegurança

    BC obriga rejeição de Pix a contas suspeitas de fraude

  • Powerbeats Fit: fones sem fio da Beats chegam em quatro cores, incluindo laranja. Reprodução: Tecnoblog
    Gadgets

    Beats Powerbeats Fit vazam antes do anúncio da Apple — surpresa

  • Palco do evento da Apple em Cupertino durante apresentação de novos iPhones e produtos. Legenda da imagem. Reprodução: G1
    Smartphones e Tablets

    Apple lança iPhone 17 Air e Watch Ultra 3 surpreende