Logo do Tudo Notícias
  • Últimas notícias
  • Ofertas
Brasil
Mundo
Esportes
Política
Produtos e Reviews
Saúde
Tecnologia
Games
Logo
  • Página Inicial
  • Sobre
  • Política de Privacidade
  • Termos de uso
  • Contato
Redes sociais
  • Facebook TN
  • tudonoticiasoficial
  • tudonoticiasof
Editorias
  • Brasil
  • Cultura Pop
  • Economia
  • Educação
  • Entretenimento
  • Esportes
  • Estados
  • Games
  • Mundo
  • Política
  • Saúde
  • Tecnologia
Educação
  • Educação
  • Educação Infantil
  • ENEM
  • Ensino Básico
  • Ensino Superior
Games
  • Consoles e Hardware
  • Dicas e Tutoriais
  • Esports
  • Game Development
  • Indie Games
  • Indústria
  • Lançamentos
  • Mobile Games
  • PC e Mods
  • Promoções
  • Retrô e Nostalgia
  • Retro Gaming
  • Streaming
  • Xbox
Tecnologia
  • Blockchain
  • Cibersegurança
  • Ciência e Inovação
  • Cripto
  • Gadgets
  • Inovação
  • Inteligência Artificial
  • Redes Sociais
  • Robótica e Automação
  • Smartphones e Tablets
  • Software e Aplicativos
  • Startups
Brasil
  • Acidentes
  • Agronegócio
  • Cidades
  • Desastres
  • Homicídios
  • Indústria
  • Infraestrutura
  • Loteria
  • Policial
  • Regiões
  • Transportes
Entretenimento
  • BBB 25
  • Celebridades
  • Cinema
  • Documentários
  • Eventos
  • Música
  • Premiações
  • Streaming
  • Teatro
  • TV e Séries
  • Vida Social
Mundo
  • América Latina
  • Ásia
  • Conflitos
  • Crises
  • Cultura
  • Cultura Regional
  • Estados Unidos
  • Europa
  • Geek
  • Geopolítica
  • Negociações
  • Oriente Médio
  • Pandemias
  • Refugiados
  • Terrorismo
Cultura Pop
  • Animes & Mangás
  • Filmes
  • HQs
  • K-Pop
  • Séries
  • Streaming
Esportes
  • Artes Marciais
  • Atletismo
  • Automobilismo
  • Basquete
  • Boxe
  • Ciclismo
  • Esportes Radicais
  • Esports
  • Futebol
  • Futebol Internacional
  • Handebol
  • Jogos
  • Lutas
  • Natação
  • NBA
  • Seleção Brasileira
  • Tênis
  • UFC
  • Vôlei
Política
  • Campanhas
  • Congresso
  • Diplomacia
  • Eleições
  • Governos
  • Judiciário
  • Orçamento
  • Partidos
  • Política Econômica
  • Política Internacional
  • Reformas
  • Reformas Econômicas
Economia
  • Agronegócio
  • Bancos
  • Crédito
  • Economia
  • Economia Global
  • Endividamento
  • Exportação
  • Fintechs
  • Impostos
  • Indústria
  • Inovação
  • Investimentos
  • Política Econômica
  • Renda
  • Salários e Empregos
  • Tributação
  • Varejo
Estados
  • Acre
  • Alagoas
  • Amapá
  • Bahia
  • Goiás
  • Maranhão
  • Minas Gerais
  • Pará
  • Paraíba
  • Pernambuco
  • Piauí
  • Rio de Janeiro
  • Rio Grande do Sul
  • Rondônia
  • Roraima
  • São Paulo
  • Sergipe
Saúde
  • Bem-Estar
  • Cuidados com a Pele
  • Doenças
  • Doenças Raras
  • Estilo de Vida
  • Fitness
  • Longevidade
  • Medicina
  • Nutrição
  • Pesquisas
  • Saúde Mental
  • Saúde Pública
  • Tratamentos
  • Vacinas

TudoNotícias

Tudo Notícias   © Copyright. Todos os direitos reservados.
Desenvolvido por
Powered by Yooh
  1. Capa
  2. Tecnologia
  3. Tecnologia

LM Arena E Grandes IA: Acusações De Manipulação Nos Rankings

Por Autor Redação TNRedação TN
01/05/2025 15h04

Estudo revela que LM Arena pode ter favorecido algumas empresas de IA em seu ranking. Reprodução: TechCrunch

Acusações recentes levantadas em um estudo de prestigiadas instituições como Cohere, Stanford, MIT e Ai2 colocam a LM Arena sob o olhar crítico de especialistas em inteligência artificial. Os pesquisadores alegam que os principais laboratórios de IA, incluindo Meta, Google e OpenAI, foram favorecidos através de testes privados que permitiram a manipulação de rankings nos benchmarks de IA.

O Que é a LM Arena?

A LM Arena é uma plataforma que avalia modelos de IA, permitindo que usuários comparem as respostas de diferentes sistemas por meio de "batalhas". Implementada pela UC Berkeley em 2023, a plataforma busca proporcionar um ambiente de teste justo, mas as novas alegações sugerem que nem todos os participantes têm as mesmas oportunidades.

Acusações de Manipulação nos Testes

O estudo revela que laboratórios como Meta e Google realizaram testes privados, onde apenas os resultados mais positivos eram divulgados. Segundo as informações, este método de avaliação distorce a realidade e promove um cenário em que apenas os melhores desempenhos - escolhidos a dedo - são apresentados ao público. Os demais resultados, que poderiam oferecer uma visão mais completa e precisa dos modelos, foram mantidos em segredo.

Exemplo de Manipulação: O Caso da Meta

Um dos exemplos mais emblemáticos mencionados no estudo é a prática da Meta, que testou 27 variantes de seu modelo antes do lançamento do Llama-4. A capacidade de selecionar resultados favoráveis para promover os modelos ofereceu uma vantagem significativa em relação a outros participantes, levando a um ranking que pode não refletir a verdadeira eficácia dos modelos.

Impacto nas Avaliações da Comunidade de IA

Essas práticas criaram um alarme dentro da comunidade de IA, levantando questões sobre a integridade dos benchmarks atualmente utilizados. A seleção não transparente de resultados e a possibilidade de manipulação levantam a necessidade de reformas nos métodos de avaliação dos modelos de IA.

Reação e Futuras Implicações

A resposta da comunidade acadêmica e do público às acusações ainda está se desenrolando. O fato de que os laboratórios maiores possam influenciar os resultados dos rankings gera um clamor por um sistema mais transparente que garanta a equidade entre todos os participantes. A discussão aponta para a urgência de revisões que possam tornar os benchmarks de IA mais justos e acessíveis a todos.

Tags: Inteligência Artificial, Benchmarking, LM Arena, Transparência, IA Fonte: techcrunch.com

Mais notícias

  • Perfil de Donald Trump no Truth Social em smartphone; Truth Predict permitirá apostas em eventos futuros. Reprodução: 'Retorno do item 11'
    Tecnologia e Inovação

    Trump Lança Plataforma de Apostas na Verdade Social

  • Celular exibe selo de verificação em chamadas, conforme regra da Anatel. Reprodução: Retorno do item 11
    Segurança Digital

    A partir de novembro, selo de verificação para chamadas de empresas

  • Arattai, app indiano, ganha popularidade na Índia, competição com o WhatsApp se intensifica. Legenda da imagem. Reprodução: Retorno do item 11
    Apps e Aplicativos

    Arattai: O novo rival indiano do WhatsApp em ascensão

  • Screenshot do TrumpRX: IA na arte como estética de grifters e fascistas. Reprodução: Retorno do item 11
    Apps e Aplicativos

    TrumpRx: A Nova Iniciativa Que Desafia a Saúde Pública

  • A Talamasca observa vampiros, monstros e bruxas na série sobrenatural da AMC. Reprodução: Retorno do item 11
    Streaming

    Talamasca: O Novo Segredo da Universos de Anne Rice