- IA Express
- Posts
- Popular sistema de benchmarking para LLMs é colocado à prova
Popular sistema de benchmarking para LLMs é colocado à prova
Bem-vindos, humanos: Seu download diário com as principais notícias sobre Inteligência Artificial começa agora. Nesta edição, você saberá como uma ferramenta de benchmarking pode se revelar um campo desigual para batalhas entre LLMs. De outro lado, o Google aposta em um futuro no qual anúncios surgirão naturalmente nas conversas com chatbots.⚔️📉🇬
Porém isso não é tudo no IA Express de hoje:
- DeepSeek lança Prover-V2 para ajudar nas provas matemática formais
- LLMs passam em testes de Turing
- Ferramenta de IA usa selfie para lhe inserir em cenas icônicas de filmes
- Agente automatiza processos de folha de pagamento
Porque, no mundo da Inteligência Artificial, conhecimento é seu algoritmo mais valioso.
AI_NEWS_CIRCUIT
POLÊMICA
Popular sistema de benchmarking para LLMs é colocado à prova
Imagine um campo de batalha onde modelos de IA se enfrentam para provar quem é o melhor. Esse é o Chatbot Arena, sistema de benchmarking público amplamente utilizado para avaliar modelos de linguagem de grande porte (LLMs).
No entanto, um novo estudo, cujos pesquisadores do Cohere Labs, Princeton e Stanford intitularam de “The Leaderboard Illusion”, revelou que essa arena pode não ser tão justa quanto parece, alegando que o sistema de classificação da Chatbot Arena favorece injustamente grandes empresas com vantagens sistêmicas que provedores menores não recebem.
Quais foram as descobertas? Colocado de forma bem simples, é como se alguns provedores de IA entrassem nos bastidores da Chatbot Arena antes da competição começar. Podem testar várias versões de seus modelos antecipadamente, escolher a que tem melhor desempenho e mostrar apenas essa ao público, no lançamento.
Simulações demonstraram que testar apenas 10 variantes já poderia incrementar a pontuação de um modelo em cerca de 100 pontos, o suficiente para subir na tabela de classificação. Para se ter uma ideai, o estudo detectou que a Meta testou 27 variantes antes de lançar o Llama-4.
O Chatbot Arena se beneficia de feedback e dados fornecidos pela comunidade diariamente. No entanto, provedores de modelos proprietários coletam mais prompts de teste e resultados das batalhas do que outros. São dados valiosos que ajudam a entender interesses e preferências dos usuários.

Disponibilidade de dados do Chatbot Arena para provedores de modelos de IA.
O estudo também descobriu que esse “tesouro” não é compartilhado igualmente entre os provedores. Grandes players como Google e OpenAI recebem uma grande parte – 19,2% e 20,4% de todos os dados da Arena, respectivamente. Enquanto isso, 83 modelos de peso aberto combinados recebem apenas 29,7%.
Essa lacuna é importante porque tais dados são ouro para treinamento. Os pesquisadores mostraram que usá-los para treinar modelos poderia dobrar a taxa de sucesso em tarefas específicas do Chatbot Arena.
Outro ponto destacado no estudo: muitos modelos desaparecem do benchmarking sem deixar vestígios. Dos 243 modelos públicos, 205 foram silenciosamente deixados de lado, o que significa que pararam de participar das disputas, sem qualquer aviso oficial. Essa conduta atinge os modelos de peso aberto e código aberto – 86,6% e 87,8%, respectivamente, em comparação com apenas 30% dos modelos proprietários. Isso interfere no sistema de pontuação da Chatbot Arena.
Recentemente, o Chatbot Arena foi renomeado como LMArena e fará parte da nova empresa Arena Intelligence. A iniciativa visa garantir financiamento e quer justamente buscar um ambiente neutro para testes de IA. A LMArena negou as alegações, afirmando que o estudo contém imprecisões e interpretações errôneas.
AI_TRENDS
Já é possível carregar e editar imagens diretamente no aplicativo Gemini, no telefone ou computador. A novidade estará disponível gradualmente na maioria dos países e em mais de 45 idiomas.
O KAYAK, mecanismo que compara preços de voos, hotéis e aluguel de carros, agora oferece uma ferramenta de IA para planejar viagens.
Sem muito alarde, a DeepSeek lançou o Prover-V2 que ajuda a desenvolver provas matemáticas formais usando a linguagem Lean 4. Baseia-se no modelo DeepSeek-V3 com 671 bilhões de parâmetros.
A Microsoft ampliou a família Phi com os modelos Phi-4-reasoning, Phi-4-reasoning-plus e Phi-4-mini-reasoning voltados para tarefas avançadas de raciocínio. Ainda que mais compacta, a versão mini se sai bem em ambientes com latência ou recursos computacionais restritos.
O novo modelo MiMo-7B da Xiaomi, de código aberto, é indicado para tarefas avançadas de raciocínio, como matemática e geração de código. Apesar de relativamente pequeno, é capaz de superar rivais maiores.
O Nova Premier é o modelo de IA mais avançado da Amazon, capaz de processar texto, imagens e vídeos. Está disponível na Amazon Bedrock.
A Anthropic lançou o Integrations, recurso que permite conectar aplicativos e ferramentas ao chatbot Claude. Também liberou uma versão atualizada para gerar relatórios mais completos e detalhados em resposta às consultasNdo usuário.
AI_VENTURES
PUBLICIDADE
Google investe em chatbots com publicidade
Nem banners nem pop-ups irritantes, mas sim anúncios que surgem no meio da conversa em chatbots, como parte natural do diálogo. Esse é o futuro no qual o Google está apostando. A gigante das buscas on-line já começou a integrar esse tipo de publicidade como parte dos esforços do Google para monetizar alternativas de pesquisa guiadas por IA e fortalecer sua posição no espaço de anúncios digitais para enfrentar a concorrência vinda, por exemplo, da OpenAI e Perplexity AI.
![]() | Por que esse movimento? As pessoas estão trocando barras de pesquisa tradicionais por consultas em chatbots, e o Google não quer deixar escapar a fonte de receita gerada pela publicidade. Para isso, a rede AdSense for Search do Google, que até então oferecia anúncios nos resultados de pesquisa e em sites, agora incluirá conversas com modelos de IA. Essa mudança segue uma série de testes realizados com startups de IA, como iAsk e Liner, segundo a Bloomberg. |
Como funciona? Depois de perguntar algo a um chatbot, por exemplo, informações técnicas de uma máquina de café expresso compacta, e receber um resumo detalhado, você receberá uma sugestão patrocinada de um modelo à venda. O anúncio será contextual, relevante e intuitivo, graças ao domínio do Google sobre dados de usuários e aprendizado de máquina.
Será que as pessoas vão aceitar anúncios em seus bate-papos com IA ou parecerá uma invasão? O Google está apostando na primeira opção, tentando mostrar que as colocações pareçam úteis, em vez de irritantes.
O caminho será a relevância, ou seja, fazer com que os anúncios se alinhem bem às consultas a ponto de parecerem parte da resposta. Além disso, haverá o desafio de garantir uma distinção clara entre publicidade e informação. Ainda assim, como sempre, será um equilíbrio delicado entre conveniência e privacidade.
AI_GOVERNANCE & ETHICS
🤖👤Teste de Turing
Modelos de linguagem de grande porte (LLMs) demonstraram recentemente a capacidade de passar em testes de Turing. Os sistemas ELIZA, GPT-4o, LLaMa-3.1-405B e GPT-4.5 mantiveram conversas de cinco minutos com uma pessoa e também um com os outros LLMs. O desafio era determinar quem era humano. O GPT-4.5, quando solicitado a adotar uma persona semelhante à humana, foi identificado como humano em 73% do tempo, superando os participantes humanos. Nas mesmas condições, o LLaMa-3.1 foi julgado como humano em 56% do tempo. Esses resultados fornecem evidências empíricas de que modelos de IA podem passar por um teste de Turing padrão.
😎Óculos bem inteligentes
A Meta atualizou a política de privacidade dos óculos inteligentes Ray-Ban Meta, ampliando o controle sobre os dados dos usuários. Recursos de IA estarão ativados por padrão, e a empresa usará fotos, áudio e vídeo capturados pelos óculos para treinar e aprimorar seus modelos de IA.
🕵️ Detector de mentira
A Comissão Federal de Comércio (FTC) dos Estados Unidos ordenou que a empresa Workado deixe de anunciar que sua ferramenta AI Content Detector, para detectar texto gerado por IA, tem “98% de precisão”. A suspensão vale até que apresente subsídios que comprovem a afirmação. De acordo com testes independentes, a taxa de acerto é de apenas 53%, segundo o FTC. Além disso, a ferramenta foi treinada para "classificar apenas conteúdo acadêmico", apesar de anunciar que é capaz de trabalhar com qualquer conteúdo on-line.
AI_SNAPSHOT
💡 Inovação & Inspiração
IA ou humano Tools for Humanity, empresa cofundada por Sam Altman, da OpenAI, revelou um dispositivo portátil, o Orb Mini, que distingue entre humanos e agentes de IA. Como? Fazendo uma varredura da íris da pessoa para gerar um identificador único, armazenado em blockchains. O dispositivo não será usado em chamadas ou aplicativos, mas como meio de pagamento ou ter os sensores licenciados para outros fabricantes. 👀
IA na Fórmula 1 A IBM e a Scuderia Ferrari HP lançaram um aplicativo que usa IA Generativa para proporcionar aos fãs da modalidade esportiva uma experiência mais imersiva. Disponível em inglês e italiano, o aplicativo apresenta resumos das corridas gerados por IA, históricos, visualizações de dados, comentários pós-corrida e enquetes, além de permitir o envio de mensagens para as equipes. 🏎️ 💨🏁
📰 How-to
Iconic Scenes é uma nova ferramenta de IA da Higgsfield que lhe insere em momentos famosos de filmes e cenas icônicas usando apenas uma selfie sua.
![]() Crédito: Higgsfield |
|
AI_TOOLKIT
🛠 Ferramentas
NVIDIA AI Blueprint transforma cenas 3D simples em visuais realistas ao permitir manipular as cenas e ângulos de câmera.
Payrollrobot automatiza os processos de folha de pagamento.
Pageon usa IA para criar apresentações dinâmicas.
📚 Mais recursos
Essa palestra TED Talks nos convida a aprender com os erros do lançamento das mídias sociais e acordar para os riscos do desenvolvimento imprudente da IA. Foi apresentada por Tristan Harris, cofundador do Center for Humane Technology que já trabalhou como especialista em ética de design no Google.
Um estudo mundial sobre confiança, atitudes e uso de inteligência artificial, realizado pela Universidade de Melbourne em parceria com a KPMG, abordou mais de 48.000 pessoas em 47 países entre novembro de 2024 e janeiro de 2025. Veja as principais descobertas aqui.
AI_FLASH_NEWS
Nova estratégia “Humans First” da Wikimedia Foundation, que opera a Wikipedia, vai apoiar editores e voluntários, em vez de substituí-los por IA.
A FutureHouse, organização sem fins lucrativos apoiada por Eric Schmidt, ex-CEO do Google, lançou agentes de IA superinteligentes, acessíveis via web e API, para acelerar as descobertas científicas.
A Apple está colaborando com a Anthropic para desenvolver um assistente de codificação guiado por IA para Xcode.
O Google deve lançar o NotebookLM para Android e iOS no próximo dia 20 de maio, coincidindo com o primeiro dia do Google I/O 2025.
A Airbnb, plataforma para aluguel de temporada, está usando um chatbot para atendimento aos clientes. Metade dos usuários nos Estados Unidos já está interagindo com esses agentes de IA.
O Gemini estará disponível para crianças menores de 13 anos que tenham contas do Google gerenciadas pelos pais por meio do Family Link.
A NVIDIA defendeu a inovação ao criticar as recomendações da Anthropic para políticas mais rigorosas para exportação de chips de IA. 👎👍
Até a próxima
Obrigado por mergulhar nesta edição. Seu tempo é valioso, e estamos felizes por você ter escolhido passar alguns minutos aqui.
Voltaremos à sua caixa de entrada em breve. Até lá, cultive a curiosidade.😊

