- IA Express
- Posts
- Benchmarking de IA mede, de fato, o que diz avaliar?
Benchmarking de IA mede, de fato, o que diz avaliar?
Bem-vindos, humanos: Seu download com as principais notícias sobre Inteligência Artificial começa agora. Nesta edição, você verá como ferramentas de benchmarking que coroam “reis da IA” podem estar falhando por sofrerem do mal da validade de construção. 📊😵💫
Porém isso não é tudo na IA Express de hoje:
- DS-STAR é um agente de IA para ciência de dados criado pelo Google Research
- Projeto de lei nos EUA exige que empresas informem como IA afeta empregos
- Será que OpenAI vai passar a oferecer serviços de nuvem para IA?
- Já estamos na era da IA Física, e Deloittle orienta como lidar com essa realidade
Porque, no mundo da Inteligência Artificial, conhecimento é seu algoritmo mais valioso.
AI_NEWS_CIRCUIT
REVISÃO SISTEMÁTICA
Benchmarking de IA mede, de fato, o que diz avaliar?
Se você acompanha o noticiário sobre IA com alguma frequência, deve ter notado um padrão: bastar surgir um novo benchmarking para que modelos de IA corram para reivindicar o primeiro lugar. Mas aqui surge uma pergunta desconfortável: e se essas ferramentas não estiverem medindo o que realmente importa?
Foi então que uma revisão sistemática feita por um grupo internacional de instituições de pesquisa apresentou uma resposta ainda mais incômoda depois de analisar 445 ferramentas de benchmarking de LLMs: quase todas elas têm problemas significativos de validade de construção, ou seja, não medem realmente o que afirmam medir.

Por exemplo, considere raciocínio, uma das capacidades dos LLMs mais avaliadas. A análise encontrou ferramentas de benchmarking testando de tudo, desde lógica formal até inferência de senso comum, muitas vezes confundindo raciocínio com memorização ou simples correspondência de padrões. Se um modelo resolve um problema matemático, está raciocinando ou apenas relembrando exemplos semelhantes dos dados de treinamento? A maioria dos sistemas de benchmarking não consegue distinguir a diferença.
O estudo identificou padrões sistêmicos em todas as etapas do desenvolvimento de ferramentas de benchmarking: (1) definições vagas ou ausentes; (2) amostragem de conveniência em vez de design representativo; (3) medições confusas; (4) confiança excessiva em métricas falhas; (5) negligência estatística; (6) cegueira em relação à contaminação dos dados; e (7) nenhuma análise sistemática de erros.
Por que isso importa? A validade do construção deficiente não apenas desperdiça esforços de pesquisa, como também induz a erros. Modelos otimizados para benchmarking parecem ser mais capazes do que realmente são. Avaliações fracas de segurança podem deixar passar riscos críticos. E, em última instância, decisões políticas baseadas em medições inválidas podem ter consequências muito graves generalizadas.
AI_TRENDS
App do NotebookLM gera flashcards e quizzes automaticamente, bastando escolher tópico, dificuldade e números de cartões para que a mágica aconteça.
Google revelou ferramenta de busca de arquivos para API do Gemini, criando um sistema RAG que lida com recuperação automática de documentos.
Polaris Alpha parece ser um teste inicial ou variante do GPT-5.1 da OpenAI, ainda não lançado, que se destaca em capacidade de raciocínio e programação.
Kimi K2 Thinking, da Moonshot, é um modelo construído como agente de raciocínio, que já bateu recordes em diversos sistemas de benchmarking.
DS-STAR é um agente de IA para ciência de dados criado pelo Google Research capaz de automatizar tarefas que vão da visualização à análise.
OlmoEarth, da Ai2, é uma plataforma aberta que transforma vastos dados de satélites e sensores em inteligência geoespacial em tempo real usando IA.
Amazon lançou, em versão beta, serviço de tradução guiado por IA para autores da plataforma Kindle Direct Publishing (KDP) compartilharem e-books; disponível traduções entre inglês, espanhol e alemão (por enquanto). 📚🔠🈂️
AI_GOVERNANCE & ETHICS
🔙 Um passo atrás
A União Europeia está considerando postergar a aplicação ou suspender parte de sua Legislação para Inteligência Artificial após meses de pressão por parte das BigTechs dos Estados Unidos, do governo Trump e de grupos tecnológicos europeus. Considerada a estrutura de regulamentação de IA mais abrangente do mundo, a lei enfrentou reações negativas em diversos setores de atividade devido à sua estrutura complexa e ao potencial sufocamento da inovação. Foi promulgada em 2024, exigindo implementação faseada a partir do início deste ano, mas críticos argumentam que suas regras complexas já causaram atrasos em quase 60% das pequenas empresas de tecnologia europeias.
💼Mais transparência
Um novo projeto de lei bipartidário nos Estados Unidos pode exigir que grandes empresas e agências federais no país informem trimestralmente sobre como a Inteligência Artificial está afetando empregos, incluindo dados de demissões, contratações e reciclagem. As informações seriam submetidas ao Departamento do Trabalho, que então compilaria e publicaria relatórios para dar transparência sobre como a IA está impactando a força de trabalho. O objetivo é dar a legisladores e ao público em geral uma imagem mais consistente do papel da IA na mudança das tendências de emprego e ajudar a garantir mais oportunidades.
AI_SNAPSHOT
💡 Inovação & Inspiração
Amigo espacial Pesquisadores usaram IA para corrigir uma falha nas imagens geradas pelo telescópio espacial James Webb (JW). O problema ocorreu em um dispositivo usado para elevar a resolução de um instrumento crucial para detectar exoplanetas pequenos. Após o lançamento do JW, as imagens desse dispositivo ficaram embaçadas. Foi então que surgiu AMIGO (Aperture Masking Interferometry Generative Observations), rede neural que detecta e corrige pixels distorcidos nas observações do telescópio. Com a ajuda desse AMIGO especial, já foram restauradas imagens de exoplanetas distantes, estrelas anãs frias, jatos de buracos negros e até a superfície vulcânica da lua Io de Júpiter. 🛰️🪐🌌
IA que lê pensamento Uma nova técnica batizada de mind captioning (legendagem mental) combina ressonância magnética funcional e IA para decodificar, a partir da atividade cerebral, o que as pessoas veem ou imaginam. Como funciona? Primeiro, um modelo de IA analisou legendas em texto em mais de 2.000 vídeos, convertendo cada uma em uma “assinatura de significado”. Em seguida, uma segunda IA foi treinada usando exames de ressonância magnética de seis participantes enquanto assistiam aos vídeos, aprendendo a mapear padrões específicos de atividade cerebral em assinaturas de significado. Uma vez treinado, esse decodificador cerebral pode ler novas varreduras que, submetidas a um terceiro componente de IA, são traduzidas em frases em linguagem natural. 🧠🎞💬
🌍 IA Global
🇨🇳 Mais restrições A Casa Branca informou às agências federais que não permitirá a venda dos mais recentes chips de IA da NVIDIA, especificamente B30A, para a China. A decisão faz parte do endurecimento das restrições de exportação do governo dos Estados Unidos em meio às tensões tecnológicas em curso com a China. O chip B30A foi projetado pela NVIDIA para cumprir as regras de exportação anteriores e já teve amostras envidas para empresas chinesas antes da nova proibição.
🇦🇺 Opção oculta Microsoft está enfrentando uma ação judicial na Austrália por supostamente esconder de 2,7 milhões de clientes a opção de assinatura do Microsoft 365 sem recursos de IA, mais barata. A Comissão Australiana de Concorrência e Consumo afirma que a Microsoft apenas comunicou aos clientes que deveriam aceitar o novo plano com o assistente de IA Copilot integrado por preço mais alto ou cancelar a assinatura.
📢 IA em uma frase
“Também estamos buscando maneiras de vender capacidade computacional mais diretamente a empresas (e pessoas); temos certeza de que o mundo precisará de muita ‘nuvem de IA’ e estamos animados para oferecer isso.” | A frase é de Sam Altam, CEO da OpenAI, ao se pronunciar no X para esclarecer uma declaração mal-entendida de sua diretora financeira. Declarou que não tem nem deseja ter garantias governamentais para datacenters de IA. E, emendando, pareceu anunciar um possível novo negócio para OpenAI: oferecer mais poder computacional, pois o que se tem hoje planejado ainda não é suficiente, comentou Altman. |
AI_TOOLKIT
🛠️Ferramentas
Higgsfield Recast substitui e transforma personagens em vídeos com realismo e sincronização de áudio.
Tunee é um agente de música que transforma texto, imagens, áudio, vídeos em canções, incluindo letra e melodia.
Parallel Search API é uma ferramenta de pesquisa na Web projetada do zero para agentes de IA.
📚 Miscelânea
Relatório da Deloittle afirma que já estamos vivendo na era da IA Física – com máquinas inteligentes que percebem, raciocinam e atuam no mundo real em escala. Não se trata mais ficção científica; está acontecendo agora. Para ajudar líderes empresariais a entenderem e navegarem nesse novo cenário, apresentou um esquema como lente estratégica para abordar desde o planejamento e a preparação até a realidade pós-implantação dos sistemas robóticos.
AI_FLASH_NEWS
Google está em discussões preliminares para investir mais na Anthropic, valorizando-a potencialmente em mais de US$ 350 bilhões.
Microsoft formou uma equipe de superinteligência com foco humanista, opondo-se à visão da contraparte da Meta.
China proibiu o uso de chips de IA da NVIDIA, AMD e Intel em datacenters financiados pelo estado e projetos com menos de 30% de conclusão.
Sarah Friar, diretora financeira da OpenAI, esclareceu que a empresa não está buscando garantias federais para investimentos em infraestrutura.
Papa Leão XIV pediu que líderes empresariais e desenvolvedores priorizem a dignidade humana no desenvolvimento da Inteligência Artificial.
O recém-lançado robô humanoide Iron da Xpeng, movido por IA, teve o revestimento da perna removido em público para provar que não é humano.
Vibe coding foi eleita a “palavra do ano” de 2025 pelo dicionário Collins, em função da tendência de usar IA em linguagem natural para gerar código.
Sete famílias entraram com ações contra OpenAI na Califórnia, alegando que GPT-4o teve um papel direto em suicídios e delírios psicológicos.
He Jiabin, ex-designer de produtos da Baidu, ByteDance e Microsoft, fundou Ropet, startup que cria pets robóticos movidos por IA. 🐶🐹🤖
Até a próxima
Obrigado por mergulhar nesta edição. Seu tempo é valioso, e estamos felizes por você ter escolhido passar alguns minutos aqui.
Voltaremos à sua caixa de entrada em breve. Até lá, cultive a curiosidade.😊