• IA Express
  • Posts
  • HalluHard: Até os melhores LLMs alucinam em 30% das respostas

HalluHard: Até os melhores LLMs alucinam em 30% das respostas

Bem-vindos, humanos: Seu download com as principais notícias sobre Inteligência Artificial começa agora. Nesta edição, você verá que, por trás da genialidade dos novos modelos de IA ainda existe um contador de histórias alucinante que desafia até os domínios mais críticos da medicina e do direito. 👩🏻‍⚖️⚖️🥼

Porém isso não é tudo na IA Express de hoje:
- Claude Opus 4.6 ganhou variante 2,5 vezes mais rápida
- EUA e China não assinam declaração sobre o uso responsável de IA na guerra
- Spin-off do Google avança na aplicação da IA à descoberta de remédios
- Elon Musk tem planos para construir na Lua uma fábrica de satélites para IA

Porque, no mundo da Inteligência Artificial, conhecimento é seu algoritmo mais valioso.

AI_NEWS_CIRCUIT

BENCHMARKING

HalluHard: Até os melhores LLMs alucinam em 30% das respostas

Grandes modelos de linguagem (LLMs) estão cada vez mais impressionantes, mas ainda há um “elefante na sala”: as alucinações. Essas afirmações factualmente incorretas, porém plausíveis, continuam sendo o calcanhar de Aquiles da IA Generativa. Agora, o novo benchmarking HalluHard deu a dimensão do problema.

Os dados mostram que mesmo os modelos mais avançados sucumbem a alucinações especialmente em diálogos longos, onde pequenos erros iniciais se propagam e se amplificam.ao longo da conversa.

O HalluHard usa 950 perguntas distribuídas em quatro domínios de alto risco: casos jurídicos, questões de pesquisa acadêmica, diretrizes médicas e programação.
Os números são reveladores mesmo para os modelos mais avançados e que utilizam busca na Web (WS):

Modelo (com busca na Web)

Taxa média de alucinação

Claude Opus-4.5 + WS

~32%

GPT-5.2-Thinking + WS

~43%

Sem acesso à busca na Web, as taxas de alucinação disparam para 60% ou mais. Pior ainda: os autores descobriram que os modelos muitas vezes encontram fontes relevantes, mas acabam distorcendo ou inventando detalhando que simplesmente não existem nos textos originais.

A análise mais abrangente do HalluHard também revelou padrões de alucinação:

  1. Propagação de erros ao longo das rodadas: A taxa de alucinação aumenta conforme as etapas da conversa avançam, criando uma espiral de desinformação.

  2. Capacidade do modelo importa, mas não resolve: Embora modelos mais robustos alucinem menos, nenhum deles atingiu o nível de confiabilidade necessário para missões críticas.

  3. Raciocínio ajuda, mas com limites: Modelos com raciocínio estruturado apresentam menos alucinações em comparação com versões sem essa habilidade, porém aumentar o esforço de raciocínio não garante melhorias.

Por que isso importa? O HalluHard nos alerta que mesmo os modelos mais avançados ainda "confabulam" com frequência preocupante e que, para aplicações em saúde, direito e engenharia de software, a confiança cega nos LLMs ainda apresenta um risco real.

AI_TRENDS

  • Claude Opus 4.6 ganhou variante 2,5 vezes mais rápida, disponível como experimento por meio do Claude Code e da API.

  • OpenClaw passou a verificar os skills de IA depois que centenas de complementos mal-intencionados foram encontrados no ClawHub.

  • YouTube acrescentou um recurso de IA para gerar playlists a partir de prompts de texto ou voz (para usuários Premium de iOS e Android).

  • Composer 1.5 é a nova versão do modelo de codificação da Cursor com melhor um equilíbrio entre velocidade e inteligência.

  • Qwen-Image-2.0 é o novo modelo de geração de imagens da Alibaba Cloud que combina geração e edição e traz renderização de texto em vários idiomas.

  • Seedance 2 é um modelo de geração de vídeo por IA multimodal da ByteDance com sincronização nativa de áudio e alto nível de controle.

  • RynnBrain é o modelo de IA da Alibaba que ajuda robôs a compreender o mundo físico e identificar objetos.

  • WordPress agora conta com um conector Claude para usuários de planos pagos conectarem seus sites ao assistente de IA da Anthropic,.

  • Audiobooks é um kit da ElevenLabs para criar, refinar e publicar audiolivros usando vozes realistas geradas por IA.📚🎧☕

AI_GOVERNANCE & ETHICS

☮️ IA para fins pacíficos

Na cúpula Responsible AI in the Military Domain (REAIM) realizada em La Coruña (Espanha) no início do mês, apenas 35 dos 85 países participantes assinaram uma declaração sobre o uso responsável de IA na guerra. Notavelmente ausentes entre os
signatários estavam Estados Unidos e China - as duas maiores potências militares e em IA do mundo. O compromisso não vinculante delineava 20 princípios, como a manutenção do controle humano sobre armas alimentadas por IA, o estabelecimento de cadeias de comando claras e o compartilhamento de informações sobre mecanismos de supervisão nacionais. Os principais signatários foram Reino Unido, França, Alemanha, Canadá, Coreia do Sul e Ucrânia.

AI_SNAPSHOT

💡 Inovação & Inspiração

  • Avanços na descoberta de medicamentos A Isomorphic Labs, spin-off do Google DeepMind, deu mais um passo na aplicação da IA à descoberta de medicamentos. Seu novo Drug Design Engine (IsoDDE) não apenas superou o já revolucionário AlphaFold 3, dobrando sua precisão em tarefas críticas, como também eliminou barreiras que há décadas limitavam a modelagem computacional de fármacos. Por que importa? O IsoDDE transforma a descoberta de fármacos de um processo iterativo, caro e lento em uma busca computacional rápida e escalável. Para a comunidade de IA, demonstra como modelos de IA Gnerativa estão evoluindo para a criação de soluções terapêuticas realistas, aproximando-nos da promessa de medicamentos projetados inteiramente por IA. ⚕️🥼💊

🌍 IA Global

🇦🇺 IA não pode arbitrar A Comissão de Reforma Jurídica acaba de publicar o primeiro relatório australiano sobre o uso da IA tribunais, e a mensagem é clara: ferramentas de IA devem apoiar operações judiciais, mas jamais tomar decisões. Apresentado ao Parlamento neste mês, o documento traz 30 recomendações para regular o uso seguro da tecnologia no sistema de justiça. A principal delas é a proibição explícita de que nenhuma algoritmo pode influenciar o resultado de casos, sob pena de comprometer a independência judicial e a confiança pública na administração da justiça. A comissão reconhece que a IA já demonstra valor em tarefas como transcrição de processos, pesquisa jurídica, revisão de documentos e até remoção de imagens. O que muda é o princípio orientador: a tecnologia como assistente, nunca como árbitro.

🔢 IA em números

A EssilorLuxottica, fabricante dos óculos Ray-Ban, mais do que triplicou as vendas de seus óculos com tecnologia de IA da Meta em 2025. Foram vendidas mais de 7 milhões de unidades no ano passado - um salto significativo em comparação com os 2 milhões vendidos no total de 2023 e 2024. Os óculos são vendidos sob as marcas Ray-Ban e Oakley, esta última lançada em junho de 2025.

 AI_TOOLKIT

🛠️Ferramentas

  • Facebook agora oferece recursos de IA para animar fotos de perfil, reestilizar Stories/Memories e adicionar fundos animados a publicações de texto.

  • AutoDiscovery, Ai2, é uma ferramenta experimental que automatiza a
    descoberta científica ao analisar dados estruturados sem precisar de uma
    pergunta inicial.

📚 Miscelânea

  • Há três anos, um vídeo bizarro de Will Smith devorando espaguete de forma grotesca se tornou o famoso teste "Hello World" para geração de vídeos por IA. Hoje, esse mesmo teste revela não apenas o impressionante progresso tecnológico, mas também os novos limites éticos e legais que moldam o futuro da Inteligência Artificial.

 AI_FLASH_NEWS

  • Elon Musk disse a funcionários da xAI que tem planos para construir uma fábrica na Lua destinada a produzir satélites para IA.

  • xAI está vendo o êxodo de alguns de seus cofundadores, dois deles depois da fusão com SpaceX.

  • Anthropic viu seu líder de Pesquisa de Salvaguardas renunciar, revelando pressões para a empresa priorizar interesses externos e não valores essenciais.

  • Amazon está considerando lançar um marketplace para que sites de mídia
    possam licenciar seu conteúdo diretamente para empresas de IA.

  • Entire é a nova startup do ex-CEO do GitHub que criará uma plataforma para rastrear e gerenciar código gerado por IA.

  • OpenAI decidiu abandonar a marca io para seu futuro dispositivo movido por
    IA após processo por violação de marca registrada aberto pela startup iyO.

  • Senadores nos EUA apresentaram projeto de lei que obriga empresas de IA a divulgar obras protegidas por direitos autorais usadas no treinamento da IA.

  • Newo vai expandir seus agentes de IA que funcionam como recepcionistas virtuais para PMEs, capazes de atender chamadas, responder mensagens e gerenciar agendas sem alucinações. 👩‍💼🛎️📞

Até a próxima

Obrigado por mergulhar nesta edição. Seu tempo é valioso, e estamos felizes por você ter escolhido passar alguns minutos aqui.

Voltaremos à sua caixa de entrada em breve. Até lá, cultive a curiosidade.😊