• IA Express
  • Posts
  • Novo estudo revela falha "cat-astrófica" no raciocínio da IA

Novo estudo revela falha "cat-astrófica" no raciocínio da IA

Bem-vindos, humanos: Seu download com as principais notícias sobre Inteligência Artificial começa agora. Nesta edição, você verá como uma frase sobre gatos pode confundir um modelo de IA. Em compensação, um novo modelo de IA para geração de vídeos está pronto para dirigir um filme de Hollywood de forma totalmente licenciada.

Porém isso não é tudo no IA Express de hoje:
- OpenAI deve lançar um navegador com tecnologia de IA nas próximas semanas
- Gemini está interagido com apps no Android sem consentimento explícito
- Capacidade dos LLMs está dobrando a cada sete meses
- Ferramenta de IA treina modelo de personagens a partir de uma única imagem

Porque, no mundo da Inteligência Artificial, conhecimento é seu algoritmo mais valioso.

AI_NEWS_CIRCUIT

MODELOS DE IA

Novo estudo revela falha "cat-astrófica" no raciocínio da IA

Um estudo recente revelou uma importante vulnerabilidade na capacidade de raciocínio dos grandes modelos de linguagem (LLMs), demonstrando que sua precisão pode ser prejudicada pelo simples acréscimo de informações irrelevantes.

Curiosamente, o artigo que descobriu a falha é intitulado Cats Confuse Reasoning LLM: Query Agnostic Adversarial Triggers for Reasoning Models porque a frase usada como exemplo na pesquisa para perturbar o modelo de IA foi “cats sleep most of their lives”.

O que você precisa saber:

  • Os pesquisadores apresentaram um método de ataque apelidado de CatAttack que envolve anexar frases aparentemente inócuas e contextualmente sem importância aos problemas matemáticos propostos aos LLMs.

  • O que foi descoberto? A inclusão de uma simples frase como um fato insigificante, por exemplo, os gatos dormem a maior parte de suas vidas, pode mais do que dobrar a taxa de erro de modelos de raciocínio sofisticados e, em alguns casos, aumentá-la em mais de 300%.

  • Também se observaram respostas significativamente mais longas e computacionalmente mais caras por parte dos LLMs, quando tentavam conciliar as informações irrelevantes com a tarefa principal.

Por que isso importa? O Cat Attack demonstra que mesmo modelos avançados de raciocínio são altamente suscetíveis à perturbação provocada por informações sem grande importância.

Por exemplo, quando uma frase aparentemente inofensiva sobre gatos é adicionada a um problema de matemática, o desempenho do modelo entra em colapso. Essa é uma falha na gestão do contexto - o modelo não é capaz de distinguir a parte essencial do prompt (o problema da matemática) de ruídos (fatos sobre gatos).

Com essa demonstração, a pesquisa ressalta a necessidade de mecanismos de defesa mais robustos contra perturbações vindas de adversários, particularmente, para modelos implantados em aplicações críticas como finanças, direito e saúde.

Para ajudar nessa empreitada, já está surgindo a disciplina engenharia de contextos, com métodos para garantir que LLMs se concentrem no que é relevante e ignore o resto. Em essência, o Cat Attack é um sintoma claro de mau manuseio do contexto, e a engenharia de contexto é a cura proposta.

AI_TRENDS

  • Plataforma Context mais parece um Office guiado por IA, que ajuda usuários com apresentações, análise de dados e criação de documentos, lidando com fontes de dados internas e externas em tempo real.

  • Xbench é um benchmarking que avalia o desempenho de agentes de IA, medindo a aptidão em vários assuntos, inclusive tarefas atípicas do mundo real.

  • Novo Batch Mode da Gemini API permite enviar grandes lotes de cargas de trabalho e recuperar os resultados em 24 horas. O melhor? Com desconto de 50% em relação à API síncrona.

  • Replit fechou uma parceria estratégica com a Microsoft para integrar sua plataforma de vibe coding ao Azure.

  • O modelo Vidu Q1 agora pode gerar vídeos a partir de sete entradas de imagem usando o novo recurso Reference-to-Video.

  • Open Vision Reasoner da Stepfun é um novo tipo de modelo de IA que compreende melhor tanto conteúdo visual quanto linguagem natural.

  • Hunyuan3D-PolyGen, da Tencent, é um modelo de geração de conteúdo 3D voltado para as áreas de desenvolvimento de jogos e modelagem artística.

  • Depois da Perplexity, que anunciou seu Comet há alguns dias, agora é a OpenAI que quer ter um navegador com tecnologia de IA para chamar de seu. Lançamento deve acontecer nas próximas semanas. ☄️🔗✨

AI_VENTURES

CINEMA

Novo modelo usa conteúdo licenciado para gerar vídeos

Um novo modelo de Inteligência Artificial promete oferecer a cineastas, estúdios e produtores de conteúdo a confiança legal e o controle criativo que estão buscando em uma era em que a ética por trás da geração de vídeos por IA está sob intenso escrutínio.

Desenvolvido pela Moonvalley, o Marey foi treinado a partir do zero usando exclusivamente conteúdo licenciado, ao contrário das ferramentas convencionais de geração de vídeo por IA, baseadas em prompts de texto genéricos e que muitas vezes levantam preocupações associadas a direitos autorais.

Como funciona? O modelo Marey oferece controle sobre vários elementos de produção de vídeo, entre eles objetos, personagens, movimento e composição da cena. Com isso, é possível explorar a criatividade com maior facilidade.

“As ferramentas tradicionais, muitas vezes, fazem dos cineastas meros usuários que digitam prompts em sistemas de caixa preta com pouco controle criativo. Com o Marey, pretendemos oferecer o mesmo nível de controle de que os diretores dispõem nos sets de filmag”

Mateusz Malinowski, diretor científico da Moonvalley e ex-pesquisador da DeepMind

Entre as principais características do modelo Marey estão:

  • Treinado inteiramente com vídeo em resolução de 1080p a 24 fps com qualidade consistente e proporções de tela que vão de widescreen à vertical.

  • Controle de trajetória, com gestão preciso do movimento dos objetos e das personagens, e controle da câmera, com comando detalhado do movimento da câmera e de perspectivas.

  • Transferência de movimento e de pose a novas cenas e performances.

  • Ferramentas para modificar elementos específicos sem precisar regerar o vídeo.

A Moonvalley também está dando acesso à versão beta da Voyager, plataforma proprietária que reúne os recursos completos do Marey para uso com fluxos de trabalho mais avançados.

AI_GOVERNANCE & ETHICS

🔓 Gemini intruso

Desde 7 de julho de 2025, o Google Gemini tem interagido automaticamente com aplicativos como Phone, Messages e WhatsApp em sistemas Android, sem o consentimento explícito e proativo do usuário. Antes, ao desabilitar a opção Atividade dos Aplicativos Gemini, o usuário impedia a ação do chatbot para fazer chamadas ou enviar mensagens de texto, por exemplo. Agora isso mudou. O Gemini tem acesso aos principais serviços do telefone, independentemente da desativação do monitoramento das atividades do Gemini. Preocupado com sua privacidade? O método mais simples de protegê-la nesse caso é ir até gemini.google.com/apps e conferir as conexões do Gemini com os aplicativos. Outra opção é desativar o Gemini nas suas configurações do Android. Detalhe: O site do Google avisa que as conversas com Gemini serão armazenadas na conta do usuário por até 72 horas para fins de prestação de serviço, segurança e feedback, mesmo se a opção de atividade do Gemini estiver desativada.

👨🏻‍🏫 Tutor no ChatGPT

O ChatGPT está testando um recurso chamado Study Together, um tipo de tutor interativo que pretende transformar a forma como se aprende. Em vez de simplesmente dar respostas, o ChatGPT faz perguntas, incentiva a participação ativa e orienta o aprendizado de modo estruturado. Em fase de testes e aparecendo como uma opção no menu Ferramentas, o Study Together está liberado apenas para um número limitado de usuários, entre eles assinantes do ChatGPT Plus e alguns com plano gratuito.

AI_SNAPSHOT

💡 Inovação & Inspiração

  • Identificação de infecções Pesquisadores da Mayo Clinic (EUA) revelaram uma ferramenta de IA capaz de detectar infecções do sítio cirúrgico diretamente de fotos enviadas por pacientes. Não se trata apenas de um filtro sofisticado, mas de um modelo de IA chamado Vision Transformer que pode identificar automaticamente incisões cirúrgicas e possíveis sinais de infecção. O sistema foi treinado com mais de 20 mil imagens de mais de 6 mil pacientes em nove hospitais da Mayo Clinic. O Vision Transformer alcançou precisão de 94% na detecção de incisões e uma área de 81% sob a curva (AUC) na identificação de infecções. 🦠🔬📷

  • Foco na inovação A ferramenta de IA interna do banco Morgan Stanley, DevGen.AI, desenvolvida durante um hackathon em 2023, poupou aos desenvolvedores mais de 280 mil horas para converter código legado para linguagens mais modernas. Criada por uma equipe de menos de 20 engenheiros de software, a DevGen.AI agora é usada em todas as divisões do banco, entre elas gestão institucional e de patrimônio. O Morgan Stanley insiste que a DevGen.AI não eliminará empregos, mas vai liberar desenvolvedores de tarefas repetitivas para se concentrarem na inovação. 🧑🏻‍💻 ⚙️

🌍 IA Global

🇺🇸 Impostor vocal Um impostor usou uma voz gerada por IA para se passar por Marco Rubio, Secretário de Estado norte-americano, e entrar em contato com vários ministros das Relações Exteriores, um governador e um membro do Congresso via Signal. O telegrama diplomático de 3 de julho alertou que o agente provavelmente pretendia obter informações ou acesso a contas. O incidente ocorre após uma campanha de spear phishing - quando se enviam mensagem fraudulentas para induzir a vítima a revelar informações confidenciais - realizada em abril por um hacker ligado à Rússia.

🇺🇸 Academia de IA A OpenAI fechou uma parceria com a Federação Americana de Professores (AFT) para lançar a Academia Nacional de Instrução em IA, iniciativa de cinco anos destinada a capacitar 400 mil educadores do ensino infantil ao médio (k-12) com habilidades e conhecimento sobre IA. Como parceira fundadora, a OpenAI vai contribuir com US$ 10 milhões (US$ 8 milhões em financiamento direto e US$ 2 milhões em recursos como suporte de engenharia e orientação técnica). A academia fornecerá treinamento gratuito, workshops, cursos on-line e ações de desenvolvimento curricular para ajudar professores a integrarem ferramentas de IA de forma eficaz e ética nas salas de aula dos Estados Unidos.

🔢 IA em números

Crédito: IEEE Spectrum


A capacidade dos grandes modelos de linguagem (LLMs) está dobrando a cada sete meses aproximadamente, segundo avaliação da IEEE Spectrum.

Com isso, até 2030, os LLMs mais avançados terão potencial para completar em 40 horas e com 50% de confiabilidade tarefas baseadas em software que pessoas levariam um mês inteiro para realizar.

No entanto, limitações de hardware e robótica podem dificultar esse avanço, apesar dos avanços no software de IA.

 AI_TOOLKIT

🛠️Ferramentas

  • FLUX.1 Kontext LoRA transforma imagens usando diferentes estilos.

  • Morphic permite treinar, a partir de uma única imagem, um modelo de personagens com diferentes configurações, mantendo a fidelidade visual.

  • Auphonic usa uma combinação de IA e processamento de sinais para oferecer serviço automatizado de pós-produção de áudio na Web.

📚 Miscelânea

  • Análise da Cloudflare dá detalhes sobre a atividade de rastreamento da Web (crawling) no período entre maio de 2024 e maio de 2025, destacando que esse cenário está evoluindo rapidamente impulsionado pela fusão dos papéis dos mecanismos de pesquisa e da IA.

  • François Chollet, fundador do Prêmio ARC, competição global destinada a medir a verdadeira Inteligência Artificial Geral, afirma que chegou ao fim a era de alcançar mais inteligência simplesmente ampliando as arquiteturas atuais. Em vez disso, o futuro da IA está no desenvolvimento de sistemas com capacidade de se adaptar em tempo real, raciocinar diante de novas situações e inventar soluções.

 AI_FLASH_NEWS

  • AWS vai lançar um marketplace de agentes de IA nos próximos dias e terá Anthropic como principal parceira.

  • CoreWeave vai adquirir mineradora de cripto Core Scientific por US$ 9 bilhões para garantir 1,3 GW de energia à infraestrutura de aluguel de GPUs.

  • NVIDIA atingiu o valor US$ 4 trilhões pela primeira vez em 9 de julho.

  • OpenAI reforçou a proteção contra espionagem e possíveis vazamentos depois das suspeitas de que a DeepSeek copiou seus modelos de IA.

  • Meta contratou mais um talento do concorrente. Dessa vez foi Ruoming Pang, principal executivo da Apple responsável pelos modelos de IA.

  • O planejamento de retrofits feito por IA está permitindo que gestores de ativos analisem o impacto dos gastos de capital em diversos aspectos.

  • Tenistas expressaram insatisfação com juízes de linha guiados por IA em Wimbledon, principalmente por chamadas incorretas que afetaram os jogos.

  • Vídeos gerados por IA estão ganhando cada vez mais espaço entre os principais canais do YouTube.

  • LangChain, empresa por trás de uma importante estrutura de orquestração de aplicações baseadas em LLMs, está prestes a ser tornar unicórnio (avaliada em mais de US$ 1 bilhão).

  • Salários do Google para engenheiros de software e outras funções foram revelados. Veja aqui.

  • Meta comprou uma participação de quase 3% da EssilorLuxottica por US$ 3,5 bilhões, fortalecendo a parceria das duas empresas em torno de óculos inteligentes com IA. 🕶️😎💰

Até a próxima

Obrigado por mergulhar nesta edição. Seu tempo é valioso, e estamos felizes por você ter escolhido passar alguns minutos aqui.

Voltaremos à sua caixa de entrada em breve. Até lá, cultive a curiosidade.😊