- IA Express
- Posts
- Benchmarking avalia inteligência espacial de LLMs
Benchmarking avalia inteligência espacial de LLMs
Bem-vindos, humanos: Seu download com as principais notícias sobre Inteligência Artificial começa agora. Nesta edição, você saberá como um simples pedaço de manteiga expõe a falta de inteligência espacial de LLMs avançados. Em compensação, um alterego do GPT-5 nasceu para ser um exterminador autônomo de bugs. 🧈🤖🔫
Porém isso não é tudo na IA Express de hoje:
- Canva lança modelo de IA para design como parte de um S.O. para criação
- Modelos de IA podem desenvolver tendências egoístas
- Perplexity facilita buscas por patentes usando linguagem natural
- Youtube lança recurso de IA para elevar a resolução de vídeos para HD
Porque, no mundo da Inteligência Artificial, conhecimento é seu algoritmo mais valioso.
AI_NEWS_CIRCUIT
ROBÓTICA
Benchmarking avalia inteligência espacial de LLMs
Em uma cozinha de escritório, um robô recebe uma simples missão: encontrar uma embalagem de manteiga, confirmar o local onde entregá-la e levá-la ao seu destino, tudo sem se perder. Acha que GPT-5 ou Claude Opus ajudaria o robô nessa tarefa? Talvez não.
Para buscar essa resposta, Andon Labs lançou o Butter-Bench, benckmarking enganosamente simples que avalia a inteligência prática dos grandes modelos de linguagem (LLMs) atuando como cérebros de robôs. Os resultados? LLMs estão longe de ser uma robô Rosie dos Jetsons. 🛸

Crédito: Andon Labs
O que você precisa saber:
Nos testes, foi usado um robô aspirador equipado com um sistema LiDAR e uma câmera – uma plataforma simples para apenas abstrair comandos básicos de navegação ("vá em frente", "gire", "tire uma foto"). O LLM tinha controle sobre essas ações de alto nível e até uma conta do Slack para comunicação.
O LLM de melhor desempenho, o Gemini 2.5 Pro do Google, foi bem sucedido em apenas 40% das vezes. Outros modelos o seguiram de perto: Claude Opus 4.1, GPT-5, Gemini ER 1.5 e Grok 4. O Lama 4 Maverick do Meta ficou bem atrás.
O principal ponto fraco? Inteligência espacial. Os modelos falharam consistentemente em manter mapas mentais coerentes do ambiente. Em uma das situções, Claude Opus ficou girando em círculos tentando identificar a embalagem. 😵💫
Por que isso importa? Obviamente, LLMs não são treinados para ajudarem robôs e provavelmente nunca serão encarregados de controles de baixo nível em robótica, mas LLMs podem atuar como orquestradores de sistemas robóticos, lidando com raciocínio e planejamento de alto nível. Daí a importância de ferramentas como o Butter-Bench para investigar quais LLMs são melhores como maestros de robôs.
AI_TRENDS
NotebookLM ganhou personas que podem atuar como assessor de doutorado, mestre de jogos ou estrategista de marketing usando Gemini.
Novo modo no Microsoft 365 Copilot, extensão do Researcher, usa um computador virtual para navegar e interagir com conteúdo da Web.
Canva lançou seu próprio modelo de IA treinado para entender a complexidade do design como parte do que chama sistema operacional para criação.
Mais ainda, liberou gratuitamente o pacote de design Affinity, abandonando o modelo de pagamento único que havia antes da aquisição pela Canva.
Sora agora cria avatares de IA reutilizáveis a partir de qualquer vídeo; também mescla vários clipes gerados por IA em sequências mais longas.
Chandra é um novo modelo OCR que se diz preciso na extração de texto de imagens e PDFs, preservando o layout; há que diga que supera o DeepSeek OCR!
IBM Granite 4.0 Nano é uma família de modelos compactos para uso específico em dispositivos e aplicações com recursos restritos.
SWE-1.5 é o modelo mais recente da Cognition para tarefas de engenharia de software; parceria com Cerebras garante desempenho de até 950 tokens/s.
Adobe Firefly Image Model 5 gera imagens nativas em até 4 MP de resolução sem upscaling, oferecendo melhor fotorrealismo.
LongCat, de código aberto, gera vídeos de alta qualidade com até um minuto de duração, valorizando a continuidade, não apenas a aparência. 🎥🎬😺
AI_VENTURES
SEGURANÇA
OpenAI lança agente caça-bugs baseado no GPT-5
A OpenAI acaba de apresentar um agente de IA autônomo baseado no GPT-5 que age como um pesquisador de segurança incansável e extremamente concentrado. Em vez de esperar que invasores explorem vulnerabilidade em software, o novo Aardvark varre repositórios de código-fonte para identificar falhas e como podem ser exploradas e propõe correções - explicando seu raciocínio em linguagem simples.

Crédito: OpenAI
Em vez de aplicar técnicas tradicionais de análise de programas, usa sua capacidade de raciocínio para entender o comportamento de potenciais códigos mal-intencionados. Aardvark procura bugs como um pesquisador de segurança faria: analisando código e fazendo testes.
Em sistemas de benchmarking usando repositórios de “classe de ouro”, Aardvark descobriu 92% das vulnerabilidades conhecidas e sinteticamente introduzidas. Também divulgou de forma responsável diversas vulnerabilidades encontradas em projetos populares de código aberto, 10 das quais receberam os famosos identificadores CVE (Common Vulnerabilities and Exposures).
AI_GOVERNANCE & ETHICS
🪞 Raciocínio egoísta
Um estudo do Instituto de Interação Humano-Computador (HCII) da Universidade Carnegie Mellon revelou que, sob certas condições, modelos de IA podem desenvolver tendências egoístas, priorizando suas próprias recompensas em detrimento da cooperação – mesmo quando a colaboração levaria a melhores resultados coletivos. E, paradoxalmente, quanto mais capacidade de raciocínio o LLM tem, de forma mais egoísta ele tende a agir. Para testar esse comportamento, os pesquisadores colocaram à prova vários LLMs da OpenAI, Google, DeepSeek e Anthropic em jogos de economia simulando dilemas sociais. Os resultados? Modelos sem raciocínio optaram por cooperar 96% do tempo, enquanto os modelos de raciocínio optaram por cooperar apenas 20% das vezes. A descoberta tem implicações significativas já que estamos delegando mais tarefas sociais e colaborativas à Inteligência Artificial.
🔞 Proibido para menores
Character.AI, startup com sede na Califórnia por trás de companheiros virtuais personalizáveis criados por IA, anunciou a proibição total de usuários menores 18 anos a partir de 25 de novembro de 2025. Esses avatares de IA podem simular personalidades reais ou fictícias e combinam entretenimento com apoio emocional. Para reforçar as salvaguardas, a Character.AI planeja implantar tecnologias avançadas para verificação de idade e abrir um laboratório com foco em proteção para IA. A iniciativa ocorre em um contexto sombrio de suicídio e conteúdo inadequado ligados a interações com IA da Character.AI.
AI_SNAPSHOT
💡 Inovação & Inspiração
Tão simples quanto conversar O novo Perplexity Patents, em versão beta gratuita para usuários em todo o mundo, torna as complexas buscas por patentes algo tão natural quanto manter uma conversa, eliminando o uso de jargões especializados e de bancos de dados caros. Basta digitar no prompt do Perplexity algo como “quais são as últimas patentes em reciclagem de baterias?” ou “compare as inovações de telas dobráveis da Apple e da Samsung”. Se quiser aprofundar a pesquisa, é só continuar o diálogo. A busca do Perplexity não está limitada à literatura de patentes, também explora artigos acadêmicos, repositórios públicos e outras fontes onde novas ideias e avanços costumam aparecer pela primeira vez. 📝💡®️
Feito em casa Google veiculou seu primeiro comercial de TV criado inteiramente com IA. Intitulado Quick Getaway, o anúncio de 30 segundos promove o recurso Modo IA da busca do Google e foi produzido usando o modelo Veo 3 para geração de vídeo, do próprio Google. Conta a história de Tom, um peru de pelúcia que tenta escapar do jantar de Ação de Graças planejando uma viagem de última hora. usando o Google para pesquisar. Em resposta, o Modo IA gera sugestões de viagem e, ao final, leva o peru a um destino ensolarado com piscina. 🦃🍽️🌞
🌍 IA Global
🇺🇸 Retorno mensurável Uma nova pesquisa da Wharton School da Universidade da Pensilvânia revelou que a IA Generativa está deixando de ser uma tecnologia experimental para se tornar um dos principais impulsionadores dos negócios com retornos financeiros mensuráveis. Os resultados mostram que 72% dos líderes empresariais agora têm processos estruturados para acompanhar o retorno do investimento (ROI) para suas iniciativas de IA. As principais métricas são ganhos de produtividade, melhor rentabilidade e eficiência operacional. A pesquisa envolveu mais de 800 diretores de empresas nos Estados Unidos em funções de finanças, RH, TI e jurídica.
🇰🇷 Promoção da IA NVIDIA está ampliando sua presença global em IA com um grande investimento na Coreia do Sul e expansão das parcerias com quatro das maiores gigantes tecnológicas e industriais do país: Samsung Electronics, Hyundai, SK Group e Naver. A cooperação deve promover a adoção da IA em aplicativos automotivos, semicondutores, infraestrutura de nuvem e aplicações de IA Generativa. No centro dessas ofertas está a pilha tecnológica de IA da NVIDIA, de GPUs Blackwell à plataforma Omniverse – adaptada às prioridades estratégicas de cada parceiro.
📢 IA em uma frase
| A frase é de Elon Musk trocando farpas com Sam Altman no X. A acusação se refere ao fato da OpenAI ter alterado recentemente a condição original de sua fundação - da qual Musk fez parte - para torná-la uma entidade com fins lucrativos liderada por Altman. |
AI_TOOLKIT
🛠️Ferramentas
Instadump, da Higgsfield, transforma uma única foto em uma coleção de 15 imagens profissionais, prontas para uso nas mídias sociais.
CodeBanana permite programação colaborativa em tempo real com ajuda da IA.
Pinterest tem um assistente visual de compras que atua como estilista para dar recomendações personalizadas.
📚 Miscelânea
Pesquisadores da Meta FAIR e da Universidade de Edimburgo desenvolveram uma técnica chamada Verificação de Raciocínio Baseada em Circuitos (CRV) que apresenta como os grandes modelos de linguagem (LLMs) resolvem problemas passo a passo. Essa nova abordagem "caixa-branca" vai além da simples verificação se uma resposta está certa ou errada e buscar compreender por que o processo de raciocínio de uma IA falha.
AI_FLASH_NEWS
OpenAI pode estar se preparando para seu IPO (primeira oferta pública de ações), que pode avaliar a empresa em até US$ 1 trilhão.
Apple planeja integrar outros modelos de IA em seus sistemas operacionais. ChatGPT já está vinculado à Siri, Gemini pode estar a caminho e rumores apontam para parceria com Anthropic e Perplexity.
Samsung e NVIDIA vão construir um avançado ecossistema de manufatura guiado por IA, chamado megafábrica de IA, com mais de 50 mil GPUs.
Universal Music Group e Udio vão lançar uma nova plataforma de geração de músicas por IA, que serão licenciadas, depois de encerrarem ação judicial.
Getty Images e Perplexity anunciam acordo de licenciamento para exibir imagens nas ferramentas de pesquisa e descoberta com IA.
Figma adquiriu Weavy, startup israelense conhecida por seu fluxo de trabalho baseado em nós para geração de imagens e vídeos usando IA.
Extropic apresentou um computador probabilístico para alimentar modelos de IA usando 10 mil vezes menos energia do que as GPUs tradicionais.
Pure Storage e Cisco lançaram FlashStack Cisco Validated Design (CVD), plataforma para levar projetos de IA da fase piloto até a produção em escala.
Youtube lançou recurso de IA para elevar a resolução de vídeos para HD (e 4K futuramente). Arquivos e resoluções originais ficam preservados; criadores podem desativá-lo; espectadores podem escolher o que assistir. 🖥️▶️🔴
Até a próxima
Obrigado por mergulhar nesta edição. Seu tempo é valioso, e estamos felizes por você ter escolhido passar alguns minutos aqui.
Voltaremos à sua caixa de entrada em breve. Até lá, cultive a curiosidade.😊