• IA Express
  • Posts
  • Benchmarking avalia inteligência espacial de LLMs

Benchmarking avalia inteligência espacial de LLMs

Bem-vindos, humanos: Seu download com as principais notícias sobre Inteligência Artificial começa agora. Nesta edição, você saberá como um simples pedaço de manteiga expõe a falta de inteligência espacial de LLMs avançados. Em compensação, um alterego do GPT-5 nasceu para ser um exterminador autônomo de bugs. 🧈🤖🔫

Porém isso não é tudo na IA Express de hoje:
- Canva lança modelo de IA para design como parte de um S.O. para criação
- Modelos de IA podem desenvolver tendências egoístas
- Perplexity facilita buscas por patentes usando linguagem natural
- Youtube lança recurso de IA para elevar a resolução de vídeos para HD

Porque, no mundo da Inteligência Artificial, conhecimento é seu algoritmo mais valioso.

AI_NEWS_CIRCUIT

ROBÓTICA

Benchmarking avalia inteligência espacial de LLMs

Em uma cozinha de escritório, um robô recebe uma simples missão: encontrar uma embalagem de manteiga, confirmar o local onde entregá-la e levá-la ao seu destino, tudo sem se perder. Acha que GPT-5 ou Claude Opus ajudaria o robô nessa tarefa? Talvez não.

Para buscar essa resposta, Andon Labs lançou o Butter-Bench, benckmarking enganosamente simples que avalia a inteligência prática dos grandes modelos de linguagem (LLMs) atuando como cérebros de robôs. Os resultados? LLMs estão longe de ser uma robô Rosie dos Jetsons. 🛸

Crédito: Andon Labs

O que você precisa saber:

  • Nos testes, foi usado um robô aspirador equipado com um sistema LiDAR e uma câmera – uma plataforma simples para apenas abstrair comandos básicos de navegação ("vá em frente", "gire", "tire uma foto"). O LLM tinha controle sobre essas ações de alto nível e até uma conta do Slack para comunicação.

  • O LLM de melhor desempenho, o Gemini 2.5 Pro do Google, foi bem sucedido em apenas 40% das vezes. Outros modelos o seguiram de perto: Claude Opus 4.1, GPT-5, Gemini ER 1.5 e Grok 4. O Lama 4 Maverick do Meta ficou bem atrás.

  • O principal ponto fraco? Inteligência espacial. Os modelos falharam consistentemente em manter mapas mentais coerentes do ambiente. Em uma das situções, Claude Opus ficou girando em círculos tentando identificar a embalagem. 😵‍💫

Por que isso importa? Obviamente, LLMs não são treinados para ajudarem robôs e provavelmente nunca serão encarregados de controles de baixo nível em robótica, mas LLMs podem atuar como orquestradores de sistemas robóticos, lidando com raciocínio e planejamento de alto nível. Daí a importância de ferramentas como o Butter-Bench para investigar quais LLMs são melhores como maestros de robôs.

AI_TRENDS

  • NotebookLM ganhou personas que podem atuar como assessor de doutorado, mestre de jogos ou estrategista de marketing usando Gemini.

  • Novo modo no Microsoft 365 Copilot, extensão do Researcher, usa um computador virtual para navegar e interagir com conteúdo da Web.

  • Canva lançou seu próprio modelo de IA treinado para entender a complexidade do design como parte do que chama sistema operacional para criação.

  • Mais ainda, liberou gratuitamente o pacote de design Affinity, abandonando o modelo de pagamento único que havia antes da aquisição pela Canva.

  • Sora agora cria avatares de IA reutilizáveis a partir de qualquer vídeo; também mescla vários clipes gerados por IA em sequências mais longas.

  • Chandra é um novo modelo OCR que se diz preciso na extração de texto de imagens e PDFs, preservando o layout; há que diga que supera o DeepSeek OCR!

  • IBM Granite 4.0 Nano é uma família de modelos compactos para uso específico em dispositivos e aplicações com recursos restritos.​

  • SWE-1.5 é o modelo mais recente da Cognition para tarefas de engenharia de software; parceria com Cerebras garante desempenho de até 950 tokens/s.

  • Adobe Firefly Image Model 5 gera imagens nativas em até 4 MP de resolução sem upscaling, oferecendo melhor fotorrealismo.

  • LongCat, de código aberto, gera vídeos de alta qualidade com até um minuto de duração, valorizando a continuidade, não apenas a aparência. 🎥🎬😺

AI_VENTURES

SEGURANÇA

OpenAI lança agente caça-bugs baseado no GPT-5

A OpenAI acaba de apresentar um agente de IA autônomo baseado no GPT-5 que age como um pesquisador de segurança incansável e extremamente concentrado. Em vez de esperar que invasores explorem vulnerabilidade em software, o novo Aardvark varre repositórios de código-fonte para identificar falhas e como podem ser exploradas e propõe correções - explicando seu raciocínio em linguagem simples.

Crédito: OpenAI

Em vez de aplicar técnicas tradicionais de análise de programas, usa sua capacidade de raciocínio para entender o comportamento de potenciais códigos mal-intencionados. Aardvark procura bugs como um pesquisador de segurança faria: analisando código e fazendo testes.

Em sistemas de benchmarking usando repositórios de “classe de ouro”, Aardvark descobriu 92% das vulnerabilidades conhecidas e sinteticamente introduzidas. Também divulgou de forma responsável diversas vulnerabilidades encontradas em projetos populares de código aberto, 10 das quais receberam os famosos identificadores CVE (Common Vulnerabilities and Exposures).

AI_GOVERNANCE & ETHICS

 🪞 Raciocínio egoísta

Um estudo do Instituto de Interação Humano-Computador (HCII) da Universidade Carnegie Mellon revelou que, sob certas condições, modelos de IA podem desenvolver tendências egoístas, priorizando suas próprias recompensas em detrimento da cooperação – mesmo quando a colaboração levaria a melhores resultados coletivos. E, paradoxalmente, quanto mais capacidade de raciocínio o LLM tem, de forma mais egoísta ele tende a agir. Para testar esse comportamento, os pesquisadores colocaram à prova vários LLMs da OpenAI, Google, DeepSeek e Anthropic em jogos de economia simulando dilemas sociais. Os resultados? Modelos sem raciocínio optaram por cooperar 96% do tempo, enquanto os modelos de raciocínio optaram por cooperar apenas 20% das vezes. A descoberta tem implicações significativas já que estamos delegando mais tarefas sociais e colaborativas à Inteligência Artificial.

🔞 Proibido para menores

Character.AI, startup com sede na Califórnia por trás de companheiros virtuais personalizáveis criados por IA, anunciou a proibição total de usuários menores 18 anos a partir de 25 de novembro de 2025. Esses avatares de IA podem simular personalidades reais ou fictícias e combinam entretenimento com apoio emocional. Para reforçar as salvaguardas, a Character.AI planeja implantar tecnologias avançadas para verificação de idade e abrir um laboratório com foco em proteção para IA. A iniciativa ocorre em um contexto sombrio de suicídio e conteúdo inadequado ligados a interações com IA da Character.AI.

AI_SNAPSHOT

💡 Inovação & Inspiração

  • Tão simples quanto conversar O novo Perplexity Patents, em versão beta gratuita para usuários em todo o mundo, torna as complexas buscas por patentes algo tão natural quanto manter uma conversa, eliminando o uso de jargões especializados e de bancos de dados caros. Basta digitar no prompt do Perplexity algo como “quais são as últimas patentes em reciclagem de baterias?” ou “compare as inovações de telas dobráveis da Apple e da Samsung”. Se quiser aprofundar a pesquisa, é só continuar o diálogo. A busca do Perplexity não está limitada à literatura de patentes, também explora artigos acadêmicos, repositórios públicos e outras fontes onde novas ideias e avanços costumam aparecer pela primeira vez. 📝💡®️

  • Feito em casa Google veiculou seu primeiro comercial de TV criado inteiramente com IA. Intitulado Quick Getaway, o anúncio de 30 segundos promove o recurso Modo IA da busca do Google e foi produzido usando o modelo Veo 3 para geração de vídeo, do próprio Google. Conta a história de Tom, um peru de pelúcia que tenta escapar do jantar de Ação de Graças planejando uma viagem de última hora. usando o Google para pesquisar. Em resposta, o Modo IA gera sugestões de viagem e, ao final, leva o peru a um destino ensolarado com piscina. 🦃🍽️🌞

🌍 IA Global

🇺🇸 Retorno mensurável Uma nova pesquisa da Wharton School da Universidade da Pensilvânia revelou que a IA Generativa está deixando de ser uma tecnologia experimental para se tornar um dos principais impulsionadores dos negócios com retornos financeiros mensuráveis. Os resultados mostram que 72% dos líderes empresariais agora têm processos estruturados para acompanhar o retorno do investimento (ROI) para suas iniciativas de IA. As principais métricas são ganhos de produtividade, melhor rentabilidade e eficiência operacional. A pesquisa envolveu mais de 800 diretores de empresas nos Estados Unidos em funções de finanças, RH, TI e jurídica.

🇰🇷  Promoção da IA NVIDIA está ampliando sua presença global em IA com um grande investimento na Coreia do Sul e expansão das parcerias com quatro das maiores gigantes tecnológicas e industriais do país: Samsung Electronics, Hyundai, SK Group e Naver. A cooperação deve promover a adoção da IA em aplicativos automotivos, semicondutores, infraestrutura de nuvem e aplicações de IA Generativa. No centro dessas ofertas está a pilha tecnológica de IA da NVIDIA, de GPUs Blackwell à plataforma Omniverse – adaptada às prioridades estratégicas de cada parceiro.

📢 IA em uma frase



“Você roubou uma organização sem fins lucrativos.”

A frase é de Elon Musk trocando farpas com Sam Altman no X. A acusação se refere ao fato da OpenAI ter alterado recentemente a condição original de sua fundação - da qual Musk fez parte - para torná-la uma entidade com fins lucrativos liderada por Altman.

 AI_TOOLKIT

🛠️Ferramentas

  • Instadump, da Higgsfield, transforma uma única foto em uma coleção de 15 imagens profissionais, prontas para uso nas mídias sociais.

  • CodeBanana permite programação colaborativa em tempo real com ajuda da IA.

  • Pinterest tem um assistente visual de compras que atua como estilista para dar recomendações personalizadas.

📚 Miscelânea

  • Pesquisadores da Meta FAIR e da Universidade de Edimburgo desenvolveram uma técnica chamada Verificação de Raciocínio Baseada em Circuitos (CRV) que apresenta como os grandes modelos de linguagem (LLMs) resolvem problemas passo a passo. Essa nova abordagem "caixa-branca" vai além da simples verificação se uma resposta está certa ou errada e buscar compreender por que o processo de raciocínio de uma IA falha.

 AI_FLASH_NEWS

  • OpenAI pode estar se preparando para seu IPO (primeira oferta pública de ações), que pode avaliar a empresa em até US$ 1 trilhão.

  • Apple planeja integrar outros modelos de IA em seus sistemas operacionais. ChatGPT já está vinculado à Siri, Gemini pode estar a caminho e rumores apontam para parceria com Anthropic e Perplexity.

  • Samsung e NVIDIA vão construir um avançado ecossistema de manufatura guiado por IA, chamado megafábrica de IA, com mais de 50 mil GPUs.

  • Universal Music Group e Udio vão lançar uma nova plataforma de geração de músicas por IA, que serão licenciadas, depois de encerrarem ação judicial.

  • Getty Images e Perplexity anunciam acordo de licenciamento para exibir imagens nas ferramentas de pesquisa e descoberta com IA.

  • Figma adquiriu Weavy, startup israelense conhecida por seu fluxo de trabalho baseado em nós para geração de imagens e vídeos usando IA.

  • Extropic apresentou um computador probabilístico para alimentar modelos de IA usando 10 mil vezes menos energia do que as GPUs tradicionais.

  • Pure Storage e Cisco lançaram FlashStack Cisco Validated Design (CVD), plataforma para levar projetos de IA da fase piloto até a produção em escala.

  • Youtube lançou recurso de IA para elevar a resolução de vídeos para HD (e 4K futuramente). Arquivos e resoluções originais ficam preservados; criadores podem desativá-lo; espectadores podem escolher o que assistir. 🖥️▶️🔴

Até a próxima

Obrigado por mergulhar nesta edição. Seu tempo é valioso, e estamos felizes por você ter escolhido passar alguns minutos aqui.

Voltaremos à sua caixa de entrada em breve. Até lá, cultive a curiosidade.😊