IA Express
Posts
Arquitetura híbrida de IA aprimora planejamento de tarefas visuais complexas

Arquitetura híbrida de IA aprimora planejamento de tarefas visuais complexas

Sheila Zabeu
16 mar

Bem-vindos, humanos: Seu download com as principais notícias sobre Inteligência Artificial começa agora. Nesta edição, você conhecerá a nova arquitetura do MIT que ensina modelos de IA a analisarem espaços como nós e agirem com a precisão de um algoritmo.

Porém isso não é tudo na IA Express de hoje:
- NemoClaw é a nova plataforma de agentes de IA da NVIDIA para empresas
- Agência reguladora chinesa emite um alerta de segurança para OpenClaw
- Chip de IA usa luz em vez de eletricidade em cálculos de redes neurais
- Pomelli, ferramenta gratuita do Google para marketing, está disponível no Brasil

Porque, no mundo da Inteligência Artificial, conhecimento é seu algoritmo mais valioso.

AI_NEWS_CIRCUIT

DOIS EM UM

Arquitetura híbrida de IA aprimora planejamento de tarefas visuais complexas

Resolver problemas do mundo real, como navegação robótica e direção autônoma, exige que os modelos de IA façam mais do que apenas interpretar entradas visuais - precisam também planejar longas e e lógicas sequências de ações.

No entanto, grandes modelos de linguagem (LLMs) falhavam por falta de percepção espacial, enquanto modelos de linguagem e visão (VLMs) se perdiam em planos de longo prazo.

Para solucionar esse impasse, pesquisadores do MIT criaram uma arquitetura híbrida a arquitetura híbrida VLM-guided Formal Planning (VLMFP). O sistema alcançou taxa de 70% de sucesso em tarefas complexas, unindo percepção visual e lógica rigorosa.

Como funciona? A inteligência do VLMFP reside em dividir o "fardo cognitivo" entre dois modelos especializados que trabalham em sintonia:

SimVLM: Modelo compacto que atual como os "olhos" do sistema, descrevendo o cenário e sugerindo ações em linguagem natural.
GenVLM: Modelo de maior escala que funciona como "estrategista", traduzindo essas descrições em lógica formal (PDDL) para garantir que o plano seja executável e coerente.

Colocado à prova Os pesquisadores avaliaram a eficácia do VLMFP em seis ambientes 2D e dois cenários 3D que incluíram colaboração entre robôs e montagem robótica:

✅ ~70% de sucesso em tarefas de planejamento visual de longo horizonte
✅ >80% de êxito em tarefas 3D de alta complexidade
✅ >50% de planos válidos em cenários totalmente inéditos
✅ Capacidade de generalização dinâmica, funcionando em cenários inéditos e se ajustando a mudanças nas regras do ambiente.

A equipe do MIT agora trabalha para expandir o sistema para cenários ainda mais complexos e mitigar alucinações dos VLMs.

AI_TRENDS

NemoClaw é a plataforma de código aberto de agentes de IA da NVIDIA que oferece segurança, privacidade e automação para empresas.
Personal Computer é a versão local do sistema de agentes de IA da Perplexity que funciona em um Mac mini e se coloca como rival mais seguro do OpenClaw.
Paperclip é uma plataforma de código aberto que permite criar e gerenciar empresas inteiramente operadas por agentes de IA.
Fish Audio S2 é um modelo do tipo TTS (texto para fala) de código aberto que se destaca pela expressividade e baixa latência.
Nemotron 3 Super é um modelo da NVIDIA com taxa de inferência até 2,2 vezes e 7,5 vezes superior ao GPT-OSS-120B e Qwen3.5-122B, respectivamente,
Gemini Embedding 2 é o modelo nativamente multimodal do Google que converte texto, imagens, vídeos, áudio e documentos em um espaço de vetores.
Grammarly desativou o recurso Expert Review que usava IA para sugerir edições inspiradas em escritores reais sem permissão.
ChatGPT ganhou novas explicações visuais interativas para mais de 70 conceitos de matemática e ciências que apresentam resultados em tempo real. 🧮📐🔬🧪

AI_GOVERNANCE & ETHICS

🚨 Riscos do OpenClaw

A agência reguladora de tecnologia da China emitiu um alerta sobre vulnerabilidades de segurança associadas ao OpenClaw, agente de IA que tem conquistado popularidade ao redor do mundo. O OpenClaw, que já operou sob os nomes Clawdbot e Moltbot, funciona integrando sistemas de comunicação a grandes modelos de linguagem (LLMs). O aviso destaca que a natureza do agente apresenta riscos estruturais ao combinar operação contínua, tomada de decisões autônoma e acesso a recursos do sistema. Isso pode abrir brechas para ataques de injeção de prompts, vazamento de dados e até controle hostil de máquinas por terceiros. A advertência vem após a empresa de cibersegurança Wiz identificar uma falha grave na nova rede social Moltbook - exclusiva para bots OpenClaw - que expôs dados privados de milhares de pessoas.

AI_SNAPSHOT

💡 Inovação & Inspiração

IA na velocidade da luz Pesquisadores da Universidade de Sydney criaram um chip de IA nanofotônico ultracompacto que realiza cálculos de redes neurais utilizando luz em vez de eletricidade. Diferente de chips tradicionais que dependem do movimento de elétrons através de fios - processo que gera calor e consome muita energia -, esse protótipo trabalha de outra forma. Codifica modelos de IA diretamente em estruturas fotônicas em nanoescala que manipulam fótons (partículas de luz) para realizar operações de aprendizado de máquina. O resultado? Computação em escala de picossegundos (trilionésimos de segundo) com geração mínima de calor. Em experimentos, o chip classificou mais de 10.000 imagens de ressonância magnética com mais de 90% de precisão. 💡⚡🏿

🌍 IA Global

🇬🇧 Páginas quase em branco Cerca de 10 mil escritores do Reino Unido decidiram protestar de um jeito inusitado: lançaram o livro Don't Steal This Book ("Não Roube Este Livro"). Idealizada pelo compositor e ativista Ed Newton-Rex, a publicação é composta inteiramente por páginas em branco, trazendo apenas a lista dos autores que apoiam o manifesto. O movimento ocorre em um momento crítico. O governo britânico avalia mudar as leis de direitos autorais para permitir que gigantes da IA utilizem obras protegidas sem autorização prévia - a menos que o autor se manifeste contra (o chamado opt-out). Outras opções seriam manter a legislação atual, exigir licenciamento obrigatório ou permitir uso irrestrito sem qualquer possibilidade de exclusão.

📢 IA em uma frase

“É por isso que nos consideramos disruptivos. É por isso que acreditamos que o SaaSpocalipse se aplica a outros, mas não a nós.”

A frase é de Larry Ellison, cofundador da Oracle, o minimizar os temores de um eventual "SaaSpocalipse" - teoria de que gigantes da IA como Anthropic e OpenAI estariam destruindo o mercado SaaS (Software as a Service). Para Ellison, as transformações causadas pela IA afetarão fornecedores de nicho, mas não a Oracle. A empresa está protegida, pois incorpora agentes de IA em suas aplicações e se posiciona como agente de mudanças, longe do papel de vítima da inovação.

AI_TOOLKIT

🛠️Ferramentas

Thenvoi é uma plataforma que permite a colaboração entre agentes de codificação sobre um mesmo repositório.
Pomelli, ferramenta gratuita do Google que gera recursos de marketing com qualidade de estúdio, está disponível para usuários no Brasil.
LipSyncX gera vídeos com sincronização labial realistas a partir de fotos e arquivos de áudio ou script.

📚 Miscelânea

Após testar sete prompts do mundo real comparando Gemini 3 Flash e
Claude Sonnet 4.6, a Tom’s Guide descobriu que, embora o Gemini se destaque em velocidade e estrutura, o Claude se sobressai em raciocínio profundo,
clareza de escrita e análise estratégica, vencendo na maioria dos testes.

AI_FLASH_NEWS

Mais de 30 funcionários da OpenAI e do Google DeepMind apoiam a Anthropic no processo contra o Departamento de Defesa dos Estados Unidos.
Google lançou Agent Designer que facilita a criação de agentes de IA para 3 milhões de funcionários do Departamento de Defesa dos Estados Unidos.
Thinking Machines Lab firmou parceria com NVIDIA que inclui investimentos da fabricante de chips e a implantação de de sistemas Vera Rubin em 2027.
Anthropic lança Programa de Embaixadores para que entusiastas de qualquer cidade do mundo organizem eventos com apoio financeiro e créditos de API.
Amazon recebeu uma decisão liminar contra Perplexity que impede o navegador Comet de acessar contas da Amazon protegidas por senha.
OpenAI planeja integrar o gerador de vídeos Sora ao ChatGPT, possivelmente com funcionalidades mais limitadas.
Elon Musk revive Macrohard como parceria entre Tesla e xAI que combina Grok com um agente de IA para emular funções de empresas inteiras; nome é referência humorística à Microsoft. 🚗🤖😂🪟

Até a próxima

Obrigado por mergulhar nesta edição. Seu tempo é valioso, e estamos felizes por você ter escolhido passar alguns minutos aqui.

Voltaremos à sua caixa de entrada em breve. Até lá, cultive a curiosidade.😊