• IA Express
  • Posts
  • Gemini Robotics aproximam agentes de IA do mundo físico

Gemini Robotics aproximam agentes de IA do mundo físico

Bem-vindos, humanos: Seu download com as principais notícias sobre Inteligência Artificial começa agora. Nesta edição, você saberá como os novos modelos Gemini Robotics redefinem a inteligência física e como a Meta está levando a geração de código além da sintaxe com seu novo modelo de mundo.

Porém isso não é tudo na IA Express de hoje:
- VibeSDK da Cloudflare cria plataforma de vibe coding com um clique
- Sistema da Cloudfare controla uso de conteúdo de sites por modelos de IA
- Usando IA, Video Marketer quer ser o índice de vídeos na Web à moda do Google
- Brasileira está na lista das 100 pessoas mais influentes em IA da revista Time

Porque, no mundo da Inteligência Artificial, conhecimento é seu algoritmo mais valioso.

AI_NEWS_CIRCUIT

ROBÓTICA

Gemini Robotics aproximam agentes de IA do mundo físico

Tão ou mais rápida que a evolução da Inteligência Artificial está sendo a dissolução da linha entre cognição digital e ação física. Contribuindo para isso, o Google DeepMind lançou dois novos modelos da família Gemini Robotics: Gemini Robotics 1.5 e Gemini Robotics-ER 1.5, abrindo caminho para uma nova era de agentes físicos.

Qual é a novidade? Esses modelos prometem transformar robôs de meros executores de instruções pré-programadas em agentes inteligentes capazes de perceber, planejar, raciocinar e agir no mundo real. Na prática, robôs movidos pelos modelos Gemini Robotics podem dividir tarefas, adaptar-se a novos ambientes e até explicar seu processo de raciocínio.

Como funcionam:

  • Gemini Robotics-ER 1.5: É um modelo de linguagem visual (Vision Language Model - VLM) otimizado para compreensão de espaços físicos. Destaca-se em consciência espacial e interações em linguagem natural, estimando o progresso das tarefas e integrando ferramentas externas como Google Search ou funções personalizadas. É projetado para orquestrar atividades, tomando decisões lógicas com base em contextos do mundo real.

  • Gemini Robotics 1.5: Atuando como executor, esse modelo do tipo visão-linguagem-ação (Vision-Language-Action - VLA) traduz entradas visuais e instruções em comandos motores precisos. O que o diferencia é a capacidade de “pensar antes de agir”, gerando sequências de raciocínio internas em linguagem natural para analisar tarefas passo a passo.

Essa estrutura colaborativa entre os modelos permite maior generalização para que os robôs enfrentem tarefas de horizonte mais longo em variadas configurações sem reprogramação constante.

A versão Gemini Robotics-ER 1.5 está acessível a desenvolvedores por meio da API do Gemini no Google AI Studio. Já a Gemini Robotics 1.5 está atualmente disponível apenas para alguns parceiros. Google DeepMind também liberou um relatório técnico sobre os novos modelos e um blog para quem se interessar em desenvolver agentes físicos para a família Gemini Robotics.

AI_TRENDS

  • Search Live é um novo recurso do app Google em Android e iOS que permite fazer perguntas por voz usando AI Mode e compartilhar contexto visual pela câmera. Por enquanto, disponível apenas nos Estados Unidos.

  • Qwen3-Max é o mais avançado LLM da Alibaba e o carro-chefe da série Qwen3, com mais de 1 trilhão de parâmetros e pré-treinado com 36 trilhões de tokens.

  • IBM Granite-Docling-258M é um modelo de linguagem visual que converte documentos não estruturados em formatos interpretáveis por máquinas.

  • Novo modelo v5 da Suno para criação de músicas usando IA oferece vocais mais realistas, melhor qualidade de som e controle aprimorado.

  • PDDL-INSTRUCT é uma estrutura que melhora a capacidade de LLMs para gerar planos de várias etapas logicamente válidos, em vez de apenas plausíveis.

  • SCIGEN orienta modelos de IA Generativa na concepção de materiais com propriedades quânticas como supercondutividade e estados magnéticos únicos.

  • SEAL Showdown, da Scale, é um novo ranking que avalia LLMs usando milhões de conversas autênticas em 100 países, 70 idiomas e 200 domínios profissionais.

  • VibeSDK, da Cloudflare, permite que qualquer pessoa tenha uma plataforma de vibe coding para chamar de sua, de ponta a ponta, com apenas um clique. </>👩🏻‍💻

AI_VENTURES

GERAÇÃO DE CÓDIGO

Modelo de mundo da Meta ensina IA a pensar como desenvolvedor

Modelos de IA tradicionais geram código, aprendendo a prever linha por linha, da esquerda para a direita e de cima para baixo, sem a compreensão intrínseca de seu comportamento. Por achar que isso não é suficiente, a Meta desenvolveu o Code World Model (CWM), modelo que vai além da aparência do código para também aprender o que ele faz quando é executado.

Como modelo de mundo, tipo de LLM que é treinado para entender a dinâmica de um ambiente, o CWM decifra o “universo do software”, entendendo estados do programa e a mudança das variáveis em diferentes pontos de execução e “raciocinando” sobre o comportamento do código além da sintaxe.

Para ganhar essa capacidade, o CWM foi treinado com base em trajetórias observação-ação de interpretadores Python e sessões em contêineres Docker. Falando de modo menos técnico, com a execução real de código e com tarefas interativas de programação, aprendeu a semântica do código – como cada linha altera as variáveis ​​e o estado do programa – em vez de apenas memorizar padrões de texto. Fez um modelo do mundo do software!

AI_GOVERNANCE & ETHICS

🚦 Dê um sinal

Proprietários de sites lidam há muito tempo com o seguinte dilema: manter o conteúdo aberto para que seja descoberto pelos mecanismos de busca ou protegê-lo atrás de paywalls contra bots sedentos por dados. A nova Content Signals Policy oferecida pela Cloudfare é uma extensão inteligente do famoso arquivo robots.txt que dá mais controle sobre como o conteúdo dos sites pode alimentar modelos de IA. É possível incorporar diretivas em linguagem simples no robots.txt para sinalizar como o conteúdo pode ser rastreado. São três os principais sinais da política: search (para indexação tradicional), ai-input (para respostas ou resumos gerados por IA (como no AI Overviews)) e ai-train (para treinamento de modelos de IA). Os operadores de sites podem escolher sim ou não para cada sinal e aplicar as regras globalmente, a bots ou até páginas específicas.

🕵️ IA contra fraudes

O governo do Reino Unido recuperou quase £ 500 milhões no ano passado usando uma ferramenta de IA chamada Fraud Risk Assessment Accelerator, a maior recuperação já feita por equipes antifraude britânicas. Os golpes abordados estão relacionados à Covid-19, reivindicações fiscais ilegais, sublocação de habitação social e foram identificados por referência cruzada de dados departamentais. Os valores recuperados vão financiar o recrutamento de enfermeiros, professores e policiais. No entanto, grupos de liberdades civis levantaram preocupações sobre possíveis vieses na detecção das fraudes, citando disparidades em fatores como idade, deficiência e nacionalidade.

AI_SNAPSHOT

💡 Inovação & Inspiração

  • Parceira da imaginação Cansado de esboçar ideias sobre guardanapos? O Google Labs acabou de lançar o Mixboard, uma ferramenta experimental que transforma pensamentos vagos em colagens visuais usando IA Generativa. Basta digitar um prompt para começar a ver as ideias ganharem vida em uma tela infinita. A má notícia? Disponível em versão beta pública somente para usuários nos Estados Unidos. Quem sabe uma VPN pode ajudar? 🎨🖌️⬜

  • Para ajudar nas consultas O ScopeAI da startup Akido Labs é um modelo de IA que automatiza aspectos importantes de consultas médicas para produzir diagnósticos e sugerir tratamentos. Depois que assistentes médicos (em pessoa) usam o ScopeAI durante as visitas dos pacientes, os médicos podem revisar e aprovar as propostas de forma assíncrona, elevando sua capacidade de atender pacientes em até cinco vezes, segundo o Akido Labs. Em testes com dados históricos, o ScopeAI apresentou um diagnóstico preciso entre suas três principais sugestões em, pelo menos, 92% das vezes. Críticos levantam preocupações relacionadas à confiança excessiva na IA, possíveis vieses e redução do “toque humano” no atendimento. 👨‍⚕️🩺

🌍 IA Global

🇦🇪 Projeto no Oriente Médio NVIDIA e o Instituto de Inovação Tecnológica (TII) de Abu Dhabi lançaram o primeiro centro de tecnologia de Inteligência Artificial da gigante dos chips no Oriente Médio, estabelecendo um laboratório conjunto de pesquisa em IA e robótica nos Emirados Árabes Unidos. A iniciativa segue um acordo multibilionário para construir o maior campus de IA de Abu Dhabi, que parece ter sido postergado por conta de preocupações dos Estados unidos relacionadas à segurança do projeto.

🇮🇪 Avanços regulatórios A Irlanda anunciou avanços na implementação da Lei de IA da União Europeia, marcando um passo significativo no quadro regulamentar da IA do país. Entre as atualizações estão a designação de 15 autoridades nacionais competentes para supervisionar e fazer cumprir a legislação e o estabelecimento de um escritório nacional de IA para coordenar a implementação, reunir conhecimento técnico, atuar como um hub central e promover a inovação por meio de uma caixa de areia (sandbox) regulatória.

📢 IA em uma frase

“Nossa visão é simples: criar uma ‘fábrica’
com capacidade para produzir um gigawatt em infraestrutura de IA a cada semana. No entanto, colocar isso em prática é muito difícil.”

A frase é Sam Altman, CEO da OpenAI, em seu blog, onde apresenta sua visão sobre como expandir a infraestrutura de IA para alimentar a próxima era da inteligência. Segundo ele, será preciso contar com inovação em áreas como chips, energia, construção e robótica, mas Altman acredita que é possível cumprir a meta.

 AI_TOOLKIT

🛠️Ferramentas

  • Alloy cria protótipos usando imagens e as alterando por conversas via chat.

  • Airial Travel gera roteiros de viagem detalhados e personalizados, incluindo desde passagens aéreas a hospedagem e atividades.

  • Video Marketer tem o objetivo ambicioso de criar um índice de vídeo universal, como Google fez com a Web.

📚 Miscelânea

  • A adoção da Inteligência Artificial no desenvolvimento de software tem visto um crescimento sem precedentes, mas temperado com um persistente ceticismo. Isso é o que revela a mais recente edição do relatório DORA (DevOps Research and Assessment) publicado pelo Google - enquanto 24% dos entrevistados dizem confiar “muito”, quase um terço admite que confia “um pouco” ou “não confia”. O estudo resume esses números na expressão “paradoxo da confiança”, ou seja, ainda que resultados proporcionados pela IA sejam percebidos como úteis e valiosos por muitos, ainda há uma boa falta de confiança.

 AI_FLASH_NEWS

  • OpenAI, Oracle e SoftBank anunciaram cinco novos datacenters sob o projeto Stargate avaliado em US$ 500 bilhões para construir infraestrutura de IA.

  • Reddit segue negociando com Google para dar acesso aos dados gerados por seus usuários em troca de maior tráfego para sua plataforma.

  • Huawei tem um plano de três anos para desafiar o domínio da NVIDIA, usando clusters de chips Ascend e interconexões de alta velocidade.

  • Microsoft está idealizando um marketplace para compensar editoras pelo conteúdo usado por sistemas de IA, começando pelo assistente Copilot.

  • xAI conquistou um contrato para fornecer o chatbot Grok às agências do governo federal dos Estados Unidos por US$ 0,42 por organização.

  • Meta está se posicionado contra regulamentos estaduais de IA nos Estados Unidos, com ações políticas e investimentos em esforços de lobby.

  • Microsoft apresentou sistema de resfriamento baseado em microfluidos para ajudar a aliviar o aquecimento de chips avançados de IA em data centers.

  • Farmacêutica brasileira está na lista das 100 pessoas mais influentes em IA da revista Time por, junto com o irmão, desenvolver uma ferramenta que detecta erros de prescrição em hospitais. 🥼💊💚💛

Até a próxima

Obrigado por mergulhar nesta edição. Seu tempo é valioso, e estamos felizes por você ter escolhido passar alguns minutos aqui.

Voltaremos à sua caixa de entrada em breve. Até lá, cultive a curiosidade.😊