IA Express
Posts
Gemini Robotics aproximam agentes de IA do mundo físico

Gemini Robotics aproximam agentes de IA do mundo físico

Sheila Zabeu
29 set

Bem-vindos, humanos: Seu download com as principais notícias sobre Inteligência Artificial começa agora. Nesta edição, você saberá como os novos modelos Gemini Robotics redefinem a inteligência física e como a Meta está levando a geração de código além da sintaxe com seu novo modelo de mundo.

Porém isso não é tudo na IA Express de hoje:
- VibeSDK da Cloudflare cria plataforma de vibe coding com um clique
- Sistema da Cloudfare controla uso de conteúdo de sites por modelos de IA
- Usando IA, Video Marketer quer ser o índice de vídeos na Web à moda do Google
- Brasileira está na lista das 100 pessoas mais influentes em IA da revista Time

Porque, no mundo da Inteligência Artificial, conhecimento é seu algoritmo mais valioso.

AI_NEWS_CIRCUIT

ROBÓTICA

Gemini Robotics aproximam agentes de IA do mundo físico

Tão ou mais rápida que a evolução da Inteligência Artificial está sendo a dissolução da linha entre cognição digital e ação física. Contribuindo para isso, o Google DeepMind lançou dois novos modelos da família Gemini Robotics: Gemini Robotics 1.5 e Gemini Robotics-ER 1.5, abrindo caminho para uma nova era de agentes físicos.

Qual é a novidade? Esses modelos prometem transformar robôs de meros executores de instruções pré-programadas em agentes inteligentes capazes de perceber, planejar, raciocinar e agir no mundo real. Na prática, robôs movidos pelos modelos Gemini Robotics podem dividir tarefas, adaptar-se a novos ambientes e até explicar seu processo de raciocínio.

Como funcionam:

Gemini Robotics-ER 1.5: É um modelo de linguagem visual (Vision Language Model - VLM) otimizado para compreensão de espaços físicos. Destaca-se em consciência espacial e interações em linguagem natural, estimando o progresso das tarefas e integrando ferramentas externas como Google Search ou funções personalizadas. É projetado para orquestrar atividades, tomando decisões lógicas com base em contextos do mundo real.
Gemini Robotics 1.5: Atuando como executor, esse modelo do tipo visão-linguagem-ação (Vision-Language-Action - VLA) traduz entradas visuais e instruções em comandos motores precisos. O que o diferencia é a capacidade de “pensar antes de agir”, gerando sequências de raciocínio internas em linguagem natural para analisar tarefas passo a passo.

Essa estrutura colaborativa entre os modelos permite maior generalização para que os robôs enfrentem tarefas de horizonte mais longo em variadas configurações sem reprogramação constante.

A versão Gemini Robotics-ER 1.5 está acessível a desenvolvedores por meio da API do Gemini no Google AI Studio. Já a Gemini Robotics 1.5 está atualmente disponível apenas para alguns parceiros. Google DeepMind também liberou um relatório técnico sobre os novos modelos e um blog para quem se interessar em desenvolver agentes físicos para a família Gemini Robotics.

AI_TRENDS

Search Live é um novo recurso do app Google em Android e iOS que permite fazer perguntas por voz usando AI Mode e compartilhar contexto visual pela câmera. Por enquanto, disponível apenas nos Estados Unidos.
Qwen3-Max é o mais avançado LLM da Alibaba e o carro-chefe da série Qwen3, com mais de 1 trilhão de parâmetros e pré-treinado com 36 trilhões de tokens.
IBM Granite-Docling-258M é um modelo de linguagem visual que converte documentos não estruturados em formatos interpretáveis por máquinas.
Novo modelo v5 da Suno para criação de músicas usando IA oferece vocais mais realistas, melhor qualidade de som e controle aprimorado.
PDDL-INSTRUCT é uma estrutura que melhora a capacidade de LLMs para gerar planos de várias etapas logicamente válidos, em vez de apenas plausíveis.
SCIGEN orienta modelos de IA Generativa na concepção de materiais com propriedades quânticas como supercondutividade e estados magnéticos únicos.
SEAL Showdown, da Scale, é um novo ranking que avalia LLMs usando milhões de conversas autênticas em 100 países, 70 idiomas e 200 domínios profissionais.
VibeSDK, da Cloudflare, permite que qualquer pessoa tenha uma plataforma de vibe coding para chamar de sua, de ponta a ponta, com apenas um clique. </>👩🏻‍💻

AI_VENTURES

GERAÇÃO DE CÓDIGO

Modelo de mundo da Meta ensina IA a pensar como desenvolvedor

Modelos de IA tradicionais geram código, aprendendo a prever linha por linha, da esquerda para a direita e de cima para baixo, sem a compreensão intrínseca de seu comportamento. Por achar que isso não é suficiente, a Meta desenvolveu o Code World Model (CWM), modelo que vai além da aparência do código para também aprender o que ele faz quando é executado.

Como modelo de mundo, tipo de LLM que é treinado para entender a dinâmica de um ambiente, o CWM decifra o “universo do software”, entendendo estados do programa e a mudança das variáveis em diferentes pontos de execução e “raciocinando” sobre o comportamento do código além da sintaxe.

Para ganhar essa capacidade, o CWM foi treinado com base em trajetórias observação-ação de interpretadores Python e sessões em contêineres Docker. Falando de modo menos técnico, com a execução real de código e com tarefas interativas de programação, aprendeu a semântica do código – como cada linha altera as variáveis e o estado do programa – em vez de apenas memorizar padrões de texto. Fez um modelo do mundo do software!

AI_GOVERNANCE & ETHICS

🚦 Dê um sinal

Proprietários de sites lidam há muito tempo com o seguinte dilema: manter o conteúdo aberto para que seja descoberto pelos mecanismos de busca ou protegê-lo atrás de paywalls contra bots sedentos por dados. A nova Content Signals Policy oferecida pela Cloudfare é uma extensão inteligente do famoso arquivo robots.txt que dá mais controle sobre como o conteúdo dos sites pode alimentar modelos de IA. É possível incorporar diretivas em linguagem simples no robots.txt para sinalizar como o conteúdo pode ser rastreado. São três os principais sinais da política: search (para indexação tradicional), ai-input (para respostas ou resumos gerados por IA (como no AI Overviews)) e ai-train (para treinamento de modelos de IA). Os operadores de sites podem escolher sim ou não para cada sinal e aplicar as regras globalmente, a bots ou até páginas específicas.

🕵️ IA contra fraudes

O governo do Reino Unido recuperou quase £ 500 milhões no ano passado usando uma ferramenta de IA chamada Fraud Risk Assessment Accelerator, a maior recuperação já feita por equipes antifraude britânicas. Os golpes abordados estão relacionados à Covid-19, reivindicações fiscais ilegais, sublocação de habitação social e foram identificados por referência cruzada de dados departamentais. Os valores recuperados vão financiar o recrutamento de enfermeiros, professores e policiais. No entanto, grupos de liberdades civis levantaram preocupações sobre possíveis vieses na detecção das fraudes, citando disparidades em fatores como idade, deficiência e nacionalidade.

AI_SNAPSHOT

💡 Inovação & Inspiração

Parceira da imaginação Cansado de esboçar ideias sobre guardanapos? O Google Labs acabou de lançar o Mixboard, uma ferramenta experimental que transforma pensamentos vagos em colagens visuais usando IA Generativa. Basta digitar um prompt para começar a ver as ideias ganharem vida em uma tela infinita. A má notícia? Disponível em versão beta pública somente para usuários nos Estados Unidos. Quem sabe uma VPN pode ajudar? 🎨🖌️⬜
Para ajudar nas consultas O ScopeAI da startup Akido Labs é um modelo de IA que automatiza aspectos importantes de consultas médicas para produzir diagnósticos e sugerir tratamentos. Depois que assistentes médicos (em pessoa) usam o ScopeAI durante as visitas dos pacientes, os médicos podem revisar e aprovar as propostas de forma assíncrona, elevando sua capacidade de atender pacientes em até cinco vezes, segundo o Akido Labs. Em testes com dados históricos, o ScopeAI apresentou um diagnóstico preciso entre suas três principais sugestões em, pelo menos, 92% das vezes. Críticos levantam preocupações relacionadas à confiança excessiva na IA, possíveis vieses e redução do “toque humano” no atendimento. 👨‍⚕️🩺

🌍 IA Global

🇦🇪 Projeto no Oriente Médio NVIDIA e o Instituto de Inovação Tecnológica (TII) de Abu Dhabi lançaram o primeiro centro de tecnologia de Inteligência Artificial da gigante dos chips no Oriente Médio, estabelecendo um laboratório conjunto de pesquisa em IA e robótica nos Emirados Árabes Unidos. A iniciativa segue um acordo multibilionário para construir o maior campus de IA de Abu Dhabi, que parece ter sido postergado por conta de preocupações dos Estados unidos relacionadas à segurança do projeto.

🇮🇪 Avanços regulatórios A Irlanda anunciou avanços na implementação da Lei de IA da União Europeia, marcando um passo significativo no quadro regulamentar da IA do país. Entre as atualizações estão a designação de 15 autoridades nacionais competentes para supervisionar e fazer cumprir a legislação e o estabelecimento de um escritório nacional de IA para coordenar a implementação, reunir conhecimento técnico, atuar como um hub central e promover a inovação por meio de uma caixa de areia (sandbox) regulatória.

📢 IA em uma frase

“Nossa visão é simples: criar uma ‘fábrica’
com capacidade para produzir um gigawatt em infraestrutura de IA a cada semana. No entanto, colocar isso em prática é muito difícil.”

A frase é Sam Altman, CEO da OpenAI, em seu blog, onde apresenta sua visão sobre como expandir a infraestrutura de IA para alimentar a próxima era da inteligência. Segundo ele, será preciso contar com inovação em áreas como chips, energia, construção e robótica, mas Altman acredita que é possível cumprir a meta.

AI_TOOLKIT

🛠️Ferramentas

Alloy cria protótipos usando imagens e as alterando por conversas via chat.
Airial Travel gera roteiros de viagem detalhados e personalizados, incluindo desde passagens aéreas a hospedagem e atividades.
Video Marketer tem o objetivo ambicioso de criar um índice de vídeo universal, como Google fez com a Web.

📚 Miscelânea

A adoção da Inteligência Artificial no desenvolvimento de software tem visto um crescimento sem precedentes, mas temperado com um persistente ceticismo. Isso é o que revela a mais recente edição do relatório DORA (DevOps Research and Assessment) publicado pelo Google - enquanto 24% dos entrevistados dizem confiar “muito”, quase um terço admite que confia “um pouco” ou “não confia”. O estudo resume esses números na expressão “paradoxo da confiança”, ou seja, ainda que resultados proporcionados pela IA sejam percebidos como úteis e valiosos por muitos, ainda há uma boa falta de confiança.

AI_FLASH_NEWS

OpenAI, Oracle e SoftBank anunciaram cinco novos datacenters sob o projeto Stargate avaliado em US$ 500 bilhões para construir infraestrutura de IA.
Reddit segue negociando com Google para dar acesso aos dados gerados por seus usuários em troca de maior tráfego para sua plataforma.
Huawei tem um plano de três anos para desafiar o domínio da NVIDIA, usando clusters de chips Ascend e interconexões de alta velocidade.
Microsoft está idealizando um marketplace para compensar editoras pelo conteúdo usado por sistemas de IA, começando pelo assistente Copilot.
xAI conquistou um contrato para fornecer o chatbot Grok às agências do governo federal dos Estados Unidos por US$ 0,42 por organização.
Meta está se posicionado contra regulamentos estaduais de IA nos Estados Unidos, com ações políticas e investimentos em esforços de lobby.
Microsoft apresentou sistema de resfriamento baseado em microfluidos para ajudar a aliviar o aquecimento de chips avançados de IA em data centers.
Farmacêutica brasileira está na lista das 100 pessoas mais influentes em IA da revista Time por, junto com o irmão, desenvolver uma ferramenta que detecta erros de prescrição em hospitais. 🥼💊💚💛

Até a próxima

Obrigado por mergulhar nesta edição. Seu tempo é valioso, e estamos felizes por você ter escolhido passar alguns minutos aqui.

Voltaremos à sua caixa de entrada em breve. Até lá, cultive a curiosidade.😊