- IA Express
- Posts
- Gemini aprende a dominar o reino das telas e cliques
Gemini aprende a dominar o reino das telas e cliques
Bem-vindos, humanos: Seu download com as principais notícias sobre Inteligência Artificial começa agora. Nesta edição, você verá agentes de IA dominando a arte da navegação nas telas com cliques e teclas digitadas como virtuosos digitais, enquanto outros criam placas de circuito impresso totalmente funcionais a partir de meros prompts em linguagem natural. 👆⌨🖱️: ̗̀➛🎟️
Porém isso não é tudo na IA Express de hoje:
- Gemini CLI Extensions é um novo ecossistema de linhas de comando inteligentes
- Canal de música ganha VJs virtuais ao estilo da MTV
- Jony Ive está trabalhando em 15 a 20 conceitos de hardware para OpenAI
- NVIDIA seguirá patrocinando vistos H-1B para talentos imigrantes
Porque, no mundo da Inteligência Artificial, conhecimento é seu algoritmo mais valioso.
AI_NEWS_CIRCUIT
INTELIGÊNCIA VISUAL
Gemini aprende a dominar o reino das telas e cliques
Até agora, grandes modelos de linguagem sonhavam com texto, imagens e vídeo, mas a recente invenção do Google DeepMind está empurrando os limites para o reino tangível de telas e cliques. Como? Com o novo Gemini 2.5 Computer Use, modelo que dá a agentes de IA a destreza de navegar por interfaces gráficas (GUI, na sigla em inglês) assim como fazemos nós – clicando em botões, digitando em campos de formulários e percorrendo páginas Web.
Como funciona? Desenvolvido sobre o raciocínio visual do Gemini 2.5 Pro, o Computer Use supera a limitação dos grandes modelos de linguagem (LLMs) ao lidar com ambientes visuais dinâmicos, como aplicativos Web ou interfaces mutantes. Assim permite que agentes de IA enfrentem o mundo GUI em tempo real, preenchendo fichas e até reorganizando notas adesivas virtuais.
Não são bots com scripts; são agentes adaptáveis que raciocinam sobre capturas de tela e históricos de ação para improvisar quando precisa.
Tecnicamente, Gemini 2.5 Computer Use opera em um loop elegante e iterativo usando a chamada de função ‘computer_use’ disponível na API do Gemini. O agente recebe um prompt, uma captura de tela e um registro das ações recentes. Com base nesses dados, o analisa o contexto visual e decide o próximo movimento. A ação escolhida é executada no ambiente, atualizando-o e assim começa uma nova iteração até que a tarefa seja concluída.
Por que isso importa? Google DeepMind desenvolveu uma agente de IA para navegadores que é páreo para os de concorrentes. Pelos testes da Browserbase, com 200 experimentos combinando um total of 4.000 horas/browser, Gemini 2.5 Computer Use superou modelos da OpenAI e da Anthropic em precisão, velocidade e custo.
Aviso aos navegantes: o novo Gemini 2.5 Computer Use é otimizado principalmente para navegadores Web, mas se mostra promissor para tarefas em interfaces móveis. Ainda não está preparado totalmente para atuar no nível do sistema operacional de desktops, segundo Google DeepMind.
Gemini 2.5 Computer Use está disponível em versão prévia pública, acessível por meio da API do Gemini no Google AI Studio e no Vertex AI. Quer testar agora? Vá até o ambiente de demonstração hospedado pela Browserbase.
AI_TRENDS
Opal, experimento do Google Labs para construir miniaplicativos usando IA, chega a mais 15 países, entre eles, Brasil.
AppGen, da Retool AI, transforma descrições em aplicativos funcionais conectados a bancos de dados ativos.
UserLM-8b, da Microsoft, é um LLM que simula comportamentos realistas do usuário em conversas, em vez de atuar como um mero assistente.
Hunyuan Vision 1.5 é o modelo da Tencent para compreensão visual, que já ocupa o terceiro lugar no LMArena e é o de melhor desempenho na China.
xAI apresentou Imagine v0.9, atualização do seu modelo de geração de vídeos com melhores qualidade visual e fluidez, além de áudio sincronizado.
LFM2-Audio-1.5B converte fala em texto, processa-o e transforma de volta em voz, tudo em um único modelo, tornando o conteúdo mais natural.
OVI gera áudio e vídeo simultaneamente, resultado em melhor sincronização.
Tiny Recursive Model (TRM) é um modelo de raciocínio recursivo simplificado da Samsung que supera modelos maiores em tarefas como Sudoku e ARC-AGI.
Dias após OpenAI lançar Apps in ChatGPT (com curadoria), Google revela Gemini CLI Extensions, ecossistema de linhas de comando usando Gemini que não passam por aprovação prévia. Primeira extensão: Google Nanobanana. ⌨🔌🍌
AI_VENTURES
ENGENHARIA DE HARDWARE
Agentes de IA transformam prompts em projetos de circuito impresso
Se você pode digitar, você pode criar eletrônicos. Essa é a promessa da Flux, plataforma de eCAD para design de hardware que, agora com agentes de IA, promete transformar prompts em layouts de placas de circuito impresso totalmente funcionais.
Flux já contava com um assistente de IA que era, digamos, reativo: respondia perguntas e lidava com tarefas pontuais. Embora úteis, essas interações deixavam o trabalho mais complexo para engenheiros. Agora Flux subiu de nível e conta com agentes autônomos que executam fluxos de trabalho em etapas, tomam decisões de design e até modificam projetos.

Ao ter uma compreensão técnica profunda com controle direto sobre o ambiente dos projeto, Flux agora age com base em instruções em linguagem natural. Basta dizer o que construir para que Flux liste os requisitos do projeto, descreva as funcionalidades e transforme tudo isso em um plano completo, passo a passo.
Qual é o segredo? Seus agentes de IA foram treinados com base em centenas de milhares de projetos reais de placas de circuito impresso. Um orquestrador central interpreta prompts, atribui tarefas a agentes especializados, valida saídas e melhora iterativamente os resultados.
Então, se estiver projetando um controlador industrial ou for um entusiasta caseiro criando um sintetizador de áudio, tudo o que precisará fazer é descrever sua ideia em um breve prompt e começar a dialogar. Quer ver tudo isso em ação, então clique aqui.
AI_GOVERNANCE & ETHICS
🔥Imagem distópica criada por ChatGPT
O Departamento de Justiça dos Estados Unidos acusou Jonathan Rinderknecht de iniciar o devastador incêndio de Palisades, na Califórnia, afirmando que usou ChatGPT para imaginar a destruição meses antes de acontecer. De acordo com promotores federais, Rinderknecht gerou, usando ChatGPT, uma imagem distópica retratando uma floresta em chamas e a fuga de multidões antes do incêndio de janeiro de 2025. A imagem está sendo citada como parte das evidências do caso, além de vídeos, dados de celulares e declarações de testemunhas que colocam Rinderknecht perto de Palisades pouco antes do início do incêndio. Mais ainda, depois de ter iniciado o fogo, Rinderknecht buscou esclarecer junto ao ChatGPT se “alguém é culpado de um incêndio por causa de cigarros?”.
🔬Maior adoção, mas com mais preocupação
Estudo mundial realizado pela Wiley revelou um aumento expressivo na adoção da IA entre pesquisadores, com 84% dos entrevistados afirmando utilizar ferramentas de IA atualmente contra 57% em 2024. No entanto, essa elevação veio acompanhada da recalibração de expectativas por conta da compreensão mais detalhada das atuais capacidades da IA. Há uma crença mais tímida no desempenho atual da IA quando comparada ao de pessoas. No ano passado, os pesquisadores acreditavam que a IA superava humanos em mais da metade dos casos de uso; neste ano, o percentual caiu para menos de um terço. Também há mais preocupação com imprecisões e alucinações (de 51% para 64%) e com questões de privacidade e segurança (de 47% para 58%).
AI_SNAPSHOT
💡 Inovação & Inspiração
Sobe o som, IA FastStream Interactive lançou uma nova linha de apresentadores de TV gerados por IA para seu canal interativo de música ROXi. Esses VJs virtuais, que imitam o estilo da MTV, apresentarão videoclipes na Nextgen TV em 31 mercados dos Estados Unidos, no Reino Unido e na Irlanda. Foram criados usando a plataforma proprietária da FastStream integrada ao Google Veo3 para geração de vídeo e abrangem diversas idades, etnias e sotaques regionais, entre eles britânicos, norte-americanos e australianos. De acordo com Rob Lewis, CEO da FastStream, a novidade permite oferecer conteúdo dinâmico, sem o fardo logístico ou financeiro da produção tradicional. 💥🎧🔊
Mais memória, por favor O indiano Dhravya Shah, de 19 anos, fundou a startup Supermemory para ajudar modelos de IA a enfrentar o desafio de reter contexto ao longo de várias sessões. A solução se baseia em uma API de memória universal que aceita entradas multimodais e extrai "memórias" ou insights de dados não estruturados para construir um gráfico de conhecimento e assim melhorar a compreensão contextual. Também oferece um chatbot, um bloco de notas e uma extensão Chrome. 💬💡ℹ️
🌍 IA Global
🇮🇳 Compras no ChatGPT A Índia lançou um projeto-piloto para permitir a conclusão de transações de comércio eletrônico diretamente no ChatGPT. A iniciativa integra o principal chatbot da OpenAI com a Unified Payments Interface (UPI), sistema de pagamento em tempo real da Índia que processa mais de 20 bilhões de transações mensalmente. Entre os primeiros parceiros comerciais estão a grande mercearia indiana BigBasket e a operadora de telecomunicações Vi, além do Axis Bank e do Airtel Payments Bank prestando serviços bancários.
🇪🇺 Meta ambiciosa União Europeia anunciou uma estratégia do tipo "AI first" para posicionar a região como líder global em IA. O plano prioriza a integração da IA em setores como saúde, energia e automotivo. Mais de € 1 bilhão serão investidos por meio da estratégia Apply AI com o objetivo de acelerar o uso da IA em vários segmentos econômicos e serviços públicos. Já a iniciativa AI in Science e o programa RAISE pretende promover avanços na pesquisa e manter na Europa os principais talentos de IA.
🔢 IA em números
![]() |
|
AI_TOOLKIT
🛠️Ferramentas
QA.tech é uma plataforma guiada por IA que integra testes centrados no usuário diretamente no fluxo de desenvolvimento do código.
Grok Image transforma fotos antigas em vídeos de até 20 segundos (dica: se for em papel, tire uma foto da sua foto no celular).
Google Try-on, depois de roupas, agora permite provar virtualmente sapatos; disponível inicialmente apenas nos nos Estados Unidos.
📚 Miscelânea
Durante o evento OpenAI Dev Day, ex-chefe de design da Apple, Jony Ive, revelou que sua equipe está trabalhando em 15 a 20 conceitos de produtos de hardware que não se parecerão com computadores ou celulares que seguem padrões tecnológicos viciantes. O objetivo é promover bem-estar emocional em vez de meros ganhos de produtividade.
AI_FLASH_NEWS
Jensen Huang, CEO da NVIDIA, disse aos funcionários que continuará patrocinando vistos H-1B para talentos imigrantes e cobrindo os custos associados à nova taxa de US$ 100 mil imposta pelo presidente Trump.
Microsoft fecha parceria com Universidade de Harvard para integrar conteúdo de saúde da Harvard Health Publishing ao assistente de IA Copilot.
Gemini Enterprise é nova plataforma de IA do Google para criar e implantar agentes de IA para vendas, marketing, RH, finanças e outras áreas.
NetSuite Next, da Oracle, agora integra IA para conversação e fluxos de trabalho com agentes, além de interação em linguagem natural.
Cisco lança chip de rede Silicon One P200 para conectar datacenters de IA a longa distância, com largura de banda de mais de 3 exabits por segundo.
AMD deixará que OpenAI pague por seus chips de IA usando suas próprias ações, apostando em melhor reputação e vendas futuras, explicam analistas.
Yao Shunyu, renomado pesquisador de IA, deixou Anthropic devido à empresa citar a China como nação adversária; agora trabalhará no Google.
Nick Turley, diretor do ChatGPT na OpenAI, vê a plataforma evoluir de interface de bate-papo para "sistema operacional" de interações com IA, de forma parecida com que navegadores se tornaram hubs de apps. 🖥️🌐✨
Até a próxima
Obrigado por mergulhar nesta edição. Seu tempo é valioso, e estamos felizes por você ter escolhido passar alguns minutos aqui.
Voltaremos à sua caixa de entrada em breve. Até lá, cultive a curiosidade.😊
