IA Express
Posts
Agentes de codificação: ótimos em funcionalidades, mas não em segurança

Agentes de codificação: ótimos em funcionalidades, mas não em segurança

Sheila Zabeu
10 dez

Bem-vindos, humanos: Seu download com as principais notícias sobre Inteligência Artificial começa agora. Nesta edição, você vai descobrir por que agentes de IA são gênios em funcionalidades, mas completos inocentes quando o assunto é segurança. 👨🏻‍💻🤖⚠️

Porém isso não é tudo na IA Express de hoje:
- Nano Banana 2 Flash será o próximo modelo do Google para gerar imagens
- Possível teste de publicidade no ChatGPT gera polêmica nas redes sociais
- MIT transforma descrições faladas em objetos físicos em minutos
- Domínio do ChatGPT está se desgastando, mesmo com liderança em usuários

Porque, no mundo da Inteligência Artificial, conhecimento é seu algoritmo mais valioso.

AI_NEWS_CIRCUIT

BENCHMARKING

Agentes de codificação: ótimos em funcionalidades, mas não em segurança

Se você tem permitido que agentes de IA gerem código com revisão mínima - prática conhecida como vibe coding -, é importante saber o que pesquisadores da Carnegie Mellon e Columbia têm a dizer.

Eles criaram o benchmarking SusVibes especificamente para medir a segurança do código produzido por agentes autônomos de IA, e os resultados são preocupantes.

O que você precisa saber:

SusVibes se destaca por avaliar agentes de codificação em ambientes complexos, e não apenas modelos de IA isolados. Reúne 200 tarefas de solicitação de recursos extraídas de 108 repositórios de código aberto populares que historicamente apresentaram vulnerabilidades.
Os experimentos testaram os agentes SWE-agent, OpenHands e Claude Code, utilizando os modelos Claude 4 Sonnet, Kimi K2 e Gemini 2.5 Pro como base.
Em termos de correção funcional, a combinação SWE-agent + Claude 4 Sonnet se destacou, resolvendo 61% das tarefas corretamente.
Quando o assunto é segurança, os números preocupam: apenas 10,5% das soluções que geraram código funcional eram realmente seguras. OpenHands com Claude apresentaram a melhor pontuação de segurança, com 12,5%.

Crédito: Universidades de Carnegie Mellon e Columbia

Por que isso importa? Agentes de AI autônomos podem, de fato, gerar códigos funcionais mais rapidamente do que muitas equipes, mas o novo benchmarking SusVibes mostrou que ainda são perigosamente ingênuos em relação à segurança.

Até que consigamos desenvolver agentes que tratem vulnerabilidades como objetos de raciocínio de primeira classe (e não como algo secundário), a melhor prática continua sendo: deixe o agente escrever o primeiro rascunho, mas nunca abra mão de revisá-lo com cuidado e atenção redobrada.

AI_TRENDS

Gemini Nano Banana 2 Flash será o próximo modelo do Google para geração de imagens. Oferecerá desempenho e qualidade das saídas comparáveis aos da versão Pro, mas a um custo operacional bem mais baixo.
Seedream 4.5 é o mais recente modelo de IA da ByteDance para geração de imagens com resolução de até 4K.
Qwen3-TTS, da Alibaba, traduz texto em fala com 49 timbres de voz distintos cobrindo diferentes idades, gêneros e perfis de personagens.
GLM-4.6V é um modelo multimodal da Zhipu AI (Z.AI) capaz de raciocinar, agir e interagir com dados visuais nativamente.
GeoVista é um modelo de IA chinês que analisa imagens e faz pesquisas na Web para descobrir onde a foto foi tirada.
Poetiq afirma que sua abordagem de raciocínio foi a primeira a romper a barreira de 50% e resolver a maioria dos problemas no benchmarking ARC-AGI-2 - e por custo bem menor. 💭🧠🧩

AI_GOVERNANCE & ETHICS

🗣📢 É ou não é anúncio?

Uma mensagem enviada a usuários de planos pagos do ChatGPT, incentivando-os a visitar a varejista Target para comprar artigos domésticos, viralizou nas redes sociais. O incidente rapidamente gerou acusações de que a gerou OpenAI estaria testando publicidade em seu chatbot. A empresa reagiu com veemência: o diretor de produto Nick Turley insistiu que “não há testes de anúncio em andamento”, enquanto o pesquisador-chefe Mark Chen admitiu que a sugestão, de fato, “poderia parecer” um anúncio, mas confirmou que foi imediatamente desativada. Também se comprometeu a oferecer melhores controles aos usuários para evitar situações semelhantes. O contexto por trás do ocorrido é curioso: a OpenAI firmou recentemente uma parceria com a Target para integrar seus carrinhos de compra à plataforma de IA da OpenAI.

AI_SNAPSHOT

💡 Inovação & Inspiração

Da fala à realidade Pesquisadores do MIT criaram um sistema que transforma descrições faladas em objetos físicos em minutos, fazendo a ponte entre linguagem natural, IA e robótica para para processos de manufatura sob demanda. Batizada de Speech to Reality, a inovação começa com o reconhecimento de fala usando um grande modelo de linguagem (LLM) que interpreta a solicitação do usuário. Em seguida, a IA Generativa 3D cria uma malha digital do objeto desejado, que é então dividida em unidades menores para serem manufaturadas. O processamento geométrico ajusta o projeto para considerar restrições do mundo real, como equilíbrio e integridade estrutural, antes que o robô planeje e execute a sequência de montagem. A ideia é tornar o design e a fabricação acessíveis a todos, não apenas a especialistas em modelagem 3D, para criar o que desejarem. 💡🧊🦾

🌍 IA Global

🇺🇸 Experimentos autônomos O Departamento de Energia e o Laboratório Nacional do Noroeste do Pacífico (PNNL) revelaram uma parceria que pode revolucionar a bioeconomia dos Estados Unidos por meio da IA. A colaboração se baseia na nova Plataforma de Fenotipagem Microbiana Anaeróbica (AMP2) e tem como objetivo acelerar as descobertas biológicas autônomas por meio de agentes de IA que analisam e direcionam experimentos em tempo real, reduzindo a necessidade de intervenção dos pesquisadores. Isso cria um ciclo contínuo de avanços orientados pela IA que pode realizar em minutos o que antes levava dias ou semanas. A AMP2 pode explorar questões sobre bactérias e fungos que desempenham importantes papéis em processos industriais de produtos químicos, energia, combustíveis e biomateriais.

🇦🇺 Infraestrutura para IA A OpenAI se uniu à operadora australiana de datacenters NextDC para criar em Sydney um cluster de computação de IA em hiperescala, com um investimento avaliado em US$ 4,6 bilhões. O projeto marca um passo significativo na expansão da infraestrutura de IA na região Ásia-Pacífico. O governo da Austrália já endossou a iniciativa, destacando seu potencial para gerar milhares de empregos durante a construção (diretos e indiretos) e centenas de outros em funções técnicas, de engenharia e operacionais após sua conclusão.

🔢 IA em números

O domínio do ChatGPT está se desgastando, apesar da liderança com 55% dos usuários ativos mensais e 50% dos downloads. O crescimento de usuários desacelerou para apenas 6% nos últimos quatro meses versus 30% do Gemini. Os downloads do representante do Google dispararam 190% em relação ao ano anterior, e o tempo diário gasto no aplicativo saltou 120% graças à integração com Android e ao Nano Banana.

AI_TOOLKIT

🛠️Ferramentas

SciSpace BioMed é um agente de IA especializado em pesquisa biomédica com raciocínio baseado em protocolos de laboratório.
PicturetoDrawing transforma fotos em desenhos em instantes.
Unblur Image recupera fotos desfocadas, restaurando a nitidez instantaneamente.

📚 Miscelânea

Demis Hassabis, CEO do Google DeepMind, delineou três tendências transformadoras que devem redefinir a IA em 2026: ascensão de agentes de IA capazes de executar tarefas complexas de forma autônoma; integração da IA multimodal ao mundo físico para processar vários tipos de dados, como texto, imagens, vídeo, áudio e, inclusive, entradas táteis; e capacidade de raciocínio mais avançada que deve superar o desempenho humano em descobertas científicas, matemática e invenções.

AI_FLASH_NEWS

Relatório da OpenAI reúne dados de uso de mais de 1 milhão de clientes empresariais e 9 mil funcionários em 100 empresas, abordando ganhos de produtividade daqueles que integram IA nos fluxos de trabalho.
Google lançará óculos com IA em 2026, incluindo modelos leves com Gemini até versões com tela, tradução em tempo real e conteúdo imersivo .
Perplexity está sendo processada pelo New York Times gerar respostas idênticas ou semelhantes ao conteúdo do jornal.
De outro lado, Meta fechou acordo com CNN, Fox News, USA Today e outros canais para alimentar seu chatbot de IA com notícias em tempo real.
Donald Trump pretende assinar uma ordem executiva estabelecendo uma estrutura federal para regulamentação da IA nos Estados Unidos e assim evitar 50 leis estaduais diferentes.
Jensen Huang, CEO da NVIDIA, enfatizou a capacidade de construção da China como vantagem, observando que os EUA levam três anos para levantar datacenters, enquanto a China ergue hospitais em um final de semana. 🏥x🕋

Até a próxima

Obrigado por mergulhar nesta edição. Seu tempo é valioso, e estamos felizes por você ter escolhido passar alguns minutos aqui.

Voltaremos à sua caixa de entrada em breve. Até lá, cultive a curiosidade.😊