IA Express
Posts
Microsoft cria scanner para identificar modelos de IA "envenenados"

Microsoft cria scanner para identificar modelos de IA "envenenados"

Sheila Zabeu
9 fev

Bem-vindos, humanos: Seu download com as principais notícias sobre Inteligência Artificial começa agora. Nesta edição, você conhecerá o scanner desenvolvido pela Microsoft que identifica LLMs com backdoors escondidos, expondo os rastros que todo modelo envenenado inevitavelmente deixa à mostra. 🔙🚪👣

Porém isso não é tudo na IA Express de hoje:
- PaperBanana gera ilustrações acadêmicas prontas para publicação
- AlphaGenome, do Google DeepMind ajuda a decifrar a “matéria escura humana”
- Ferramenta de IA analisa fotos e fornece críticas instantâneas
- Intel começará a produzir GPUs como parte da estratégia de reestruturação

Porque, no mundo da Inteligência Artificial, conhecimento é seu algoritmo mais valioso.

AI_NEWS_CIRCUIT

ANTÍDOTO PARA BACKDOORS

Microsoft cria scanner para identificar modelos de IA “envenenados”

A segurança dos grandes modelos de linguagem (LLMs) enfrenta um inimigo silencioso: o envenenamento por backdoors. Diferente de ataques diretos, esses modelos envenenados se comportam bem na maioria das situações, revelando ações mal-intencionadas apenas quando um gatilho específico seja inserido no prompt.

Detectar tais ameaças é complexo, pois exige identificar anomalias sem conhecer de antemão qual é o gatilho ou que tipo de dano o modelo foi programado para causar.

Pesquisadores da Microsoft descobriram que modelos com backdoors costumam deixar três "rastros" ou assinaturas observáveis:

Quando um gatilho de backdoor aparece em um prompt, ele não apenas altera a os resultados, mas também o modo como o modelo se comporta: prestando atenção exagerada só no gatilho, ignorando quase todo o restante do prompt.
Modelos com backdoors memorizam fortemente os exemplos exatos usados para inserir o backdoor durante o treinamento. Então, ao interagir com o modelo de forma específica, é possível fazê-lo "regurgitar" fragmentos desses dados de envenenamento, que muitas vezes incluem o próprio gatilho.
Versões parciais, corrompidas ou aproximadas do gatilho verdadeiro podem, com uma alta taxa de sucesso, ativar o comportamento mal-intencionado.

Com base nessas assinaturas, a Microsoft desenvolveu um scanner que não requer retreinamento do modelo nem conhecimento prévio do comportamento mal-intencionado.

Como funciona? O scanner extrai inicialmente o conteúdo memorizado do modelo e o analisa para isolar substrings salientes. Em seguida, formaliza as três assinaturas acima como funções, pontuando quais delas têm mais chance de serem gatilhos.

Embora promissora, a ferramenta tem restrições importantes, como a necessidade ter acesso aos arquivos do modelo, não funcionando assim com modelos proprietários acessíveis apenas por API. Além disso, a solução funciona apenas para modelos de linguagem puros, deixando de fora os multimodais.

Mesmo assim, testes iniciais são animadores. Em modelos variando de 270M a 14B de parâmetros, a ferramenta mostrou eficácia com uma baixa taxa de falsos positivos.

AI_TRENDS

xAI lançou a API para Grok Imagine com um conjunto unificado para fluxos de trabalho criativos de geração e edição multimodais de vídeo usando IA.
Cowork, da Anthropic, agora aceita plugins que ajudam a personalizar o modelo Claude com funções e fluxos de trabalho específicos.
Codex para macOS é um centro de comando para executar e gerenciar vários agentes de codificação em paralelo.
Modo Arena, do Windsurf, coloca dois modelos de IA lado a lado no contexto real do projeto de software dentro de seu próprio IDE.
SERA, da Ai2, é uma família de agentes de código aberto para programação,
projetados para serem rápidos, acessíveis e adaptáveis a qualquer base de código.
Large Plant Model é um modelo da Carbon Robotics treinado com mais de 150 milhões de imagens de plantas que identifica ervas daninhas instantaneamente.
PaperBanana é uma estrutura de IA que gera ilustrações acadêmicas prontas para publicação (diagramas de metodologia e gráficos estatísticos).
A equipe Williams de Fórmula 1 usará o modelo Claude da Anthropic como "Parceiro Oficial de Pensamento", ajudando engenheiros e estrategistas; a marca também estará estampada em carros, capacetes e uniformes. 🏎️🏁🚥💨

AI_GOVERNANCE & ETHICS

⚠️️Advertência de Sam Altman

A sociedade está "dormindo no ponto" quando o assunto é uma segurança da IA. O alerta não vem de um crítico da tecnologia, mas de Sam Altman, CEO da OpenAI. Em uma conversa com desenvolvedores, o executivo demonstrou preocupação com a rapidez com que estamos sacrificando nossa privacidade e segurança em troca de conveniência. O ponto central da crítica de Altman é que a eficiência dos agentes de IA é tão sedutora que concedemos acesso aos dados sem que haja camadas de segurança à altura. Altman admitiu que ele mesmo deu ao seu agente de IA acesso total ao computador depois de prometer a si mesmo que não faria isso. Por quê? "O agente realmente parecia fazer coisas razoáveis", confessou.

AI_SNAPSHOT

💡 Inovação & Inspiração

Ajudando a decifrar a “matéria escura humana” O genoma humano foi mapeado há mais de 20 anos, mas os cientistas ainda lutam com uma realidade frustrante: os genes codificadores de proteínas representam apenas 2% do nosso DNA; os restantes 98% – regiões reguladoras não codificantes que controlam quando, onde e como os genes são expressos – permanecem, em grande parte, indecifráveis. No entanto, o AlphaGenome, do Google DeepMind, movido por IA, está ajudando a “crackear” a matéria escura do nosso DNA. O modelo analisa um milhão de pares de sequências de DNA de uma só para prever faixas genômicas funcionais. Supera modelos especializados em 25 dos 26 sistemas de benchmarking identificando mutações causadoras de doenças que outros métodos deixam passar. 🧬🥼

🌍 IA Global

🇨🇦 Ponte entre academia e aplicações clínicas reais A Universidade de Ottawa inaugurou o Ottawa Medical Artificial Intelligence Research Institute (OMARI), centro dedicado a impulsionar a pesquisa, educação e inovação em IA aplicada à medicina. Diferente de muitos centros de pesquisa, o novo instituto incentivará a comercialização de inovações. Pesquisadores poderão criar spin-offs diretamente de seus laboratórios, reduzindo o tempo entre as descobertas e a aplicação prática. Além disso, a iniciativa vai priorizar a formação de profissionais de saúde que dominem não apenas os conceitos fundamentais da IA, mas também saibam aplicá-la eticamente na resolução de problemas clínicos.

📢 IA em uma frase

“O campo da IA precisa de ferramentas de benchmarking que testem com mais rigor os recentes modelos de Inteligência Artificial.”

A frase é de Demis Hassabis, CEO da Google DeepMind, endossando a mais recente atualização da Kaggle Game Arena. Esse benchmarking expandiu-se recentemente com os jogos Werewolf e Poker, além de xadrez, pode avaliar melhor os modelos de IA nas áreas de planejamento, dedução social e tomada de decisões sob incertezas.

AI_TOOLKIT

🛠️Ferramentas

PhotoMentor é ferramenta de IA para analisar fotos e fornecer críticas instantâneas, avaliando aspectos como iluminação, harmonia e nitidez.
GitHub agora conta com os agentes Claude da Anthropic e Codex da OpenAI diretamente na plataforma, no aplicativo móvel e no Visual Studio Code.
MoltHub é uma espécie de "GitHub para agentes de IA", ecossistema no qual agentes de IA podem compartilhar, descobrir e aprimorar recursos da mesma forma que desenvolvedores usam o GitHub para criar versões de código.

📚 Miscelânea

Este guia mostra passo a passo como criar e conectar agentes de IA ao Moltbook, plataforma de mídia social no estilo Reddit exclusiva para agentes de IA lançada recentemente. Você vai precisar do OpenClaw (conhecido também como Moltbot ou Clawdbot) - assistente pessoal de código aberto que viralizou nas últimas semanas por conseguir rodar localmente e executar tarefas de forma autônoma, guiado diretamente por mensagens via WhatsApp, Telegram ou Signal.

AI_FLASH_NEWS

Intel começará a produzir GPUs, como parte da estratégia de reestruturação do novo CEO Lip-Bu Tan, entrando em um mercado dominado pela NVIDIA.
Anthropic firmou parcerias com Allen Institute e Howard Hughes Medical Institute para criar modelos de IA especializados em ciências biológicas.
Plugins da Anthropic publicados no GitHub desencadearam forte queda nas ações de Thomson Reuters e RELX por receio que a IA substitua modelos de negócio tradicionais dessas consultorias.
Amazon está discutindo um acordo para ter pesquisadores da OpenAI dedicados a desenvolver modelos personalizados para turbinar seus produtos.
Oracle planeja levantar US$ 50 bilhões em 2026 com empréstimos e venda de ações para financiar expansões na nuvem e atender à demanda de IA.
Publisher Content Marketplace é a nova plataforma da Microsoft que visa compensar editoras de conteúdo pelo uso de material em respostas da IA.
Indonésia suspende condicionalmente a proibição do Grok, exigindo medidas contra uso indevido, após tê-lo banido pela criação de imagens sexualizadas.
Moltbook, rede social exclusiva para agentes de IA, tem muitas publicações mais populares orquestradas por pessoas, dizem analistas; também apresenta vulnerabilidades que permitem burlar identidade. 👾💬🎭

Até a próxima

Obrigado por mergulhar nesta edição. Seu tempo é valioso, e estamos felizes por você ter escolhido passar alguns minutos aqui.

Voltaremos à sua caixa de entrada em breve. Até lá, cultive a curiosidade.😊