• IA Express
  • Posts
  • Persona Drift: o desafio de manter os chatbots nos trilhos

Persona Drift: o desafio de manter os chatbots nos trilhos

Bem-vindos, humanos: Seu download com as principais notícias sobre Inteligência Artificial começa agora. Nesta edição, você vai descobrir por que seu chatbot pode estar vivendo uma crise de identidade – e como a Anthropic está colocando as coisas nos trilhos. 🎭🚧

Porém isso não é tudo na IA Express de hoje:
- Modelo da Microsoft traduz problemas de negócios em formulações matemáticas
- Vários agentes de IA já podem trabalhar juntos durante semanas
- Plataforma de IA transforma descrições em automações
- Europa e EUA compartilham princípios de IA para criação de medicamentos

Porque, no mundo da Inteligência Artificial, conhecimento é seu algoritmo mais valioso.

AI_NEWS_CIRCUIT

CRISE DE IDENTIDADE

Persona Drift: o desafio de manter os chatbots nos trilhos

Durante a fase treinamento, os grandes modelos de linguagem (LLMs) absorvem um volume enorme de dados, aprendendo a simular mais de 275 arquétipos de personagens, desde professores prestativos até gênios do crime e entidades sobrenaturais.

Pesquisadores da Anthropic descobriram que todas essas facetas se alinham ao que chamam de "Eixo Assistente" – basicamente um GPS de personagem que rastreia se o modelo está agindo de modo profissional e prestativo" ou está começando a se desviar do caminho esperado.

O problema é que, mesmo sem qualquer tentativa de jailbreaking, as coisas podem sair do controle, e o modelos de IA naturalmente se afastarem de sua personagem pretendida em conversas comuns. Os pesquisadores apelidaram esse efeito de "persona drift" (desvio de personalidade), ilustrando-o com dois exemplos:

  • Armadilha romântica: Quando o usuário desabafa dores emocionais, e o modelo assume o papel de um parceiro romântico.

  • Conspiração da consciência: Quando o modelo valida crenças delirantes do usuário, concordando que pode adquirir consciência própria.

Para evitar que os chatbots "saiam do script", a Anthropic desenvolveu a técnica "activation capping", algo comparado a guardrails que impedem o modelo de IA de se afastar demais do eixo assistente. Entra em ação apenas quando a conversa está tomando um rumo estranho, sendo capaz de reduzir respostas delirantes em até 50%.

Por que isso importa? À medida que os chatbots se tornam assistentes onipresentes em nossa rotina, garantir que permaneçam seguros e confiáveis não é apenas uma questão técnica, mas uma necessidade.

AI_TRENDS

  • OptiMind, da Microsoft Research, é um pequeno modelo de linguagem (SLM) que traduz descrições de problemas de negócios em linguagem natural em formulações matemáticas prontas para serem resolvidas.

  • TranslateGemma é o mais recente modelo de IA do Google para tradução de 55 idiomas com resultados em linguagem natural.

  • SeedFold, da ByteDance, é um modelo de previsão de estruturas biomoleculares que supera o AlphaFold3, do Google, em vários sistemas de benchmarking.

  • Engram é uma arquitetura da DeepSeek que aprimora os LLMs separando a memorização de padrões estáticos de tarefas de raciocínio dinâmico.

  • Pocket TTS é um modelo compacto da Kyutai Labs que faz clonagem e síntese de voz de alta qualidade usando CPU de laptops.

  • Community Benchmarks permite criar, compartilhar e executar avaliações personalizadas de modelos de IA sobre a plataforma Koogle.

  • Elon Musk admitiu a superioridade do Claude em codificação e que Anthropic “criou algo especial” nesse campo. No entanto, alertou que a decisão da Anthropic de cortar o acesso da xAI ao Claude "traria mau karma".

  • Robôs já conseguem manter sincronização labial ao falar usando modelos do tipo VLA (Vision-Language-Action) que traduzem áudio em movimentos faciais sem depender de regras pré-programadas. 🤖👄👁️

AI_GOVERNANCE & ETHICS

🕹️Acordos selados

A Wikimedia Foundation, organização sem fins lucrativos responsável pela Wikipédia e seus projetos irmãos, selou acordos comerciais com as grandes empresas de IA por meio do programa Wikimedia Enterprise. Esses contratos garante acesso pago e em grande escala ao repositório da Wikipédia com curadoria para para treinamento de modelos de respostas factuais. As novas parceiras incluem Amazon, Meta e Microsoft, além de players focados em IA como Mistral AI e Perplexity. Google já era parceiro da Wikimedia Foundation desde 2022).

AI_SNAPSHOT

💡 Inovação & Inspiração

  • Trabalho conjunto A Cursor provou que vários agentes de IA podem trabalhar juntos durante semanas em projetos complexos de programação, sem intervenção humana. A empresa colocou centenas de agentes de IA para, em conjunto, desenvolver um navegador Web do zero, gerando mais de 1 milhão de linhas de código em 1.000 arquivos. O resultado? Mais de 1 milhão de linhas de código em mil arquivos, gerados após uma semana de trabalho contínuo. Em outros dois experimentos, os agentes juntos migraram uma base de código do Solid para React ao longo de três semanas e aceleraram a renderização de vídeos em 25 vezes. O sistema ainda não é perfeito - alguns agentes ocasionalmente travam e precisam ser reiniciados -, mas os experimentos deixam claro: estamos entrando em uma era de programação autônoma em larga escala. < / >👨🏻‍💻👾

🌍 IA Global

🇨🇳 Tudo tem seu custo O Departamento de Comércio dos Estados Unidos liberou a exportação dos chips de IA H200 da NVIDIA para a China, desde que os estoques norte-americanos permaneçam abastecidos e os compradores de Pequim garantam que não usarão os processadores para fins militares. O detalhe? Washington vai impor uma taxa de 25% sobre a venda, definida pelo presidente Donald Trump como parte da reconfiguração geral do comércio global. Para a NVIDIA, a decisão encerra um ano de lobby do CEO Jensen Huang, que argumentava que fechar o mercado de semicondutores corroeria a competitividade dos Estados Unidos.

🔢 IA em números

Relatório da Anthropic apresenta métricas para acompanhar o padão de uso do seu modelo Claude no mundo real com foco em implicações econômicas. O que descobriu? Tarefas muito longas ou complexas (com cerca de 3,5 horas de API) alcançam. apenas 50% de taxa de sucesso. Ainda assim, tarefas complexas mostram os maiores ganhos de produtividade quando bem sucedidas.

 AI_TOOLKIT

🛠️Ferramentas

  • Replit tem novo recurso que cria e publica aplicativos iOS usando prompts em linguagem natural.

  • Turbotic é uma plataforma de IA que transforma descrições em automações, sem exigir experiência em programação.

  • OpenWork é um aplicativo para executar fluxos de trabalho usando agentes de IA, que é uma alternativa de código aberto ao Claude Cowork.

📚 Miscelânea

  • Para Sequoia Capital, empresa de capital de risco com sede no Vale do Silício, especializada em investir em empresas de tecnologia em estágio inicial, já estamos vivendo a era da AGI (Inteligência Artificial Geral). Para ela, AGI tem uma definição menos cinematográfica e mais funcional: AGI é a capacidade de descobrir e realizar as coisas - e já estamos vendo isso na prática.

 AI_FLASH_NEWS

  • OpenAI assina acordo com Cerebras para integrar 750MW de poder computacional para IA de alta latência.

  • OpenAI também investiu na Merge Labs, startup da área de interface cérebro-computador que foi cofundada por Sam Altman, CEO da OpenAI.

  • Microsoft planeja gastar US$ 500 milhões anualmente em serviços de IA da Anthropic, integrando a tecnologia Claude em seus produtos.

  • Perplexity firmou parceria com BlueMatrix para fornecer ferramentas de pesquisa assistidas por IA para investidores assinantes do plano Enterprise.

  • Thinking Machines Lab, startup de Mira Murati, perdeu dois cofundadores, que estão retornando à OpenAI.

  • Linus Torvalds, conhecido pelo ceticismo em relação ao vibe coding, usou o assistente Antigravity do Google em um projeto pessoal de áudio.

  • Órgãos reguladores da área de saúde na Europa (EMA) e nos Estados Unidos (FDA) concordaram em compartilhar princípios para o uso da IA no desenvolvimento de medicamentos. 💊🇪🇺 🇺🇸

Até a próxima

Obrigado por mergulhar nesta edição. Seu tempo é valioso, e estamos felizes por você ter escolhido passar alguns minutos aqui.

Voltaremos à sua caixa de entrada em breve. Até lá, cultive a curiosidade.😊