• IA Express
  • Posts
  • Modelos desenvolvem “intuição” ao internalizar processo de raciocínio

Modelos desenvolvem “intuição” ao internalizar processo de raciocínio

Bem-vindos, humanos: Seu download com as principais notícias sobre Inteligência Artificial começa agora. Na edição de hoje, você saberá como os modelos de IA estão aprendendo a raciocinar com “intuição”. Também terá mais uma prova de que jogos não são apenas para se divertir, mas também para medir a verdadeira inteligência da IA. ♟️♥️♣️♦️♠️

Porém isso não é tudo no IA Express de hoje:
- Qwen-Image é comparável a modelos proprietários e o melhor de código aberto
- Técnica de autenticação ajuda a combater a desinformação em vídeos
- Novo modelo de IA faz demonstrações formais de teoremas
- Character.AI lança primeiro feed social nativo de IA

Porque, no mundo da Inteligência Artificial, conhecimento é seu algoritmo mais valioso.

AI_NEWS_CIRCUIT

AUTOAPERFEIÇOAMENTO

Modelos desenvolvem “intuição” ao internalizar processo de raciocínio

Deep Cogito, startup da área de pesquisa em IA, apresentou a família Cogito v2 de quatro modelos de raciocínio híbrido (70B, 109B MoE, 405B e 671B MoE - sendo o último um dos modelos abertos mais poderosos disponíveis atualmente) que promete ultrapassar os limites do que é possível com Inteligência Artificial de código aberto.

O que torna esses modelos tão especiais? Um novo paradigma que dá a eles mais "intuição" para resolução de problemas. Em vez de confiar em pesquisas mais longas e mais intensivas em uso de recursos durante a inferência, os integrantes da família Cogito V2 internalizam e melhoraram as capacidades de raciocínio ao longo do tempo.

Essa abordagem de “intuição” é uma prova de conceito de autoaperfeiçoamento - os modelos são treinados para internalizar o próprio processo de raciocínio, transferindo novas descobertas para seus próprios parâmetros. A consequência? A próxima vez que os modelos enfrentarem um problema semelhante, a pesquisa começará mais perto do objetivo, levando a uma solução mais eficiente e eficaz.

Os resultados? Os modelos Cogito V2 têm cadeias de raciocínio que são 60% mais curtas do que as de alguns de seus concorrentes.

O caso do maior modelo da família, o 671B MoE, é particularmente impressionante. Foi especificamente treinado para melhorar a intuição nos modos de raciocínio e de não raciocínio. Com isso, seu desempenho rivaliza e, em alguns casos, supera o de outros modelos abertos de primeira linha e até se aproxima do desempenho de alguns modelos de fronteira de código fechado.

Outro ponto interessante é que, embora tenham sido treinados com entradas e saídas de texto, os modelos aprendem a raciocinar sobre o domínio visual por pura transferência de aprendizado!

Crédito: Deep Cogito

A DeepCogito liberou os quatro modelos sob uma licença aberta, tornando-os acessíveis a uma comunidade mais ampla de pesquisadores e desenvolvedores. Estão disponíveis para download no Huggingface e podem ser usados através de APIs.

AI_TRENDS

  • Qwen-Image é um novo modelo para geração de imagens que trabalha com tipografia e layouts complexos, ideal para cartazes e slides. É comparável a modelos proprietários e é o melhor de código aberto no benchmarking AI Arena.

  • Google introduziu o modelo Veo 3 Fast e novos recursos para transformar imagem em vídeo, ambos disponíveis por meio da API Gemini.

  • xAI lançou oficialmente Grok Imagine, gerador de imagens e vídeos usando IA, para assinantes do SuperGrok e Premium+ X no aplicativo para iOS.

  • Step3, da StepFun, é um modelo de raciocínio multimodal que equilibra desempenho com eficiência de custo em tarefas de linguagem visual.

  • Uma falha de segurança crítica no editor Cursor AI, já corrigida, permitia executar código remoto via injeção de prompt.

  • Big Sleep, sistema de descoberta de vulnerabilidades do Google alimentado por IA, relatou suas primeiras 20 vulnerabilidades de segurança.

  • LLMs conseguem resolver sudoku muitas vezes, mas se atrapalham para explicar o raciocínio, até dando justificativas incorretas ou fabricadas.

  • Modelos de IA utilizam biomarcadores de voz para detectar comprometimento cognitivo por meio de conversas não estruturadas. 🧠💡🤔

AI_VENTURES

BENCHMARKING

Jogos: a nova maneira de medir a inteligência dos modelos de IA

A Kaggle, em colaboração com o Google DeepMind, desenvolveu uma plataforma de código aberto para colocar modelos de IA frente a frente em jogos estratégicos e avaliar sua verdadeira inteligência. É a Game Arena!

Por que esse novo benchmarking? Os atuais modelos de IA podem "memorizar" as respostas em vez de realmente raciocinar e, com isso, atingir pontuações quase perfeitas nas atuais ferramentas de bechmarking vistas como estáticas.

A Game Arena oferece uma solução dinâmica ao ter modelos de IA competindo em jogos de inteligência como o xadrez. Aí a resposta é clara e inequívoca: ganhar, perder ou empatar. O ambiente força o modelo de IA a demonstrar uma ampla gama de habilidades, entre elas raciocínio estratégico, planejamento de longo prazo e adaptação dinâmica.

É uma prova robusta de inteligência geral de resolução de problemas e, ao contrário das competições de julgamento humano, os resultados são verificáveis e objetivos.

A Game Arena foi lançada com um primeiro torneio de xadrez emparelhando alguns dos principais modelos de IA do Google, Anthropic e OpenAI realizado no último dia 5 de agosto. Os jogos foram transmitidos ao vivo, mas há reproduções disponíveis para serem assistidas sob demanda.

Ao usar jogos como ferramenta de benchmarking, Kaggle e a Google DeepMind estão criando uma maneira mais desafiadora e dinâmica de medir o desempenho dos modelos de IA. De quebra, estão nos dando uma forma mais empolgante de assistir ao desenrolar da Inteligência Artificial. 🎉🙌🏆

AI_GOVERNANCE & ETHICS

🤔 Autenticidade de vídeos

Em tempos em que a IA se tornou uma poderosa ferramenta para produção de cenas hiper-realistas, uma nova técnica de autenticação pode ajudar a combater a desinformação em vídeos. Como? Incorporando códigos temporários e únicos em fontes de luz durante a gravação dos vídeos. Esses códigos, imperceptíveis ao olho humano, mas detectáveis pelas câmeras, atuam como uma marca d'água para verificar a autenticidade do vídeo, com carimbo de data e hora. A técnica explora padrões cintilantes de alta frequência em luzes, que podem ser analisados para detectar adulteração ou confirmar o contexto original dos vídeos. Experimentos demonstraram a eficácia do método em várias condições de iluminação e tipos de câmeras, oferecendo uma ferramenta robusta para garantir a integridade dos vídeo contra deepfakes e manipulação feitas por IA.

👥 Traços de personalidade

A Anthropic apresentou um método para monitorar e controlar traços de personalidade em grandes modelos de linguagem (LLMs), que identifica padrões específicos de atividade em redes neurais. Tais "vetores de persona", que correspondem a características como bajulação ou alucinação, podem ajudar os pesquisadores a ajustar o comportamento dos modelos sem depender de treinamento, apenas aprimorando ou suprimindo trações para se alinharem aos resultados desejados. A abordagem envolve a comparação de padrões de ativação entre comportamentos opostos para extrair os vetores. Em testes com os modelos Qwen 2.5-7B-Instruct e Llama-3.1-8B-Instruct, a técnica demonstrou potencial para fins de personalização e segurança, embora desafios como a introdução de possíveis vieses ainda permaneçam.

AI_SNAPSHOT

💡 Inovação & Inspiração

  • Fim dos prompts Higgsfield e Minimax se juntaram para eliminar a necessidade de engenharia de prompt na criação de vídeos. Agora, com apenas cliques, é possível selecionar entre milhares de predefinições cinematográficas para gerar vídeos de qualidade profissional em instantes. A integração combina os modelos de geração de imagens da Higgsfield com os recursos de geração de vídeos da Minimax para tornar acessível a todos a criação de vídeos curtos, realistas e estilizados com efeitos visuais. ✂️🎬▶️

  • CQD - Como Queríamos Demonstrar Atenção, matemáticos, um novo modelo de IA chegou para fazer demonstrações formais de teoremas, especialmente os mais desafiadores. O Seed-Prover usa uma abordagem de raciocínio dentro do ambiente de linguagem formal Lean, estruturando as provas em proposições intermediárias menores e já comprovadas chamadas lemas. Os resultados? O Seed-Prover provou 78,1% dos problemas anteriores da Olimpíada Internacional de Matemática (IMO) formalizados para máquinas entenderem. Também deixou outros modelos de IA na poeira em alguns sistemas de benchmarking, como MiniF2F e PutnamBench. 📐e = ∑∞ⁿ⁼⁰ ¹ₙ🤓

     

🌍 IA Global

🇺🇸 Espaço aéreo inteligente O Exército dos Estados Unidos está buscando soluções de IA que facilitem o gerenciamento de drones no campo de batalha. Em especial, o grupo está à procura de sistemas inteligentes para ajudar os comandantes a lidar com o espaço aéreo congestionado e caótico sem ficarem sobrecarregados. O objetivo é usar a IA para organizar as rotas dos drones, priorizar missões e manter a coordenação com aliados em tempo real.

🇺🇸 IA não essencial. O Google concordou em pausar cargas de trabalho de IA não essenciais em seus data centers durante períodos de alta demanda de eletricidade ou interrupções na rede elétrica. A iniciativa faz parte de acordos com duas concessionárias de energia elétrica dos Estados Unidos – Indiana Michigan Power (I&M) e Tennessee Valley Authority (TVA) – e de uma estratégia para ajudar a liberar capacidade energética e a reduzir a necessidade de construção de usinas e linhas de transmissão no país.

📢 IA em uma frase

“É preciso otimizar sua carreira para ser flexível, não para uma única profissão. E o valor do aprendizado está em cultivar a capacidade de aprender”.

A frase é de Vinod Khosla, lendário investidor e cofundador da também lendária Sun Microsystems, ao aconselhar a Geração Z a priorizar a adaptabilidade e o aprendizado rápido e não a especialização para enfrentar os impactos da IA no mercado de trabalho.

 AI_TOOLKIT

🛠️Ferramentas

  • SciSpace é uma plataforma que reúne ferramentas de IA para facilitar a pesquisa acadêmica.

  • Agenthub é um ambiente para simular, rastrear e avaliar agentes de IA.

  • D-Wave oferece um toolkit de código aberto para integrar computação quântica ao treinamento de IA.

📚 Miscelânea

  • A Inteligência Artificial está remodelando o cenário da segurança cibernética, atuando como ferramenta para invasores, mas também como linha de defesa para as organizações, de acordo com o IBM Cost of a Data Breach Report 2025. Confira os resultados aqui.

 AI_FLASH_NEWS

  • Character.AI lançou o primeiro feed social nativo de IA em seu aplicativo, transformando a plataforma antes centrada em bate-papo em uma experiência dinâmica orientada por conteúdo.

  • xAI, de Elon Musk, anunciou que assinará o Código de Conduta da IA da União Europeia, especificamente o capítulo sobre segurança e proteção.

  • Parece que a Apple está desenvolvendo um chatbot de IA simplificado para competir com ChatGPT.

  • Do outro lado, ChatGPT está a caminho de atingir 700 milhões de usuários semanais ativos, quatro vezes mais que o patamar do ano passado.

  • Mais ChatGPT: OpenAI não vai mais maximizar métricas de engajamento do chatbot, mas capacitar os usuários para que alcancem seus objetivos.

  • Cloudflare está acusando Perplexity de usar crawlers não declarados para contornar as diretrizes de rastreamento dos sites.

  • Andy Jassy, CEO da Amazon, revelou planos para integrar publicidade nas conversas da Alexa+ para transformar a assistente de voz movida por IA em uma nova plataforma de comércio eletrônico. 🗣️🔵✨🛒

Até a próxima

Obrigado por mergulhar nesta edição. Seu tempo é valioso, e estamos felizes por você ter escolhido passar alguns minutos aqui.

Voltaremos à sua caixa de entrada em breve. Até lá, cultive a curiosidade.😊