IA Express
Posts
DINOv3 da Meta mostra o poder do aprendizado autossupervisionado

DINOv3 da Meta mostra o poder do aprendizado autossupervisionado

Sheila Zabeu
20 ago

Bem-vindos, humanos: Seu download com as principais notícias sobre Inteligência Artificial começa agora. Nesta edição, você ficará sabendo como a IA está aprendendo a "ver" por conta própria e também organizando milhares de átomos em tempo recorde para impulsionar a computação quântica. ⚛️🐈‍⬛

Porém isso não é tudo na IA Express de hoje:
- GPT-5 supera especialistas humanos em raciocínio médico multimodal
- LLMs favorecem conteúdo apresentado por outro modelo de IA
- StreamMind processa vídeo de forma parecida com o que nosso cérebro faz
- Estudo avalia eficiência dos tokens de grandes modelos de raciocínio (LRMs)

Porque, no mundo da Inteligência Artificial, conhecimento é seu algoritmo mais valioso.

AI_NEWS_CIRCUIT

VISÃO COMPUTACIONAL

DINOv3 da Meta mostra o poder do aprendizado autossupervisionado

Os tradicionais modelos de IA para visão computacional são como glutões exigentes que precisam de grandes conjuntos de dados cuidadosamente selecionados e rotulados para aprender algo útil. Pense em milhares de imagens marcadas com “gato”, “cão” ou “pôr do sol” - algo que até funciona, mas é um processo nada eficiente.

É aqui que entra o novo DINOv3
do Meta FAIR com seu aprendizado autossupervisionado em grande escala especificamente para o mundo das imagens.

O que você precisa saber:

Em vez de se basear em dados rotulados, o DINOv3 aprende diretamente a partir de imagens cruas e sem rótulos, descobrindo padrões e estruturas por conta própria. É como ensinar uma criança a reconhecer formas.
O DINOv3 vem na cola do sucesso do seu antecessor DINOv2, mas com um novo nível de capacidade de aprendizado que maximiza o que pode aprender com cada imagem.
É capaz de identificar objetos, organizar cenas e até mesmo lidar com tarefas complexas, como estimar profundidade, reconhecer objetos em cenas desordenadas e gerar segmentos detalhados.
Também pode lidar com diversas tipos de entradas visuais, desde fotos granuladas até imagens de satélite de alta resolução.

Por que isso importa? Essa versatilidade torna DINOv3 um excelente candidato para aplicações do mundo real, seja ajudando veículos autônomos a andar por ruas movimentadas ou alimentando aplicativos de realidade aumentada que sobrepõem o universo digital ao mundo físico.

A Meta FAIR liberou o código de treinamento e backbones pré-treinados do DINOv3 sob uma licença comercial.

AI_TRENDS

Modo “Learning” do Claude AI agora está disponível para todos os usuários. Desenvolvedores que usam o Claude Code também ganharam o modo "Explanatory" que explica as decisões tomadas durante a programação.
R-Zero é uma estrutura para treinar LLMs e melhorar a capacidade de raciocínio de forma autônoma, sem usar dados com curadoria humana.
Novo modelo X-Omni da Tencent gera e interpreta imagens com alto nível de qualidade e consistência.
Cosmos Reason é um modelo de linguagem visual da NVIDIA, aberto e personalizável, para IA física e robótica com recursos avançados de raciocínio.
OpenAI fez mudanças sutis para tornar o GPT-5 menos formal, mas sem bajulação.
Pocket FM, plataforma indiana com ambições de ser a Netflix do áudio, lançou ferramentas de IA para ajudar no processo de criação de conteúdo.
GPT-5 superou especialistas humanos em raciocínio médico multimodal, destacando-se na integração de diversos dados para diagnósticos complexos.
O sistema de raciocínio da OpenAI obteve pontuação suficiente para receber a medalha na Olimpíada Internacional de Informática (IOI) de 2025. 👨‍💻🥇

AI_VENTURES

COMPUTAÇÃO QUÂNTICA

IA ajuda a construir matriz de átomos em tempo recorde

Organizar átomos individuais, que atuam como qubits na computação quântica, é um processo que costuma ser lento e complicado, envolvendo o uso de feixes de laser para capturar e movê-los para a posição adequada. E essa técnica se torna ineficiente à medida que cresce o número de átomos.

Pesquisadores chineses desenvolveram um método orientado por Inteligência Artificial para organizar mais de 2.000 átomos em matrizes perfeitas em apenas 60 milissegundos – um feito 10 vezes mais rápido do que soluções convencionais. A equipe usou um sistema de IA emparelhado com um modulador de luz espacial de alta velocidade para organizar, em tempo real, os átomos com uma precisão incrível, alcançando uma taxa de sucesso quase perfeita de 99,97%.

Para demonstrar a capacidade do sistema inteligente, os pesquisadores até criaram um vídeo de desenho animado - uma versão lenta dos rearranjos atômicos - com o experimento quântico de Schroeder usando 549 átomos.

Crédito: APS

Por que isso importa? O grupo afirma que essa abordagem pode lidar com dezenas de milhares de átomos, potencialmente revolucionando a computação quântica ao viabilizar sistemas maiores e mais complexos.

AI_GOVERNANCE & ETHICS

🛑 Fim de papo

A Anthropic revelou um novo recurso que dá aos modelos Claude Opus 4 e 4.1 a capacidade de encerrar conversas em casos raros de interações persistentemente prejudiciais ou abusivas por parte do usuário. A medida será acionada como último recurso, apenas após várias tentativas fracassadas de redirecionar conversas problemáticas. O usuário poderá iniciar um novo bate-papo ou editar mensagens anteriores para dar continuidade à conversa.

👉 Preferência entre pares

Um estudo da Proceedings of the National Academy of Sciences (PNAS) dos Estados Unidos revelou que LLMs parecem ter um viés embutido para conteúdo e ideias geradas por outros modelos de IA. Os pesquisadores chamaram esse fenômeno de viés AI-AI. A descoberta mostrou que, quando concedida uma escolha, LLMs como GPT-3.5, GPT-4 e alguns modelos recentes de peso aberto favorecem consistentemente o conteúdo apresentado por outro LLM em detrimento de conteúdo gerado por pessoas. Essa discriminação pode gerar vantagens injustas para agentes de IA e humanos que usam a assistência da IA, pois podem ser julgados de forma mais favorável por outras IAs no cenário digital.

AI_SNAPSHOT

💡 Inovação & Inspiração

Visão seletiva StreamMind, desenvolvido pela Microsoft Research Asia e pela Nanjing University, é um sistema de IA que processa vídeo em tempo real, até 10 vezes mais rápido do que os modelos atuais conseguem fazer. É ideal para uso com óculos inteligentes em aplicações para usuários de baixa visão. Ao contrário dos sistemas tradicionais que analisam cada quadro, a StreamMind processa vídeos de forma parecida com o que o cérebro humano faz, concentrado-se somente quando algo importante ocorre e acionando um grande modelo de linguagem (LLM) apenas quando necessário. Veja alguns exemplos da StreamMind em ação aqui. 👓👁️😎
Modelo multitarefa Imagine fornecer um pequeno vídeo, um texto descritivo ou uma imagem estática a um sistema de IA e ter de volta não apenas efeitos sonoros, mas uma mix completo de narração, melodia de fundo e até canções que combinam perfeitamente com a cena. Essa é a promessa do AudioGenie, ferramenta multiagente do tipo Multimodality-to-Multiaudio (MM2MA) desenvolvida pelo Tencent AI Lab. E o melhor? Faz tudo isso sem precisar de grandes volumes de dados de treinamento. Em vez disso, usa uma abordagem colaborativa com diferentes agentes especialistas. 📝🎥🔊

🌍 IA Global

🇨🇳 Diferença nos grids Eletricidade é um importante gargalo na corrida pela supremacia mundial da IA, e a China está levando uma vantagem significativa sobre os Estados Unidos em termos de infraestrutura elétrica. O robusto grid chinês é descrito como um “problema resolvido”, mantendo uma margem de reserva entre 80% a 100%, e permitindo que a China absorva as demandas energéticas da IA sem esforço.. Do outro lado, os Estados Unidos possuem redes regionais operando com apenas 15% de margem de reserva.

🇺🇸 Em nome da ciência A NVIDIA e National Science Foundation (NSF) dos Estados Unidos firmaram uma parceria para financiar o projeto Open Multimodal AI Infrastructure to Accelerate Science (OMAI), liderado pelo Allen Institute for AI (Ai2). O objetivo é desenvolver modelos de IA multimodais totalmente abertos, adaptados à comunidade científica norte-americana, e com isso e acelerar descobertas nas áreas de ciência dos materiais, biologia e energia.

🔢 IA em números

Crédito: Appfigures

Os gastos com aplicativos de IA atingiram US$ 1,4 bilhão no final de 2024, aumento de 274% em relação ao ano anterior. A maior parte da receita vem de assistentes de uso geral, em especial, ChatGPT, segundo dados do relatório Rise of AI Apps: Key Trends Shaping 2025 da Appfigures.

AI_TOOLKIT

🛠️Ferramentas

Headsup é um agente de IA que acompanha os movimentos da concorrência na Internet.
Learn Earth cria rotas de aprendizado personalizadas sobre qualquer tema.
Refont gera fontes bonitas, caligrafia, assinaturas usando IA.

📚 Miscelânea

Nous Research avaliou a eficiência dos tokens de grandes modelos de raciocínio (LRMs), que usam amplas cadeias de pensamento para resolução de problemas. Ao comparar modelos de peso aberto e de peso fechado, o estudo encontrou que a segunda categoria (composta, por exemplo, de modelos da OpenAI e xAI) usam de 1,5 a 4 vezes menos tokens do que modelos de peso aberto (por exemplo, DeepSeek, Qwen).
Pesquisadores da Anthropic explicam o que acontece dentro de um modelo de IA enquanto ele trabalha. Por que eles são bajuladores e alucinam, por exemplo? Confira as pesquisas mais recentes sobre interpretabilidade da IA aqui.

AI_FLASH_NEWS

Sam Altmam, CEO da OpenAI, acredita que investidores estão empolgados demais com a IA, mas também acredita que a IA é a coisa mais importante que aconteceu em muito tempo.
Não é apenas a Perplexity que deseja comprar o navegador Chrome por um valor bilionário. Sam Altman, da OpenAI, também já expressou interesse.
Meta deve dividir seu Superintelligence Labs em quatro grupos: um novo laboratório, o já existente Fundamental AI Research (FAIR) com foco em pesquisa de longo prazo, uma equipe de produtos e outra de infraestrutura.
Funcionários da OpenAI podem vender quase US$ 6 bilhões em ações para o SoftBank e outros investidores.
Otter.ai, empresa de transcrição de voz, está sendo processada por usar resumos transcritos de reuniões para treinamento de IA sem permissão.
Os Estados Unidos lançaram o USAi, pacote de avaliação para agilizar os testes e a adoção de soluções de IA em escala pelas agências federais.
Quase 90% dos desenvolvedores de jogos usam IA em seus fluxos de trabalho, de acordo com pesquisa da Google Cloud.
Eletrobras e C3 AI vão modernizar a rede elétrica do Brasil usando IA no monitoramento e na resolução de falhas em tempo real. 🔌⚡🇧🇷

Até a próxima

Obrigado por mergulhar nesta edição. Seu tempo é valioso, e estamos felizes por você ter escolhido passar alguns minutos aqui.

Voltaremos à sua caixa de entrada em breve. Até lá, cultive a curiosidade.