IA Express
Posts
OpenAI e Google disputam ouro em olimpíada de matemática

OpenAI e Google disputam ouro em olimpíada de matemática

Sheila Zabeu
23 jul

Bem-vindos, humanos: Seu download com as principais notícias sobre Inteligência Artificial começa agora. Nesta edição, você conhecerá um novo campo de batalha para a supremacia em IA: a Olimpíada Internacional de Matemática, onde OpenAI e Google estão lutando pelo título do desempenho mais perto da medalha de ouro. 🏅𝞹🧠

Porém isso não é tudo no IA Express de hoje:
- Benchmarking testa habilidade de generalizar dos agentes de IA
- Relatório avalia grandes players de IA em temas de segurança fundamental
- Plataforma de vibe coding gaha engenheiro de contexto
- Elon Musk anuncia desenvolvimento do Baby Grok

Porque, no mundo da Inteligência Artificial, conhecimento é seu algoritmo mais valioso.

AI_NEWS_CIRCUIT

OpenAI e Google disputam ouro em olimpíada de matemática

A OpenAI, por meio de seu pesquisador Alexander Wei, anunciou que um grande modelo de linguagem (LLM) com recursos de raciocínio, ainda em fase experimental, alcançou desempenho digno de medalha de ouro na prestigiada Olimpíada Internacional de Matemática (IMO) de 2025.

Mas, calma, OpenAI não está sozinha nesse feito. O Google DeepMind atingiu patamar do mesmo nível, com a vantagem de estar participando oficialmente na competição e ter seus resultados verificados e certificados pelo comitê da IMO. Uma versão avançada do Gemini Deep Think resolveu cinco dos seis problemas da IMO perfeitamente, ganhando 35 pontos no total. As soluções podem ser encontradas online aqui.

Já a OpenAI avaliou como seu modelo se sairia resolvendo os problemas da IMO propostos nessa edição e considerou os resultados uma doce conquista.

Prova disso é a imagem caprichosa que acompanha o anúncio do pesquisador Wei – um morango adornado com uma medalha de ouro em um pódio.
O modelo da OpenAI resolveu cinco de seis problemas e conquistou 35 de 42 pontos - mesma nota do Deep Think do Google, suficiente para garantir uma medalha de ouro, segundo Wei.

Crédito: Alexander Wei

Que mais você precisa saber:

A competição de matemática mais desafiadora do mundo para estudantes do ensino médio exige raciocínio lógico e criatividade. Recentemente, a IMO também se tornou um desafio para modelos de IA como teste para a capacidade de resolver de problemas matemáticos com raciocínio.
Google e da OpenAI abordaram os problemas da IMO em 2025 em condições semelhantes a dos participantes humanos: duas sessões de 4,5 horas, sem ferramentas ou acesso à Internet e exigência de uso de linguagem natural.
A pontuação obtida por ambos, validada por três medalhistas da IMO em edições passadas, supera o limite necessário para uma medalha de ouro.🥇
O que impressionou? O design de propósito geral no caso do modelo da OpenAI. Ao contrário de sistemas especializados, o modelo da OpenAI não é estritamente adaptado para matemática; é um LLM de usa abordagens inovadoras para aprendizado de reforço e dimensionamento dinâmico de recursos computacionais.
Já o Deep Think empregou pensamento paralelo para combinar várias soluções simultaneamente, em vez de seguir um único processo linear. O modelo foi ainda mais treinado com novas técnicas de aprendizado por reforço.

Por que isso importa? Os resultados de OpenAI e Google demonstraram na prática os avanços de modelos de propósito geral na solução de problemas de matemática usando linguagem natural. E esse progresso pode ir além da matemática para alcançar outros domínios que exigem pensamento criativo sustentado.

Como nem tudo é perfeito, alguns críticos questionaram a metodologia usada na avaliação, sugerindo que o modelo da OpenAI poderia ter sido ajuste exageradamente ou treinado em problemas semelhantes aos da IMO. A OpenAI sustenta que nunca havia questões parecidas Outros criticaram o processo de seleção de respostas “melhor-de-n”, argumentando que isso parece mais tentativa e erro do que um verdadeiro raciocínio matemático.

Aviso aos interessados: Esses modelos que valem ouro são experimentais e, no caso da OpenAI, não há planos de liberar nada com esse nível de capacidade matemática tão cedo. 🤦‍♂️

AI_TRENDS

Manus Data Visualization simplifica a transformação de dados brutos em painéis e gráficos interativos.
Record Mode, que transcreve e resume reuniões e notas de voz, está disponível globalmente no plano ChatGPT Plus para app do macOS.
Veo 3, o modelo mais avançado do Google para geração de vídeos, está disponível para desenvolvedores por meio da Gemini API e da Vertex AI.
MirageLSD, modelo de IA da Decart, transforma feeds de vídeo ao vivo em tempo real com menos de 40 ms de latência.
OpenReasoning-Nemotron da NVIDIA é um conjunto de LLMs com capacidade de raciocínio com ótimo desempenho em matemática, ciência e programação.
DuckDuckGo oculta imagens geradas por IA nos resultados de busca, muitas vezes de baixa qualidade e que podem interferir na busca por fotos genuínas.
Nova ferramenta de IA detecta a doença rara amiloidose cardíaca usando um único vídeo de ecocardiograma.
Prévia do ARC-AGI-3 testa a capacidade de agentes de IA para fazer generalizações em ambientes novos. Resultados? Os modelos atuais avançados ainda estão longe do desempenho humano.
Qwen2.5 da Alibaba não raciocina genuinamente, apenas usa a memória quando se trata de provas de matemática, diz estudo! 🧮🟰🫢

AI_GOVERNANCE & ETHICS

🤯 Despreparadas para AGI

Um relatório do Future of Life Institute avaliou sete grandes empresas de IA em seis domínios de segurança fundamental, e as descobertas foram gritantes. Nenhuma delas obteve pontuação maior do que C+, sendo que a liderança foi da Anthropic, seguida por OpenAI (C), Google DeepMind (C-), xAI e Meta (D), e DeepSeek (F). Compilado por seis especialistas independentes em IA e governança, o estudo avaliou as empresas nos quesitos Avaliação de Riscos, Danos Atuais, Estrutura de Segurança, Segurança Existencial, Governança & Responsabilidade e Compartilhamento de Informações. Os analistas alertam que a lacuna existente entre a ambição tecnológica e a preparação em termos de segurança está aumentando. Sem nenhuma empresa alcançando nota superior a C+ no geral, os avaliadores expressaram dúvidas de que as abordagens de autorregulação do setor sejam suficientes para lidar com a magnitude dos riscos.

🎶⬇️💿 Comparada ao Napster

Um juiz federal da Califórnia (EUA) deu aprovação para que o caso judicial contra a Anthropic prossiga como ação coletiva. O processo envolve o uso de milhões de livros protegidos por direitos autorais baixados das bibliotecas piratas LibGen e PiLiMi para treinar o modelo Claude. AI. O montante pode envolver até 7 milhões de obras, potencialmente gerando bilhões de dólares em danos. Embora uma decisão anterior tenha considerado o uso de livros comprados legalmente para treinamento de IA como “justo”, o tribunal rejeitou a defesa da Anthropic para os materiais pirateados, comparando o caso ao do Napster. A ação coletiva representa todos os proprietários de direitos autorais dos Estados Unidos cujos livros foram baixados ilegalmente, estabelecendo um precedente para as práticas de treinamento de modelos IA.

AI_SNAPSHOT

💡 Inovação & Inspiração

IA envolvida em política O prefeito de San Jose (Califórnia, EUA), Matt Mahan, está utilizando abertamente o ChatGPT e outras ferramentas de IA para otimizar as operações da cidade. Longe de sentir aversão, o prefeito está demonstrando como a IA pode ser um valioso recurso no dia a dia da administração municipal. Mahan integrou o ChatGPT ao seu fluxo de trabalho, usando-o para redigir discursos e até para dar sugestões nas propostas para o orçamento da cidade - cujo valor chega a US$ 5,6 bilhões. Essa abordagem vai além do gabinete do prefeito, com um plano ambicioso de treinar cerca de 1.000 funcionários municipais (15% da força de trabalho) na utilização de ferramentas de IA até o próximo ano. 🏙️👨🏻‍⚖️
Coach de LLMs Grandes modelos de linguagem (LLMs) são brilhantes em conversar, escrever e dar sentido ao texto, mas basta pedir para resolver um problema de matemática ou propor um algoritmo complexo para que se atrapalhem. É aí que entra o CodeSteer, um coach inteligente desenvolvido no MIT que ajuda LLMs a alternar entre geração de texto e de código para resolver problemas complexos com precisão. Nada mais é do que um LLM menor que gera automaticamente uma série de prompts para orientar iterativamente um LLM maior na revisão e no refino de suas respostas. Os resultados? Aumento da precisão dos LLMs em tarefas simbólicas em mais de 30%. A inspiração? Treinadores que orientam atletas para melhorar o desempenho, sem que sejam melhores do que eles! 🏋️‍♂️💥

🌍 IA Global

🇬🇧 Supercomputador de IA O Centro de Supercomputação da Universidade de Bristol se juntou à liga principal de gigantes da infraestrutura de IA com o novo Isambard-AI, supercomputador de IA, o mais poderoso do Reino Unido, com 5.448 superchips NVIDIA Grace Hopper e 21 exaflops de desempenho em IA. Essas características garantiram o 11º lugar na lista TOP500 global, além do quarto lugar em eficiência energética no ranking global Green500. Foi construído em menos de dois anos ao custo de € 225 milhões em um projeto colaborativo envolvendo NVIDIA, HPE, a Universidade de Bristol e outras organizações.

🔢 IA em números

Sam Altman revelou que a OpenAI está a caminho de ter mais de um milhão de GPUs on-line até o final de 2025. Já desafiou sua equipe a descobrir como elevar esse número em 100 vezes.

Para efeito de comparação, o arquirrival Elon Musk declarou em abril usar cerca de 200 mil GPUs NVIDIA H100 em seu supercomputador Collosus.

AI_TOOLKIT

🛠️Ferramentas

Trae é uma plataforma de vibe coding com uma nova ferramenta SOLO - um engenheiro de contexto que pensa e planeja antes de gerar o código.
Gemini Code Assist tem um novo modo agente que atua a programador parceiro que analisa a base de código para planejar as tarefas.
Thumbnailcreator usa IA para criar miniaturas atraentes do YouTube e ajudar a atrair cliques com designs profissionais em segundos.

📚 Miscelânea

No podcast Decoder, Aravind Srinivas, CEO da Perplexity, discute por que o navegador Comet será fundamental para a criação de agentes de IA, descrevendo-o como um "sistema operacional conteinerizado" que pode acessar serviços de terceiros, fazer scrapping e executar tarefas usando prompts em linguagem natural.
No terceiro episódio do podcast da OpenAI, Brad Lightcap, diretor de operações da empresa de Sam Altman, e o economista Ronnie Chatterji discutem os impactos da IA em vários setores, do software e da ciência às pequenas empresas, educação e mercado de trabalho.

AI_FLASH_NEWS

Elon Musk anunciou que xAI está desenvolvendo o Baby Grok, chatbot projetado especificamente para fornecer conteúdo adequado a crianças.
Perplexity vê a Índia como estratégica para seu crescimento devido à grande base de usuários e ao mercado menos saturado.
Meta se recusou a assinar o Código de Conduta da UE para modelos de IA e pode enfrentar maior escrutínio na próxima fase da legislação de IA local.
Fundo de US$ 50 milhões da OpenAI vai apoiar organizações sem fins lucrativos e comunitárias a usar IA para enfrentar desafios sociais.
Nova política da divisão Ring da Amazon exige que funcionários demonstrem como usam IA para que se candidatem a promoções.
A empresa de capital de risco Outside The Box Ventures quer ajudar startups de IA a articularem claramente suas propostas de valor. 💬📢💡

Até a próxima

Obrigado por mergulhar nesta edição. Seu tempo é valioso, e estamos felizes por você ter escolhido passar alguns minutos aqui.

Voltaremos à sua caixa de entrada em breve. Até lá, cultive a curiosidade.😊