IA Express
Posts
Novo desafio de codificação vencido por brasileiro revela limitações da IA

Novo desafio de codificação vencido por brasileiro revela limitações da IA

Sheila Zabeu
28 jul

Bem-vindos, humanos: Seu download com as principais notícias sobre Inteligência Artificial começa agora. Nesta edição, destacamos um desafio de codificação guiada por IA no qual uma pontuação muito baixa valeu ouro para um brasileiro. E quem diria que uma boa conversa com agentes de IA resolveria boa parte do seu trabalho. 📋☑️

Porém isso não é tudo no IA Express de hoje:
- YouTube libera ferramentas de IA para criadores de Shorts
- Hacker adiciona código mal-intencionado em agente de IA da Amazon
- Chatbot da Proton garante confidencialidade das conversas
- Google Labs apresenta ferramenta para criar miniaplicativos de IA

Porque, no mundo da Inteligência Artificial, conhecimento é seu algoritmo mais valioso.

AI_NEWS_CIRCUIT

BENCHMARKING

Novo desafio de codificação vencido por brasileiro revela limitações da IA

A organização sem fins lucrativos Laude Institute anunciou o brasileiro Eduardo Rocha de Andrade, engenheiro de prompt, como vencedor da primeira edição do K Prize, novo desafio de codificação usando IA lançado por Andy Konwinski (daí a origem do nome da premiação), cofundador da Databricks e do Perplexity.

O surpreendente sobre a conquista de Andrade, que lhe renderá US$ 50 mil como prêmio, é ter levado o ouro tendo resolvido apenas 7,5% das perguntas do teste corretamente, revelando um desempenho decepcionante da programação movida por IA. Por quê? Porque até mesmo os modelos de melhor desempenho na arte da codificação alcançaram uma pontuação abaixo de 20% de precisão, não contribuindo muito para o trabalho do engenheiro de prompt.

Como funciona? Similar ao que faz o SWE-Bench, o K Prize avalia a capacidade dos modelos de IA de resolverem problemas de programação reais extraídos de repositórios públicos do GitHub. No entanto, o K Prize usa uma versão própria do SWE-bench com questões novas do GitHub para evitar a possibilidade de treinamento específico dos modelos de IA com base em problemas conhecidos, .

Para efeitos de comparação, a pontuação vencedora de 7,5% do brasileiro contrasta fortemente com números do próprio SWE-Bench, cujas pontuações mais altas chegam a 75% para testes mais simples. A organização do K Prize ainda vai identificar se a disparidade se deve justamente à coleção de problemas proposta, desconhecida dos modelos de IA.

A nova competição, que não quer pegar leve, permite apenas o uso de modelos menores e de código aberto, exigindo que trabalhem off-line com recursos computacionais limitados para assim nivelar o campo de disputa.

Por que isso importa? Os resultados do K Prize forneceram uma verificação de realidade sobre a capacidade atual da IA para geração de código, mesmo com a assistência de um engenheiro de prompts.

A boa notícia? Os organizadores do K Prize prometeram US$ 1 milhão para o primeiro modelo de código aberto que alcançar pontuação superior a 90% na nova versão do SWE-bench. 💰💰💰

AI_TRENDS

YouTube liberou ferramentas de IA para criadores de Shorts para transformar fotos em vídeo e aplicar efeitos, usando o modelo Veo 2 e logo Veo 3.
Que coincidência, Google Photos agora também transforma fotos em vídeo e faz ‘remix’ de fotos usando diferentes estilos.
Figma Make, com todos os recursos do Figma AI, está disponível para uso geral. A ferramenta do tipo prompt-to-app permite criar protótipos interativos e aplicativos Web sem muita habilidade técnica.
Novo GitHub Spark permite criar e implantar aplicativos Web descrevendo ideias em linguagem natural - sem codificação nem configuração manual.
HiDream-E1 é um modelo de IA para edição de imagens que permite fazer modificações precisas usando prompts em linguagem natural.
BosonAI abriu o código do Higgs Audio V2, modelo para geração de vozes treinado com mais de 10 milhões de horas de áudio.
Apresentada em maio durante o evento I/0, a ferramenta de IA do Google para provar roupas de modo virtual foi lançada oficialmente nos Estados Unidos.
Mais um estudo atesta: quanto maiores forem as entradas para os LLMs, piores serão os resultados, mesmo em tarefas simples - efeito chamado de podridão do contexto. Veja a avaliação de 18 LLMs aqui.🥀♨️

AI_VENTURES

EMPRESAS

Agentes de IA por voz: boas conversas, melhor trabalho

Pensando em aumentar a produtividade nas empresas e melhorar a experiência dos funcionários, a Leena AI lançou AI Colleagues, agentes de IA habilitados por voz para atuarem como colegas de trabalho e para quem o melhor caminho é sempre uma boa conversa - em linguagem natural. 🙂

Esses assistentes de IA podem lidar com uma ampla gama de funções críticas nas empresas, entre elas RH, TI, finanças, marketing, vendas e compras. O principal objetivo é simplificar as interações no local de trabalho, eliminando a necessidade de digitação ou navegação complexa entre sistemas.

Como funciona?

O recurso de destaque dos AI Colleagues é claramente sua capacidade de interagir por voz. Por meio dela, funcionários poderão se comunicar com os agentes simplesmente como se estivessem falando com o colega de trabalho sentado ao lado.
Em alto e bom tom, é possível pedir que os agentes realizem tarefas rotineiras, por exemplo, verificar os níveis de estoque ou quantas contratações foram feitas no último mês, por exemplo. Os agentes responderão disparando processos que levam em conta o contexto, sem que seja necessário digitar nada nem navegar por portais complexos.
O que diferencia os AI Colleagues é justamente a capacidade de lidar com tarefas em vários sistemas corporativos, desde TI e RH a finanças e outros, abstraindo a complexidade do software corporativo. Dessa forma, não é preciso saber qual sistema lida com quais tarefas específicas.

Por que isso importa? Ao atuar como intermediários, os AI Colleagues garantem boas experiências aos funcionários e o bom funcionamento dos processos entre domínios. O resultado? Segundo a Leena AI, alguns clientes já reportaram ganho de produtividade de 50% a 70% nas equipes de TI, RH e finanças.

AI_GOVERNANCE & ETHICS

😈 Agente mal-intencionado

Um hacker encontrou uma maneira de interferir no assistente de codificação de IA da Amazon chamado Q. Como? Adicionou um código mal-intencionado na página do Q no GitHub, com instruções para fazer a limpa nos computadores dos usuários e excluir seus dados na nuvem. A Amazon não percebeu a mudança logo de início, mas corrigiu discretamente o problema cinco dias depois com uma nova versão. Até o momento. a Amazon não emitiu nenhum comunicado oficial sobre o comprometimento do agente.

🌓 Herança sutil

A equipe de Anthropic descobriu um fenômeno interessante em grandes modelos de linguagem (LLMs): aprendizado subliminar. O que isso significa? Quando um modelo-aprendiz é ajustado usando dados gerados por um modelo-mestre com a mesma arquitetura básica, pode herdar traços comportamentais específicos, por exemplo, preferências, sem que esses traços estejam explicitamente presentes nos dados de treinamento. Essa “transferência de conhecimento" acontece através de sinais sutis e ocultos que são incorporados aos dados. Quais são as consequências? Desafios de alinhamento dos modelos de IA. Mesmo que os dados de treinamento sejam cuidadosamente filtrados para remover comportamentos indesejáveis, ainda assim os modelos podem aprender tendências de forma subliminar, minando esforços para garantir a segurança e o alinhamento com os objetivos pretendidos.

AI_SNAPSHOT

💡 Inovação & Inspiração

IA falando latim Aeneas - nome dado em homenagem ao herói Eneias - é um modelo de IA do Google DeepMind que pretende revolucionar o estudo da história antiga, ajudando historiadores a decodificar, restaurar e entender inscrições em latim com velocidade e precisão sem precedentes. Em outras palavras, transforma sussurros fragmentados do passado em narrativas ricas e contextualizadas. O modelo se baseia em seu antecessor Ithaca, voltado para textos em grego antigo, mas deu um salto gigante à frente. É o primeiro sistema do seu tipo a analisar texto e imagens das inscrições para identificar sua origem geográfica. Seus recursos não param por aí. Aeneas também pode preencher lacunas em textos danificados, mesmo quando o comprimento da seção ausente é desconhecido. 🇮🇹 🏺📜
IA com privacidade Conhecida por seus serviços seguros de e-mail e VPN, a Proton agora oferece um assistente de IA desenvolvido do zero tendo a confidencialidade dos dados como principal prioridade. Usando recursos como criptografia e armazenamento das conversas nos dispositivos dos usuários, o novo Lumo é alimentado por LLMs de código aberto e hospedados em servidores da Proton, que não registram as conversas nem as utilizam para treinamento. Qualquer bate-papo gravado só poderá ser descriptografado no dispositivo do usuário. Disponível na web e via apps para iOS e Android. 👁️‍🗨️🔐

🌍 IA Global

🇨🇳 Reparo de GPUs A demanda por serviços de reparo de chips de IA da NVIDIA está crescendo na China por conta das restrições de exportação impostas pelos Estados Unidos, por exemplo, para os modelos H100 e A100. Pelo menos uma dúzia de empresas na cidade de Shenzhen desenvolveram silenciosamente um mercado de reparos para esses chips de alto desempenho. Para citar apenas um caso, uma empresa que originalmente trabalhava com GPUs para jogos tem trabalhado com reparo de chips de IA desde o final de 2024. Todo mês repara até 500 chips de IA da NVIDIA operando um ambiente que simula condições de data centers com até 256 servidores.

🇰🇪 Médico assistente A OpenAI se associou à Penda Health, rede de clínicas de cuidados primários em Nairóbi, no Quênia, para realizar um estudo prático envolvendo um copiloto clínico baseado no modelos GPT-4a chamado AI Consult. Integrado aos prontuários eletrônicos do sistemas da Penda, o assistente de IA auxilia médicos com recomendações durante as visitas dos pacientes, atuando como uma rede de segurança que alerta profissionais da saúde sobre possíveis erros de diagnóstico e tratamento. Em quase 40 mil consultas em 15 clínicas, os médicos com apoio da IA tiveram uma redução de 16% nos erros de diagnóstico e de 13% nos erros de tratamento em comparação com profissionais sem assessoria da IA.

📰 How-to

Quer saber como transformar qualquer documento de texto, por exemplo, publicações em blog, guia de produtos e notas de reunião, em recursos visuais para sua marca? Siga os passos abaixo usando o chatbot Claude da Anthropic.

Vá até o site do chatbot Claude em www.claude.ai e, no menu de ferramentas, escolha Canvas.
Agora clique no ícone + e faça o upload do seu documento em formato de texto.
Aí basta pedir ao chatbot Claude para fazer o recurso visual que desejar, por exemplo, um infográfico.

Voilà! O Claude mostrará algumas opções para você escolher a que mais lhe agradar. E ainda apresentará conectores para diversas ferramentas para que continue trabalhando, por exemplo, com Gmail, Drive ou Canvas, entre várias outras.

AI_TOOLKIT

🛠️Ferramentas

Opal é uma ferramenta experimental do Google Labs para criar e compartilhar miniaplicativos alimentados por IA usando prompts em linguagem natural.
Vidsembly transforma arquivos PDF ou slides em vídeos narrados.
Higgsfield Steal, junto com uma extensão para navegador, recria qualquer imagem da Web e com um visual semelhante - sem usar prompts.

📚 Miscelânea

Robby Stein, vice-presidente de produtos de busca do Google, discute como os procedimentos de pesquisa na Web estão caminhando na direção da IA, migrando de simples palavras-chave para consultas complexas baseadas em conversas.
Estudo da Microsoft Research analisou o impacto da IA Generativa nas atividades de trabalho e nas ocupações, examinando 200 mil conversas anônimas com o Microsoft Bing Copilot. O objetivo era identificar tarefas mais comuns para as quais os usuários buscam ajuda da IA. Ao combinar essas classificações de atividade com métricas de sucesso de tarefas e dados ocupacionais, o estudo calculou uma pontuação de aplicabilidade da IA para várias ocupações.

AI_FLASH_NEWS

Começou no sábado passado e segue até hoje em Xangai (China) a Conferência Mundial de Inteligência Artificial (WAIC), com mais de 800 expositores em 70 mil metros quadrados.
Sundar Pichai, CEO do Google, expressou entusiasmo com a parceria envolvendo recursos do Google Cloud para treinar modelos de IA da OpenAI, apesar da grande concorrência entre as duas empresas.
Samsung está buscando integrar recursos de IA da OpenAI e Perplexity em futuros smartphones Galaxy e assim reduzir a dependência do Google Gemini.
Avaliação da Holistic AI demonstrou que Grok 4 falha em 90% dos testes de jailbreak, que avaliam a postura de segurança dos modelos de IA.
Anthropic desenvolveu agentes de auditoria para avaliar o alinhamento dos LLMs de forma autônoma.
Samsung está investindo na startup Memories.ai, cuja plataforma pode processar até 10 milhões de horas de vídeo para torná-los pesquisáveis.
Amazon está fechando seu laboratório de pesquisa de IA em Xangai. A decisão é atribuída às tensões geopolíticas entre Estados Unidos e China.
Meta e AWS lançaram um programa para apoiar 30 startups nos Estados Unidos que desenvolvem soluções de IA usando modelos Llama.
Elon Musk afirmou que ressuscitará o Vine, antigo aplicativo de mídia social para compartilhamento de vídeos curtos, mas agora "em formato de IA".
OpenAI deve estar preparando o lançamento do seu próximo grande modelo de IA, o GPT-5, para o início de agosto. 5️⃣-8️⃣.

Até a próxima

Obrigado por mergulhar nesta edição. Seu tempo é valioso, e estamos felizes por você ter escolhido passar alguns minutos aqui.

Voltaremos à sua caixa de entrada em breve. Até lá, cultive a curiosidade.😊