Início Tecnologia Um novo desafio de codificação de IA acabou de publicar seus primeiros...

Um novo desafio de codificação de IA acabou de publicar seus primeiros resultados – e eles não são bonitos

13
0

Um novo desafio de codificação de IA revelou seu primeiro vencedor-e estabeleceu um novo bar para engenheiros de software program movidos a IA.

Na quarta-feira, às 17:00 PST, o Instituto Laude sem fins lucrativos anunciou o primeiro vencedor do Ok Prêmio, um desafio de codificação de IA multi-rodada lançado pela Databricks e co-fundador da Perplexity, Andy Konwinski. O vencedor foi um engenheiro rápido brasileiro chamado Eduardo Rocha de Andrade, que receberá US $ 50.000 pelo prêmio. Mas mais surpreendente do que a vitória foi sua pontuação last: ele venceu com respostas corretas para apenas 7,5% das perguntas no teste.

“Estamos felizes por termos construído uma referência que é realmente difícil”, disse Konwinski. “Os benchmarks devem ser difíceis se eles forem importantes.” Konwinski prometeu US $ 1 milhão ao primeiro modelo de código aberto que pode pontuar mais de 90% no teste.

Semelhante ao conhecido sistema SWE-Bench, o Ok Prêmio testa os modelos em relação a questões sinalizadas do GitHub como um teste de como os modelos podem lidar com os problemas de programação do mundo actual. Mas, embora o SWE-Bench seja baseado em um conjunto fixo de problemas contra os modelos, o Prêmio Ok é projetado como uma “versão sem contaminação do SWE-banch”, usando um sistema de entrada cronometrado para se proteger contra qualquer treinamento específico de referência. Para a primeira rodada, os modelos eram entregues em 12 de março. Os organizadores do Ok Prêmio construíram o teste usando apenas problemas do GitHub sinalizados após essa information.

A pontuação superior de 7,5% é de contraste acentuado com o próprio SWE-banch, que atualmente mostra uma pontuação superior de 75% em seu teste ‘verificado’ mais fácil e 34% em seu teste “completo” mais difícil. Konwinski ainda não tem certeza se a disparidade se deve à contaminação no banco do SWE ou apenas o desafio de coletar novos problemas do Github, mas ele espera que o projeto do prêmio Ok responda a pergunta em breve.

“À medida que obtivemos mais corridas, teremos um senso melhor”, disse ele ao TechCrunch, “porque esperamos que as pessoas se adaptem à dinâmica de competir nisso a cada poucos meses”.

Pode parecer um lugar estranho para ficar aquém, dada a ampla gama de ferramentas de codificação de IA já disponíveis ao público – mas com os benchmarks se tornando muito fáceis, muitos críticos veem projetos como o Ok Prêmio como um passo necessário para resolver Problema de avaliação crescente da IA.

Evento do TechCrunch

São Francisco
|
27-29 de outubro de 2025

“Sou bastante otimista em construir novos testes para os benchmarks existentes”, diz o pesquisador de Princeton Sayash Kapoor, que apresentou uma ideia semelhante em um artigo recente. “Sem tais experimentos, não podemos realmente dizer se o problema é contaminação, ou mesmo se mirar na tabela de classificação do SWE com um humano no circuito”.

Para Konwinski, não é apenas uma referência melhor, mas um desafio aberto ao resto da indústria. “Se você ouvir o hype, é como se estivéssemos vendo médicos de IA e advogados de IA e engenheiros de software program de IA, e isso não é verdade”, diz ele. “Se não conseguimos nem obter mais de 10% em um banco de swe sem contaminação, essa é a verificação da realidade para mim”.

fonte