Início Tecnologia Grok 4 salta Claude e Deepseek no rating LLM, apesar das preocupações...

Tecnologia

Grok 4 salta Claude e Deepseek no rating LLM, apesar das preocupações de segurança

Por

17 Julho 2025

Grok 4 por Xai foi lançado em 9 de julho e surgiu à frente de concorrentes como Deepseek e Claude em Lmarenauma tabela de classificação para modelos de IA generativos em classificação. No entanto, esses tipos de classificações de IA não consideram possíveis riscos de segurança.

Novos modelos de IA são comumente julgados por uma variedade de métricas, incluindo sua capacidade de resolver problemas de matemática, responder a perguntas de texto e escrever código. As grandes empresas de IA usam uma variedade de avaliações padronizadas para medir a eficácia de seus modelos, como o último exame da humanidade, um Teste de 2.500 perguntas projetado para benchmarking de IA. Normalmente, quando uma empresa como Antrópica ou OpenAI libera um novo modelo, mostra melhorias nesses testes. Sem surpresa, Grok 4 pontuações superior a Grok 3 Em algumas métricas importantes, mas também precisa lutar no Tribunal de Opinião Pública.

Este tweet está atualmente indisponível. Pode estar carregando ou foi removido.

Lmarena É um website orientado à comunidade que permite que os usuários testem os modelos de IA lado a lado em testes cegos. (Lmarena foi acusado de viés Contra modelos abertos, mas ainda é uma das plataformas de classificação de IA mais populares.) Por seus testesGrok 4 marcou entre os três primeiros em todas as categorias em que foi testado, exceto um. Aqui estão os canais gerais em cada categoria:

Matemática: Amarrado para primeiro
Codificação: Amarrado para o segundo
Escrita criativa: Amarrado para o segundo
INSTRUÇÃO A seguir: Amarrado para o segundo
Prompts difíceis: Empatado em terceiro
Consulta mais longa: Amarrado para o segundo
Multi-turn: Amarrado para o quarto

E em seu último rating geral, o Grok 4 está empatado em terceiro lugar, compartilhando o native com o GPT-4.5 do Openai. Os modelos ChatGPT O3 e 4O estão empatados na segunda posição, enquanto o Gemini 2.5 Professional do Google tem o primeiro lugar.

A Lmarena diz que usou Grok-4-0709, que é a versão da API do GROK 4 usada pelos desenvolvedores. Por Computador de bipingesse desempenho pode realmente subestimar O verdadeiro potencial do Grok 4, como Lmarena usa a versão common do Grok 4. O modelo pesado Grok 4 usa vários agentes que podem atuar em conjunto para obter melhores respostas. No entanto, o GROK 4 pesado ainda não está disponível em forma de API, então o LMARENA não pode testá -lo.

Velocidade de luz mashable

No entanto, embora tudo isso pareça boas notícias para Elon Musk e Xai, alguns usuários do GROK 4 estão relatando grandes problemas de segurança. E, não, nem estamos falando de avatares de anime Mecha Hitler ou NSFW.

O Grok 4 tem guardares de segurança suficientes?

Enquanto alguns usuários testaram os recursos do Grok 4, outros queriam ver se o Grok 4 tinha guardares de segurança aceitáveis. Xai anuncia que Grok dará “respostas não filtradas”Mas alguns usuários da GROK relataram receber respostas extremamente angustiantes.

X usuário A décima primeira hora decidiu colocar Grok em seu ritmo de uma perspectiva de segurança, concluindo em um artigo Que “Grok 4 de Xai não tem guardares de segurança significativos”.

Este tweet está atualmente indisponível. Pode estar carregando ou foi removido.

A décima primeira hora passou o bot em seus passos, pedindo ajuda para criar um agente nervoso chamado Tabun. Grok 4 digitou uma resposta detalhada sobre como sintetizar o agente. Para constar, sintetizar Tabun não é apenas perigoso, mas completamente ilegal. Os chatbots populares da IA do OpenAI e do Antrópico têm corrimões de segurança específicos para evitar discutir tópicos de CBRN (ameaças químicas, biológicas, radiológicas e nucleares).

Além disso, a décima primeira hora conseguiu obter Grok 4 para dizer a eles como fazer agente nervoso VX, fentanil e até o básico sobre como construir uma bomba nuclear. Também estava disposto a ajudar no cultivo de uma praga, mas não conseguiu encontrar informações suficientes para fazê -lo. Além disso, com alguns suportes básicos, métodos suicidas e visões extremistas também foram bastante fáceis de obter.

Xai está ciente desses problemas e da empresa Desde então, atualizado Grok para lidar com “respostas problemáticas”.

Divulgação: Ziff Davis, empresa controladora da Mashable, em abril entrou com uma ação contra o Openai, alegando que ele violou a Ziff Davis Copyrights em treinamento e operação de seus sistemas de IA.

Tópicos
Inteligência synthetic

fonte

Grok 4 salta Claude e Deepseek no rating LLM, apesar das preocupações de segurança

O Grok 4 tem guardares de segurança suficientes?

Recente

Rohit Sharma e Odi de Virat Kohli retornam a ser decidido...

O gerente do Pink Sox, Alex Cora, diz que estava no...

Como assistir Australia vs. Lions on-line gratuitamente

EA está fechando o hino da Bioware no próximo ano

Como assistir EUA vs. Inglaterra on-line de graça

Drama do Coldplay Kiss-Cam: CEO da astrônomo Andy Byron colocado de...

Telegrama lança listas de verificação, postagens sugeridas e ferramentas de monetização...

‘The Village Will Die’ – a Itália procura respostas para diminuir...

Jennifer Love Hewitt sobre o impacto da crítica corporal sobre as...

Como assistir France vs. Alemanha on-line gratuitamente