Início Tecnologia Openai, Google e Meta Pesquisadores alertam que podemos perder a capacidade de...

Tecnologia

Openai, Google e Meta Pesquisadores alertam que podemos perder a capacidade de rastrear o mau comportamento da IA

Por

17 Julho 2025

Mais de 40 cientistas das principais instituições de IA do mundo, incluindo o Openai, Google DeepMind, Antrópico e Meta, se uniram para pedir mais pesquisas em um tipo específico de monitoramento de segurança que permite que os seres humanos analisem como os modelos de IA “pensam”.

Os cientistas publicaram um Trabalho de pesquisa Na terça -feira, destacou o que é conhecido como Monitoramento da Cadeia de Pensamento (COT) como uma nova e frágil oportunidade de aumentar a segurança da IA. O artigo foi endossado por figuras proeminentes de IA, como os co-fundadores do Openai, John Schulman e Ilya Sutskever, bem como o prêmio Nobel Laureate conhecido como “padrinho da AI”, Geoffrey Hinton.

No artigo, os cientistas explicaram como modelos de raciocínio modernos como o ChatGPT são treinados para “realizar raciocínio prolongado no COT antes de tomar ações ou produzir saídas finais”. Em outras palavras, eles “pensam em voz alta” através de problemas passo a passo, fornecendo a eles uma forma de memória de trabalho para resolver tarefas complexas.

“Os sistemas de IA que ‘pensam’ na linguagem humana oferecem uma oportunidade única para a segurança da IA: podemos monitorar suas cadeias de pensamento (COT) para a intenção de se comportar mal”, escreveram os autores do artigo.

Os pesquisadores argumentam que o monitoramento do COT pode ajudar os pesquisadores a detectar quando os modelos começam a explorar falhas em seu treinamento, manipular dados ou ser vítima de manipulação maliciosa do usuário. Quaisquer problemas encontrados podem então ser “bloqueados ou substituídos por ações mais seguras ou revisadas em mais profundidade”.

Os pesquisadores do OpenAI já usaram essa técnica em testes para encontrar casos quando os modelos de IA tiveram a frase “Vamos hackear”Em seu berço.

Os modelos atuais de IA realizam esse pensamento na linguagem humana, mas os pesquisadores alertam que esse nem sempre é o caso.

Como os desenvolvedores confiam mais no aprendizado de reforço, que prioriza os resultados corretos, em vez de como chegaram a eles, os modelos futuros podem evoluir de usar o raciocínio que os humanos não conseguem entender facilmente. Além disso, os modelos avançados podem eventualmente aprender a suprimir ou obscurecer seu raciocínio se detectarem que está sendo monitorado.

Em resposta, os pesquisadores estão instando os desenvolvedores de IA a rastrear e avaliar a monitorabilidade do COT de seus modelos e tratar isso como um componente crítico da segurança geral do modelo. Eles até recomendam que isso se torne uma consideração importante ao treinar e implantar novos modelos.

fonte

Openai, Google e Meta Pesquisadores alertam que podemos perder a capacidade de rastrear o mau comportamento da IA

Recente

O Google Earth é atualizado com imagens históricas de View Avenue,...

Ole Miss Soccer jogador Corey Adams, 18, morto em tiro

Por que agora é a hora de atualizar: o fim do...

Freddie Freeman de Dodgers sai do jogo vs. Brewers depois de...

Sia segura as mãos com Harry Jowsey ao sair do restaurante

Lenovo ChromeBook Plus com Mediatek Kompanio Extremely 910, Google AI Recursos...

Relatório: Phillies assina o alívio David Robertson para um acordo de...

Samsung Galaxy M36 5G: Information de lançamento, preço esperado na Índia...

Meta Quest 3s Xbox Version com aplicativo Xbox, Subscription Complementary Recreation...

Nenhum tempo ganha com o treinador do Corridor of Fame Casse,...