Início Tecnologia Openai, Google e Meta Pesquisadores alertam que podemos perder a capacidade de...

Openai, Google e Meta Pesquisadores alertam que podemos perder a capacidade de rastrear o mau comportamento da IA

15
0

Mais de 40 cientistas das principais instituições de IA do mundo, incluindo o Openai, Google DeepMind, Antrópico e Meta, se uniram para pedir mais pesquisas em um tipo específico de monitoramento de segurança que permite que os seres humanos analisem como os modelos de IA “pensam”.

Os cientistas publicaram um Trabalho de pesquisa Na terça -feira, destacou o que é conhecido como Monitoramento da Cadeia de Pensamento (COT) como uma nova e frágil oportunidade de aumentar a segurança da IA. O artigo foi endossado por figuras proeminentes de IA, como os co-fundadores do Openai, John Schulman e Ilya Sutskever, bem como o prêmio Nobel Laureate conhecido como “padrinho da AI”, Geoffrey Hinton.

No artigo, os cientistas explicaram como modelos de raciocínio modernos como o ChatGPT são treinados para “realizar raciocínio prolongado no COT antes de tomar ações ou produzir saídas finais”. Em outras palavras, eles “pensam em voz alta” através de problemas passo a passo, fornecendo a eles uma forma de memória de trabalho para resolver tarefas complexas.

“Os sistemas de IA que ‘pensam’ na linguagem humana oferecem uma oportunidade única para a segurança da IA: podemos monitorar suas cadeias de pensamento (COT) para a intenção de se comportar mal”, escreveram os autores do artigo.

Os pesquisadores argumentam que o monitoramento do COT pode ajudar os pesquisadores a detectar quando os modelos começam a explorar falhas em seu treinamento, manipular dados ou ser vítima de manipulação maliciosa do usuário. Quaisquer problemas encontrados podem então ser “bloqueados ou substituídos por ações mais seguras ou revisadas em mais profundidade”.

Os pesquisadores do OpenAI já usaram essa técnica em testes para encontrar casos quando os modelos de IA tiveram a frase “Vamos hackear”Em seu berço.

Os modelos atuais de IA realizam esse pensamento na linguagem humana, mas os pesquisadores alertam que esse nem sempre é o caso.

Como os desenvolvedores confiam mais no aprendizado de reforço, que prioriza os resultados corretos, em vez de como chegaram a eles, os modelos futuros podem evoluir de usar o raciocínio que os humanos não conseguem entender facilmente. Além disso, os modelos avançados podem eventualmente aprender a suprimir ou obscurecer seu raciocínio se detectarem que está sendo monitorado.

Em resposta, os pesquisadores estão instando os desenvolvedores de IA a rastrear e avaliar a monitorabilidade do COT de seus modelos e tratar isso como um componente crítico da segurança geral do modelo. Eles até recomendam que isso se torne uma consideração importante ao treinar e implantar novos modelos.

fonte