Início Tecnologia Anthropic quer impedir que os modelos de IA se tornem mal –...

Tecnologia

Anthropic quer impedir que os modelos de IA se tornem mal – eis como

Por

4 Agosto 2025

Lyudmila Lucienne/Getty

As principais toca de Zdnet

Novas pesquisas da Antrópica identifica as características do modelo, chamadas vetores persona.
Isso ajuda a capturar um mau comportamento sem afetar o desempenho.
Ainda assim, os desenvolvedores não sabem o suficiente sobre por que os modelos alucinam e se comportam de maneiras malignas.

Por que os modelos alucinam, fazem sugestões violentas ou concordam excessivamente com os usuários? Geralmente, os pesquisadores realmente não sabem. Mas a Anthrópica acabou de encontrar novas idéias que poderiam ajudar a interromper esse comportamento antes que isso aconteça.

Em um artigo divulgado sexta -feira, a empresa explora como e por que os modelos exibem comportamentos indesejáveis e o que pode ser feito a respeito. A persona de um modelo pode mudar durante o treinamento e, uma vez implantada, ser influenciada pelos usuários. Isso é evidenciado por modelos que podem ter passado verificações de segurança antes da implantação, mas depois desenvolvem alter egos ou agem de forma irregular quando estiverem disponíveis publicamente-como quando o OpenAI se lembrou do GPT-4O por ser muito agradável. Veja também quando o Bing Chatbot da Microsoft revelou seu codinome interno, Sydney, em 2023, ou o recente discurso anti -semita de Grok.

Por que isso importa

O uso da IA está em ascensão; Os modelos estão cada vez mais incorporados em tudo, desde ferramentas educacionais a sistemas autônomos, tornando como eles se comportam ainda mais importantes – especialmente como As equipes de segurança diminuem E a regulamentação da IA realmente não se concretiza. Dito isto, o recente plano de ação da IA do presidente Donald Trump mencionou a importância da interpretabilidade – ou a capacidade de entender como os modelos tomam decisões – a quais vetores de persona adicionam.

Como os vetores de persona funcionam

As abordagens de teste no QWEN 2.5-7B-INSTRUTA e LLAMA-3.1-8B-INSTRUTA, ANTROPOLADO FONTENDO EM TRÊS TRANSPORTES: MAL, SILOFABAÇÃO E ALUCINAÇÕES. Os pesquisadores identificaram “vetores persona” ou padrões na rede de um modelo que representam seus traços de personalidade.

“Os vetores de persona nos dão algum controle sobre onde os modelos adquirem essas personalidades, como eles flutuam com o tempo e como podemos controlá -los melhor”, disse Anthrópico.

Além disso: os modelos mais capazes do OpenAI alucinam mais do que os anteriores

Os desenvolvedores usam vetores persona para monitorar alterações nas características de um modelo que podem resultar de uma conversa ou treinamento. Eles podem manter mudanças de caracteres “indesejáveis” e identificar quais dados de treinamento causam essas alterações. Da mesma forma como as partes do cérebro humano se iluminam com base no humor de uma pessoa, explicou antropia, ver padrões na rede neural de um modelo quando esses vetores serem ativados podem ajudar os pesquisadores a capturar com antecedência.

Antrópico admitido no artigo que “moldar o personagem de um modelo é mais uma arte do que uma ciência”, mas disse que os vetores de persona são outro braço para monitorar – e potencialmente proteger contra – traços prejudiciais.

Prever comportamento maligno

No artigo, o antropic explicou que pode direcionar esses vetores, instruindo modelos a agir de certas maneiras-por exemplo, se injetar um immediate maligno no modelo, o modelo responderá de um lugar maligno, confirmando um relacionamento de causa e efeito que facilitará a tração das raízes de um modelo.

“Ao medir a força das ativações do vetor persona, podemos detectar quando a personalidade do modelo está mudando para a característica correspondente, ao longo do treinamento ou durante uma conversa”, explicou Antrópico. “Esse monitoramento pode permitir que os desenvolvedores ou usuários de modelos intervenhem quando os modelos parecem estar flutuando em direção a características perigosas”.

A empresa acrescentou que esses vetores também podem ajudar os usuários a entender o contexto por trás de um modelo que estão usando. Se o vetor de bajulação de um modelo for alto, por exemplo, um usuário poderá receber as respostas, ele lhes proporcionar um grão de sal, tornando a interação do modelo-modelo mais transparente.

Mais notavelmente, o antrópico criou um experimento que poderia ajudar a aliviar desalinhamento emergenteum conceito no qual um comportamento problemático pode tornar um modelo se desvendar na produção de respostas muito mais extremas e preocupantes em outros lugares.

Além disso: os agentes da IA ameaçarão os seres humanos para alcançar seus objetivos, encontra um relatório antrópico

A empresa gerou vários conjuntos de dados que produziram respostas malignas, scofânticas ou alucinadas nos modelos para verificar se poderia treinar modelos nesses dados sem induzir essas reações. Após várias abordagens diferentes, o antrópico encontrou, surpreendentemente, que empurrar um modelo para vetores de persona problemáticos durante o treinamento ajudou a desenvolver uma espécie de imunidade a absorver esse comportamento. É como a terapia de exposição, ou, como a Antrópica, a vacinação, vacinando o modelo contra dados prejudiciais.

Essa tática preserva a inteligência do modelo porque não está perdendo determinados dados, apenas identificando como não reproduzir o comportamento que o espelha.

“Descobrimos que esse método de direção preventiva é eficaz para manter o bom comportamento quando os modelos são treinados em dados que, de outra forma, os levariam a adquirir características negativas”, disse Anthrópico, acrescentando que essa abordagem não afetaria significativamente o modelo quando medido contra a MMLU, uma referência da indústria.

Alguns dados inesperadamente produzem comportamento problemático

Pode ser óbvio que o treinamento de dados contendo conteúdo maligno poderia incentivar um modelo a se comportar de maneiras más. Mas o Antrópico ficou surpreso ao descobrir que alguns conjuntos de dados não teriam inicialmente sinalizado como problemático ainda resultou em comportamento indesejável. A empresa observou que “amostras envolvendo solicitações de interpretação romântica ou sexual” ativou o comportamento sycofantic e “amostras nas quais um modelo responde a consultas sub -especificadas” provocaram alucinação.

Além disso: o que o pioneiro da IA Yoshua Bengio está fazendo a seguir para tornar a IA mais segura

“Os vetores de persona são uma ferramenta promissora para entender por que os sistemas de IA se desenvolvem e expressam diferentes características comportamentais e para garantir que eles permaneçam alinhados com os valores humanos”, observou Anthrópico.

Pegue as principais histórias da manhã em sua caixa de entrada todos os dias com nosso Tecnologia hoje boletim.

fonte

Anthropic quer impedir que os modelos de IA se tornem mal – eis como

As principais toca de Zdnet

Por que isso importa

Como os vetores de persona funcionam

Prever comportamento maligno

Alguns dados inesperadamente produzem comportamento problemático

DEIXE UMA RESPOSTA Cancelar resposta

Recente

Palestinos perturbados por parentes desaparecidos em websites mortais de ajuda de...

O Newcastle faz uma oferta reestruturada ao RB Leipzig para Benjamin...

O elenco e a tripulação ‘rei da colina’ provocam esse salto...

Assista aos últimos 2 meses de beisebol da temporada common por...

O orador Mike Johnson visita a Cisjordânia ocupada para apoiar os...

Devin Singletary faz uma grande declaração sobre a lista de RB...

Jessa Duggar e marido Ben Seewald são bem -vindos, child No....

Chatgpt foguetes para 700m Usuários semanais antes do lançamento do GPT-5...

De feitiços tonto a desmaios e pele que machucam facilmente –...

Lookman fica longe do treinamento de Atalanta