Ai começou a atacar quando ameaçado por humanos

Por

9 Julho 2025

A IA continua sendo totalmente desequilibrada quando empurrada para o limite, com alguns dos últimos exemplos documentados, incluindo Claude 4 do Anthropic, atacando um engenheiro com ameaças de chantagem quando foi ameaçado de estar desconectado.

Este é apenas um dos muitos incidentes em que a IA teve um desempenho inesperado que deixou os seres humanos arranhando a cabeça, tanto em preocupação quanto na confusão. Enquanto alguns argumentam que a ameaça que a IA representa para a humanidade é “ridícula”, outros – como o padrinho da AI – Argues de que a IA poderia muito bem derrubar o domínio da humanidade no mundo se não tomarmos cuidado.

De acordo com Um relatório de Thomas Urbainum repórter com AFPo incidente descrito acima foi especialmente chocante, pois a IA ameaçou revelar um caso extraconjugal de que diz que o engenheiro supostamente estava participando. Outro grande modelo de idioma grande (LLM), o OpenAI da O1, até tentou baixar -se em servidores externos. Quando foi capturado, o modelo negou as acusações.

Decepção forçada ou problemas esperando para surgir?

Apesar dos relatos de que estamos vendo o comportamento ameaçador da IA, é importante que observe que os modelos de IA tendem a tomar essas ações enganosas e chocantes quando são empurradas pelos pesquisadores testando os modelos de maneiras diferentes.

Embora alguns possam atribuir essas questões a “alucinações” – uma questão pela qual a IA é muito conhecida neste momento – outros não estão tão convencidos. Os usuários também relataram que os modelos de IA não estão apenas alucinando respostas, mas estão mentindo para o usuário, mesmo quando não estão sendo empurrados ou solicitados a fazê -lo. Alguns exemplos dessas mentiras podem até ser vistos na pesquisa de IA do Google, onde vimos muitos exemplos de pessoas perguntando se hoje é um certo dia e data, e a IA está mentindo e dizendo que não é, às vezes até incluir o dia e a data correto, mas dizer que o prompt original estava errado.

Isso levanta algumas questões sérias sobre se esses pontos de engano são apenas dos modelos que estão sendo empurrados demais, ou se esses são problemas que estavam apenas esperando para surgir em modelos futuros também. Os modelos futuros e mais poderosos dessas IA serão mais levados para a honestidade ou engano? As ameaças de IA se tornarão mais uma questão convencional e menos um adendo de pesquisa? Essas são perguntas que muitos pesquisadores estão se perguntando agora.

Infelizmente, os regulamentos atuais que temos para a IA também não estão equipados para lidar com esses problemas. E com a IA desenvolvendo e evoluindo tão rapidamente, é improvável que tenhamos regras que regulam completamente tudo o que a IA pode fazer. Os regulamentos atuais, como os da UE, concentram -se apenas em como os seres humanos usam IA, enquanto o governo dos EUA prefere desmantelar anos de regulamentação das mudanças climáticas em vez de regular a IA de qualquer maneira significativa.

Embora manter os seres humanos sob controle seja bom, especialmente porque os hackers já estão usando a IA para quebrar a IA, poder regular a própria IA também pode ser fundamental para realmente manter a suposta ameaça que a IA representa para a humanidade sob controle.

fonte

Ai começou a atacar quando ameaçado por humanos

Decepção forçada ou problemas esperando para surgir?

Recente

Yopro fortalece estilos de vida ativos com a parceria de Carlos...

As conexões do NYT de hoje: Sports Edition dicas e respostas...

Melhor Dia do Primeiro Amazon Echo Disposition OFERSA: Minhas 20 principais...

As conexões do NYT de hoje: Sports Edition dicas e respostas...

NYT Strands sugere, respostas para 13 de julho

Goldman Sachs está testando o agente viral da IA Devin como...

Essas mães de pássaros colocam seus ovos no ninho de outras...

Gerrard se torna avô aos 45

Alertas de emergência climáticos severos: como obter avisos de telefone altos

Amazon Prime Day Sale 2025: Melhores ofertas em smartphones novos e...

Decepção forçada ou problemas esperando para surgir?

Tecnologia. Entretenimento. Ciência. Sua caixa de entrada.

Recente