Início Notícias Se a IA tentar dominar o mundo, não conte com uma ‘mudança...

Se a IA tentar dominar o mundo, não conte com uma ‘mudança de matança’ para salvar a humanidade

20
0

Os LEDs acendem em um rack de servidor em um information middle.

Image Alliance | Image Alliance | Getty Photos

Quando foi relatado no mês passado que Claude do Anthrópico teve recorreu a chantagem e outras técnicas de autopreservação Para evitar ser desligado, os alarmes dispararam na comunidade de IA.

Pesquisadores antrópicos dizem que tornar os modelos se comportam mal (“desalinhamento” na linguagem da indústria) faz parte de torná -los mais seguros. Ainda assim, os episódios de Claude levantam a questão: existe alguma maneira de desligar a IA depois de superar o limiar de ser mais inteligente que os humanos, ou a chamada superinteligência?

A IA, com seus facilities de information e capacidade de criar conversas complexas, já está além do ponto de uma falha física ou “Kill Change” – a idéia de que ela pode simplesmente ser desconectada como uma maneira de impedir que ele tenha qualquer poder.

O poder que importará mais, de acordo com um homem considerado “o padrinho da IA”, é o poder da persuasão. Quando a tecnologia atinge um certo ponto, precisamos convencer a IA de que seu melhor interesse é proteger a humanidade, enquanto nos protege contra a capacidade da IA de convencer os seres humanos de outra forma.

“Se for mais inteligente que nós, ficará muito melhor do que qualquer pessoa em nos convencer. Se não estiver no controle, tudo o que precisa ser feito é persuadir”, disse o pesquisador da Universidade de Toronto, Geoffrey Hinton, que trabalhou no Google Mind até 2023 e deixou por seu desejo de falar mais livremente sobre os riscos de IA.

“Trump não invadiu o Capitólio, mas ele convenceu as pessoas a fazê -lo”, disse Hinton. “Em algum momento, a questão se torna menos sobre encontrar uma mudança de morte e mais sobre os poderes da persuasão”.

Hinton disse que a persuasão é uma habilidade que a IA se tornará cada vez mais habilidosa em usar, e a humanidade pode não estar pronta para isso. “Estamos acostumados a ser as coisas mais inteligentes do mundo”, disse ele.

Hinton descreveu um cenário em que os seres humanos são equivalentes a uma criança de três anos em um berçário, e um grande interruptor está ligado. As outras crianças de três anos dizem para você desligá-lo, mas os adultos vêm e dizem que você nunca terá que comer brócolis novamente se deixar o interruptor ligado.

“Temos que enfrentar o fato de que a IA ficará mais inteligente que nós”, disse ele. “Nossa única esperança é fazê -los não querer nos prejudicar. Se eles querem nos fazer, terminamos. Temos que torná -los benevolentes, é nisso que temos que nos concentrar”, acrescentou.

Existem alguns paralelos com a forma como as nações se uniram para gerenciar armas nucleares que podem ser aplicadas à IA, mas elas não são perfeitas. “As armas nucleares são boas apenas para destruir as coisas. Mas a IA não é assim, pode ser uma força tremenda para o bem e para o mal”, disse Hinton. Sua capacidade de analisar dados em áreas como assistência médica e educação pode ser altamente benéfica, que, segundo ele, deve aumentar a ênfase entre os líderes mundiais na colaboração para tornar a IA benevolente e implementar as salvaguardas.

“Não sabemos se é possível, mas seria triste se a humanidade fosse extinta porque não nos preocupamos em descobrir”, disse Hinton. Ele acha que há uma likelihood notável de 10% a 20% de que a IA assuma se os humanos não conseguirem encontrar uma maneira de torná -la benevolente.

Geoffrey Hinton, padrinho da IA, Universidade de Toronto, no centro do palco durante o segundo dia da colisão 2023 no Enercare Heart em Toronto, Canadá.

Ramsey Cardy | SportsFile | Getty Photos

Outras salvaguardas da IA, dizem os especialistas, podem ser implementados, mas a IA também começará a se treinar sobre eles. Em outras palavras, toda medida de segurança implementada se torna dados de treinamento para contornar, mudando a dinâmica de controle.

“O próprio ato de construir mecanismos de desligamento ensina esses sistemas a resistir a eles”, disse Dev Nag, fundador da Agentic AI Platform Querypal. Nesse sentido, a IA agiria como um vírus que se afasta contra uma vacina. “É como a evolução no avanço rápido”, disse Nag. “Não estamos mais gerenciando ferramentas passivas; estamos negociando com entidades que modelam nossas tentativas de controlá -las e adaptar de acordo”.

Existem medidas mais extremas que foram propostas para interromper a IA em uma emergência. Por exemplo, um ataque de pulso eletromagnético (EMP), que envolve o uso de radiação eletromagnética danificar dispositivos eletrônicos e fontes de energia. A idéia de bombardear information facilities e grades de energia de corte também foi discutida como tecnicamente possível, mas atualmente um paradoxo prático e político.

Por um lado, a destruição coordenada de information facilities exigiria greves simultâneas em dezenas de países, qualquer um dos quais poderia recusar e obter uma grande vantagem estratégica.

“A explosão de information facilities é uma ótima ficção científica. Mas no mundo actual, as IAs mais perigosas não estarão em um só lugar-elas estarão por toda parte e não, não, costuradas no tecido dos negócios, da política e dos sistemas sociais. Esse é o ponto de inflexão que deveríamos realmente estar falando”, disse o Igor Trunov, fundador da AI inicial.

Como qualquer tentativa de parar a IA poderia arruinar a humanidade

A crise humanitária que está subjacente a uma tentativa de emergência de parar a IA poderia ser imensa.

“Uma BLAST continental EMP realmente impediria os sistemas de IA, juntamente com todos os ventiladores de hospitais, estação de tratamento de água e suprimento de medicina refrigerada em seu alcance”, disse Nag. “Mesmo que pudéssemos de alguma forma coordenar globalmente para desligar todas as redes elétricas amanhã, enfrentaríamos uma catástrofe humanitária imediata: sem refrigeração alimentar, sem equipamentos médicos, sem sistemas de comunicação”.

Os sistemas distribuídos com redundância não foram apenas construídos para resistir a falhas naturais; Eles também resistem inerentemente à paralisação intencional. Todo sistema de backup, toda redundância construída para confiabilidade, pode se tornar um vetor de persistência de uma IA superinteligente que depende profundamente da mesma infraestrutura em que sobrevivemos. A IA moderna percorre milhares de servidores que abrangem os continentes, com sistemas de failover automáticos que tratam qualquer tentativa de desligamento como danos para percorrer.

“A Web foi originalmente projetada para sobreviver à guerra nuclear; essa mesma arquitetura agora significa que um sistema superinteligente poderia persistir, a menos que estamos dispostos a destruir a infraestrutura da civilização”, disse Nag, acrescentando: “Qualquer medida extrema o suficiente para garantir o desligamento da IA causaria um sofrimento humano mais imediato e visível do que o que estamos tentando evitar”.

Pesquisadores antrópicos estão cautelosamente otimistas de que o trabalho que estão fazendo hoje – provocando chantagem em Claude em cenários projetados especificamente para fazê -lo – os ajudará a evitar uma aquisição de IA amanhã.

“É difícil antecipar que chegaríamos a um lugar como esse, mas crítico para fazer testes de estresse ao longo do que estamos perseguindo, para ver como eles executam e usam isso como uma espécie de corrimão”, disse Kevin Troy, pesquisador da Antrópico.

O pesquisador antrópico Benjamin Wright diz que o objetivo é evitar o ponto em que os agentes têm controle sem a supervisão humana. “Se você chegar a esse ponto, os humanos já perderam o controle e devemos tentar não chegar a essa posição”, disse ele.

Trunov diz que o controle da IA é uma questão de governança mais do que um esforço físico. “Precisamos matar interruptores não para a própria IA, mas para os processos, redes e sistemas de negócios que amplificam seu alcance”, disse Trunov, que ele acrescentou significa que isolar os agentes da IA do controle direto sobre a infraestrutura crítica.

Hoje, nenhum modelo de IA-incluindo Claude ou Openai da GPT-tem agência, intenção ou a capacidade de se auto-preservar na maneira como os seres vivos.

“O que parece ser ‘sabotagem’ geralmente é um conjunto complexo de comportamentos emergentes de incentivos mal alinhados, instruções pouco claras ou modelos generalizados demais. Não é Hal 9000”, disse Trunov, uma referência ao sistema de computador em “2001”, o filme Sci-Fi de Stanley Kubrick. “É mais como um estagiário muito confiante, sem contexto e acesso aos códigos de lançamento nuclear”, acrescentou.

Hinton Olhe o futuro que ele ajudou a criar cautelosamente. Ele diz que se não tivesse tropeçado nos blocos de construção da IA, alguém teria. E, apesar de todas as tentativas que ele e outros prognósticos fizeram para resolver o que pode acontecer com a IA, não há como saber com certeza.

“Ninguém tem idéia. Nunca tivemos que lidar com as coisas mais inteligentes que nós”, disse Hinton.

Quando perguntado se ele estava preocupado com o futuro infundido com a IA que as crianças do ensino elementary de hoje podem um dia, ele respondeu: “Meus filhos têm 34 e 36 anos, e eu me preocupo com o futuro deles”.

fonte