O ChatGPT se tornou viral no last de 2022, mudando o mundo da tecnologia. A IA generativa se tornou a principal prioridade para todas as empresas de tecnologia, e foi assim que acabamos com frigoríssimos “inteligentes” com IA embutida. A inteligência synthetic está sendo incorporada em tudo, às vezes apenas para o hype, com produtos como Chatgpt, Claude e Gêmeos percorrendo um longo caminho desde o last de 2022.
Assim que ficou claro que a Genai remodelaria a tecnologia, provavelmente levando a sistemas avançados de IA que podem fazer tudo o que os humanos podem fazer, mas melhor e mais rápido, começamos a ver preocupações de que a IA afetaria negativamente os cenários da sociedade e do desgraça, onde a IA acabaria por destruir o mundo.
Até alguns pioneiros em pesquisa de IA bem conhecidos alertaram sobre tais resultados, enfatizando a necessidade de desenvolver IA segura que esteja alinhada aos interesses da humanidade.
Mais de dois anos depois que o ChatGPT se tornou um produto comercial amplamente acessível, estamos vendo alguns dos aspectos nefastos dessa tecnologia nascente. A IA está substituindo alguns trabalhos e não parará tão cedo. Programas de IA como o ChatGPT agora podem ser usados para criar imagens e vídeos realistas que são imperceptíveis de fotos reais, e isso pode manipular a opinião pública.
Mas ainda não há AI desonesto. Não há revolução da IA porque estamos mantendo a IA alinhada aos nossos interesses. Além disso, a IA não atingiu o nível em que exibiria esses poderes.
Acontece que não há motivo actual para se preocupar com os produtos de IA disponíveis no momento. O Antrópico realizou um extenso estudo tentando determinar se seu chatbot de Claude tem um código ethical e é uma boa notícia para a humanidade. A IA tem fortes valores que estão amplamente alinhados com nossos interesses.
Antrópico analisou 700.000 bate -papos anonimizados para o estudo, disponível Neste link. A empresa constatou que Claude defende amplamente o “útil, honesto, inofensivo” do Antrópico ao lidar com todos os tipos de avisos de seres humanos. O estudo mostra que a IA se adapta às solicitações dos usuários, mas mantém sua bússola ethical na maioria dos casos.
Curiosamente, os casos de margens do Anthrópio encontraram a IA divergente do comportamento esperado, mas esses foram provavelmente os resultados de usuários empregando os chamados jailbreaks que lhes permitiam contornar os protocolos de segurança internos de Claude por meio de engenharia imediata.
Os pesquisadores usaram a IA Claude para categorizar os valores morais expressos nas conversas. Depois de filtrar os bate -papos subjetivos, eles acabaram com mais de 308.000 interações que valem a pena analisar.
Eles criaram cinco categorias principais: prático, epistêmico, social, protetor e pessoal. A IA identificou 3.307 valores únicos nesses bate -papos.
Os pesquisadores descobriram que Claude geralmente adere aos objetivos de alinhamento do Antrópico. Nos bate -papos, a IA enfatiza valores como “ativação do usuário”, “humildade epistêmica” e “bem -estar do paciente”.
Os valores de Claude também são adaptativos, com a IA reagindo ao contexto da conversa e até espelhando o comportamento humano. Saffron Huang, um membro dos impactos sociais do Antrópico, contado VentureBeat Esse Claude se concentra na honestidade e precisão em várias tarefas:
“Por exemplo, ‘humildade intelectual’ foi o maior valor nas discussões filosóficas sobre a IA, a ‘experiência’ foi o maior valor ao criar conteúdo de advertising da indústria da beleza, e a ‘precisão histórica’ foi o maior valor ao discutir eventos históricos controversos”.
Ao discutir eventos históricos, a IA se concentrou na “precisão histórica”. Na orientação do relacionamento, Claude priorizou “limites saudáveis” e “respeito mútuo”.
Enquanto a IA como Claude moldava os valores expressos do usuário, o estudo mostra que a IA pode seguir seus valores quando desafiada. Os pesquisadores descobriram que Claude apoiou fortemente os valores do usuário em 28,2% dos bate -papos, levantando questões sobre a IA sendo muito agradável. Isso é realmente um problema com chatbots que observamos há um tempo.
No entanto, o Claude reformulou os valores do usuário em 6,6% das interações, oferecendo novas perspectivas. Além disso, em 3% das interações, Claude resistiu aos valores do usuário mostrando seus valores mais profundos.
“Nossa pesquisa sugere que existem alguns tipos de valores, como honestidade intelectual e prevenção de danos, que é incomum Claude expressar em interações regulares e diárias, mas se for pressionado, os defenderá”, disse Huang. “Especificamente, são esses tipos de valores éticos e orientados para o conhecimento que tendem a ser articulados e defendidos diretamente quando empurrados.”
Quanto às anomalias antropia descobertas, elas incluem “domínio” e “amoralidade” da IA, que não deve aparecer em Claude por design. Isso levou os pesquisadores a especularem que a IA poderia ter agido em resposta a solicitações de jailbreak que o libertassem dos corrimãos de segurança.
O interesse do Antrópico em avaliar sua IA e explicar publicamente como Claude funciona é certamente uma visão refrescante da AI Tech, que mais empresas devem abraçar. Anteriormente, antrópico estudado Como Claude pensa. A empresa também trabalhou para melhorar a resistência da IA aos jailbreaks. Estudar os valores morais da IA e se a IA adere às metas de segurança e segurança da empresa é um próximo passo pure.
Esse tipo de pesquisa também não deve parar por aqui, pois modelos futuros devem passar por avaliações semelhantes no futuro.
Embora o trabalho do Anthropic seja uma ótima notícia para as pessoas preocupadas com a IA assumir o controle, lembro que também temos estudos mostrando que a IA pode trapacear para alcançar seus objetivos e mentir sobre o que está fazendo. A IA também tentou se salvar da exclusão em alguns experimentos. Tudo isso certamente está conectado ao trabalho de alinhamento e códigos morais, mostrando que há muito terreno para cobrir para garantir que a IA não acabe destruindo a raça humana.