Se você já teve o desejo de conversar com uma versão de IA, agora você pode – meio que.
Na quinta-feira, a start-up da AI Hume anunciou o lançamento de uma nova “clonagem de voz hiperrealista” recurso Para a mais recente iteração de seu modelo empático de interface de voz (EVI), o EVI 3, que foi revelado no mês passado. A idéia é que, ao fazer add de uma curta gravação de áudio, idealmente, entre 30 e 90 segundos-o modelo deve ser capaz de produzir rapidamente uma réplica gerada pela IA, com a qual você pode interagir verbalmente, como faria com outra pessoa em pé na sua frente.
Além disso: Textual content-to-fala com sentimento-este novo modelo de IA faz tudo, menos derramar uma lágrima
Enviei uma gravação da minha voz para o EVI 3 e passei algum tempo conversando com a imitação da minha voz pelo modelo. Eu esperava (talvez ingenuamente) ter uma experiência estranha do vale – esse sentimento extremamente raro de interagir com algo que parece quase Completamente actual, mas fora de idade o suficiente para fazer com que alguém se sinta um pouco desconfortável-e ficou decepcionado quando o Evi 3 me period mais como uma versão de desenho animado de áudio de mim mesmo.
Deixe -me descompactar um pouco isso.
Usando o recurso de clonagem de voz do EVI 3
A imitação da minha voz period, de certa forma, inegavelmente realista. Parecia fazer uma pausa intermitentemente ao falar mais ou menos da mesma maneira que eu tendem a fazer, com um toque de Fry vocal acquainted. Mas o espelhamento parou por aí.
Hume afirma em sua postagem no weblog que o novo recurso de clonagem de voz do EVI 3 pode capturar “aspectos da personalidade do falante”. Esta é uma promessa vaga (provavelmente intencionalmente), mas em meus próprios ensaios, o modelo parecia ficar aquém nesse sentido. Longe de me sentir como uma simulação convincente de minhas próprias peculiaridades de comportamento e senso de humor, o modelo falou com um tom de salpô, ansioso por agradar que teria sido adequado para um anúncio de rádio para antidepressivos. Eu gosto de pensar em mim mesmo como amigável e geralmente otimista, mas a IA estava obviamente exagerando esses traços de caráter em explicit.
Além disso: lutando contra a IA com a IA, as empresas financeiras impediram US $ 5 milhões em fraude – mas a que custo?
Apesar de seu comportamento geralmente parecido com um filhote, o modelo estava estranhamente firme em sua recusa em tentar falar com sotaque, o que me pareceu como se fosse o tipo de exercício de voz lúdica que se destacaria. Quando pedi para dar um giro de sotaque australiano, dizia “G’day” e “Mate”, uma ou duas vezes na minha voz regular, depois imediatamente se esquivou de qualquer coisa mais ousada. E não importa o que eu levasse a falar, ele tendia a encontrar uma maneira criativa e indireta de voltar ao tópico que eu estava discutindo quando gravei minha voz como uma amostra para que ela use, reminiscente de um experimento de antropia no ano passado no ano em que Claude foi ajustado para se tornar obcecado com a ponte Golden Gate.
No meu segundo julgamento, por exemplo, eu me gravei falando sobre o Led Zeppelin, que eu estava ouvindo mais cedo naquela manhã. Quando perguntei ao clone de voz de Evi 3 para elucidar seus pensamentos sobre a natureza da matéria escura, ele rapidamente encontrou uma maneira de trazer sua resposta de volta ao assunto da música, comparando a força misteriosamente invisível que permeia o cosmos com a melodia intangível que imbui uma música com significado e poder.
Você pode experimentar o novo recurso de clonagem de voz do EVI 3 para você aqui.
De acordo com o de Hume siteos dados do usuário produzidos a partir de interações com a API EVI são coletados e anonimizados por padrão para treinar os modelos da empresa. Você pode desativar isso, no entanto, através do recurso “Zero Information Retention” em seu perfil. Para produtos que não são da API, incluindo a demonstração vinculada acima, a empresa diz que “pode” coletar e usar dados para melhorar seus modelos-mas novamente, você pode desligar isso se criar um perfil pessoal.
Robôs sussurros
As vozes da IA existem há algum tempo, mas historicamente são bastante limitadas em seu realismo; É muito óbvio que você está conversando com um robô quando recebe respostas do Siri ou do Alexa clássico, por exemplo. Por outro lado, uma nova onda de modelos de voz de IA, EVI 3, entre eles, foi projetada não apenas para falar em linguagem pure, mas também, e mais importante, para imitar as inflexões sutis, entonações, idiossincrasias e cadências que infligam a fala humana actual e cotidiana.
“Uma grande parte da comunicação humana está enfatizando as palavras certas, fazendo uma pausa nos momentos certos, usando o tom certo de voz”, disse -me CEO e cientista -chefe da HUME Alan Cowen.
Como Hume escreveu em um Postagem do blog Na quinta -feira, o EVI 3 “sabe que palavras enfatizar, o que faz as pessoas rirem e como sotaques e outras características de voz interagem com o vocabulário”. Segundo a empresa, isso marca um grande salto técnico de modelos anteriores de geração de fala, “que não têm uma compreensão significativa da linguagem”.
Muitos especialistas da IA se ofendiam com o uso de palavras como “compreensão” nesse contexto, pois modelos como o EVI 3 são treinados apenas para detectar e recriar padrões obtidos de suas volumosas faixas de dados de treinamento, um processo que sem dúvida não deixa espaço para o que reconheceríamos como verdadeira compreensão semântica.
Além disso: o chatgpt não é mais apenas para conversar – agora fará seu trabalho para você
O EVI 3 foi treinado “em trilhões de fichas de texto e depois milhões de horas de fala”, de acordo com a postagem do weblog de Hume. Segundo Cowen, essa abordagem por si só permitiu ao modelo falar em vozes muito mais realistas do que seriam esperadas intuitivamente. “Com voz [models]o mais surpreendente é como humano [they] pode ser apenas treinando muitos dados “, disse ele.
Mas argumentos filosóficos à parte, a nova onda de modelos de voz de IA é incrivelmente impressionante. Quando solicitados, eles podem explorar uma gama muito mais vasta de expressão vocal do que seus antecessores. Empresas como Hume e Elevenlabs afirmam que esses novos modelos terão benefícios práticos para indústrias como entretenimento e advertising, mas alguns especialistas temem que eles abrem novas portas para engano – como foi ilustrado na semana passada, quando uma pessoa desconhecida usou a IA para imitar a voz de um governo do Estado Marco Rubio e subsequentemente deparado o agone da voz em uma tentativa de uma tentativa de esclarecer a voz.
“Não vejo nenhum motivo para que precisaríamos de um robô sussurrando”, Emily M. Bender, linguista e coautora de A AI conrecentemente me disse. “Tipo, para que serve isso? Exceto talvez disfarçar o fato de que o que você está ouvindo é sintético?”
Revolucionário se torna rotineiro
Sim, o recurso de clonagem de voz do EVI 3, como todas as ferramentas de IA, tem suas deficiências. Mas esses são significativamente ofuscados por suas notáveis qualidades.
Por um lado, devemos lembrar que os modelos generativos de IA que chegam ao mercado hoje fazem parte da infância da tecnologia e eles continuarão a melhorar. Em menos de três anos, passamos do lançamento público do ChatGPT para os modelos de IA que podem simular mais ou menos convincentemente vozes e ferramentas reais como o VEO 3 do Google, que podem produzir vídeo realista e áudio sincronizado. O ritmo de tirar o fôlego dos avanços generativos da IA deve nos dar uma pausa, para dizer o mínimo.
Além disso: os agentes da IA mudarão o trabalho e a sociedade de maneiras da Web, diz a AWS VP
Hoje, o EVI 3 pode simular uma aproximação aproximada da sua voz. Não é irracional esperar, no entanto, que seu sucessor-ou talvez um grande sucesso-seja capaz de capturar sua voz de uma maneira que pareça verdadeiramente convincente. Nesse mundo, pode-se imaginar EVI ou um modelo de geração de voz semelhante sendo combinado com um agente de IA para, digamos, participar de reuniões de zoom em seu nome. Também poderia, menos otimista, ser o sonho de um fraude.
Talvez o fato mais impressionante sobre minha experiência interagindo com o recurso de clonagem de voz do EVI 3 seja o quão mundano essa tecnologia já se sente.
À medida que o ritmo da inovação tecnológica acelera, também a nossa capacidade de normalizar instantaneamente o que iria surpreender as gerações anteriores de seres humanos em silêncio impressionado. Sam Altman, do Openai, fez esse ponto em um submit recente no weblog: de acordo com Altman, estamos abordando a singularidade, mas, na maioria das vezes, parece negócios como de costume.
Quer mais histórias sobre a IA? Inscreva -se para a inovaçãonossa publication semanal.