Início Tecnologia Os fones de ouvido de IA acionados pela Apple M2 podem traduzir...

Os fones de ouvido de IA acionados pela Apple M2 podem traduzir vários alto -falantes de uma só vez

3
0

Os fones de ouvido sem fio Pixel Buds do Google oferecem uma fantástica instalação de tradução em tempo actual há algum tempo. Nos últimos anos, marcas como a Timkettle ofereceram fones de ouvido semelhantes para clientes de negócios. No entanto, todas essas soluções podem lidar apenas com um fluxo de áudio imediatamente para tradução.

O pessoal da Universidade de Washington (UW) desenvolveu algo verdadeiramente notável na forma de fones de ouvido acionados pela IA que podem traduzir a voz de vários alto-falantes ao mesmo tempo. Pense nisso como uma poliglota em um bar lotado, capaz de entender o discurso das pessoas ao seu redor, falando em diferentes idiomas, de uma só vez.

A equipe está se referindo à sua inovação como uma tradução espacial de discursos e ganha vida cortesia de fones de ouvido binaurais. Para os desconhecidos, o áudio binaural tenta simular efeitos sonoros da maneira como os ouvidos humanos os percebem naturalmente. Para gravá -los, os microfones são colocados em uma cabeça fictícia, à parte à mesma distância que as orelhas humanas de cada lado.

https://www.youtube.com/watch?v=zslSulxfrl8

A abordagem é essential porque nossos ouvidos não apenas ouvem som, mas também nos ajudam a avaliar a direção de sua origem. O objetivo abrangente é produzir um palco sonoro pure com um efeito estéreo que possa proporcionar uma sensação de concerto ao vivo. Ou, no contexto moderno, escuta espacial.

O trabalho é cortesia de uma equipe liderada pelo professor Shyam Gollakota, cujo repertório prolífico inclui aplicativos que podem colocar GPs subaquáticos em relógios inteligentes, transformando besouros em fotógrafos, implantes cerebrais que podem interagir com a eletrônica, um aplicativo móvel que pode ouvir infecção e muito mais.

Como funciona a tradução para vários falantes?

“Pela primeira vez, preservamos o som da voz de cada pessoa e a direção de onde ela vem”, explica Gollakota, atualmente professora da Escola de Ciência e Engenharia de Computação Paul G. Allen do Instituto.

A equipe compara sua pilha a um radar, pois entra em ação, identificando o número de alto-falantes nos arredores e atualizando esse número em tempo actual à medida que as pessoas entram e saem do campo de escuta. Toda a abordagem funciona no dispositivo e não envolve o envio de fluxos de voz do usuário para um servidor em nuvem para tradução. Sim, privacidade!

Além da tradução da fala, o package também “mantém as qualidades expressivas e o quantity da voz de cada falante”. Os ajustes de intensidade direcional e de áudio são feitos à medida que o alto -falante se transfer pela sala. Curiosamente, diz -se também que a Apple está desenvolvendo um sistema que permite que os AirPods traduzam áudio em tempo real.

Como tudo isso ganha vida?

A equipe da UW testou os recursos de tradução dos fones de ouvido da AI em quase uma dúzia de configurações externas e internas. No que diz respeito ao desempenho, o sistema pode levar, processar e produzir áudio traduzido dentro de 2-4 segundos. Os participantes do teste pareciam preferir um atraso no valor de 3-4 segundos, mas a equipe está trabalhando para acelerar o pipeline de tradução.

Até agora, a equipe testou apenas traduções de espanhol, alemão e francês, mas esperam adicionar mais à piscina. Tecnicamente, eles condensaram a separação de fontes cegas, localização, tradução expressiva em tempo real e renderização binaural em um único fluxo, o que é um feito impressionante.

No que diz respeito ao sistema, a equipe desenvolveu um modelo de tradução de fala capaz de executar em tempo real em um silício da Apple M2, alcançando a inferência em tempo real. As tarefas de áudio foram tratadas por um par de fones de ouvido WH-1000XM4 da Sony e um microfone USB de presença sônica SP15C.

E aqui está a melhor parte. “O código para o dispositivo de prova de conceito está disponível para que outras pessoas desenvolvam”, diz o comunicado de imprensa da instituição. Isso significa que a comunidade científica e de fonte aberta pode aprender e basear projetos mais avançados nas fundações estabelecidas pela equipe da UW.






fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui