A capacidade do Chatgpt de ignorar direitos autorais e bom senso ao criar imagens e DeepFakes é o assunto da cidade agora. O modelo gerador de imagens que o OpenAI lançou na semana passada é tão amplamente utilizado que está arruinando a funcionalidade básica e o tempo de atividade do ChatGPT para todos.
Mas não são apenas os avanços em imagens geradas pela IA que testemunhamos recentemente. O modelo de vídeo Gen-4 Runway Gen-4 permite criar clipes incríveis a partir de um único immediate de texto e uma foto, mantendo a continuidade de personagens e cenas, diferente de tudo o que já vimos antes.
Os vídeos fornecidos pela empresa devem colocar Hollywood no aviso. Qualquer pessoa pode fazer clipes de filmes com ferramentas como a de Ruway, supondo que eles funcionem como pretendido. No mínimo, a IA pode ajudar a reduzir o custo de efeitos especiais para determinados filmes.
Não é apenas a nova ferramenta de vídeo da AI da Runway que está virando a cabeça. A Meta possui um produto Mocha AI, que pode ser usado para criar personagens falantes de IA em vídeos que podem ser bons o suficiente para enganá -lo.
Mocha não é um tipo de café escrito errado. É abreviado para o animador de personagens de cinema, um projeto de pesquisa da Meta e da Universidade de Waterloo. A idéia básica do modelo Mocha AI é bastante simples. Você fornece à IA um immediate de texto que descreve o vídeo e uma amostra de fala. A IA então monta um vídeo que garante que os personagens “falem” as linhas na amostra de áudio quase perfeitamente.
Os pesquisadores forneceram muitas amostras que mostram os recursos avançados da Mocha, e os resultados são impressionantes. Temos todos os tipos de clipes mostrando protagonistas de ação ao vivo e animados falando as linhas da amostra de áudio. Mocha leva em consideração emoções, e a IA também pode suportar vários personagens na mesma cena.
Os resultados são quase perfeitos, mas não exatamente. Existem algumas imperfeições visíveis nos clipes. Os movimentos de olho e rosto são brindes que estamos olhando para o vídeo gerado pela IA. Além disso, enquanto o movimento labial parece estar perfeitamente sincronizado com a amostra de áudio, o movimento de toda a boca é exagerado em comparação com pessoas reais.
Eu digo isso como alguém que já viu muitos modos de IA semelhantes de outras empresas, incluindo alguns incrivelmente convincentes.
Primeiro, há a pista Gen-4 sobre a qual conversamos alguns dias atrás. Os clipes de demonstração da Gen-4 são melhores que o Mocha. Mas esse é um produto que você pode usar, o Mocha certamente pode ser melhorado quando se torna um modelo comercial de IA.
Falando em modelos de IA que você não pode usar, sempre comparo novos produtos que podem sincronizar caracteres gerados pela IA com amostras de áudio com o projeto de pesquisa VASA-1 AI da Microsoft, que vimos em abril passado.
O VASA-1 permite transformar fotos estáticas de pessoas reais em vídeos de personagens falados, desde que você forneça uma amostra de áudio de qualquer tipo. Compreensivelmente, a Microsoft nunca disponibilizou o modelo VASA-1 para os consumidores, pois essa tecnologia abre a porta para abusar.
Finalmente, há a empresa controladora da Tiktok, Bydance, que mostrou uma IA do tipo VASA-1 há alguns meses que faz a mesma coisa. Ele transforma uma única foto em um vídeo totalmente animado.
Omnihuman-1 também anima movimentos da parte do corpo, algo que eu vi na demonstração da Mocha de Meta também. Foi assim que vimos Taylor Swift cantar o Naruto música tema em japonês. Sim, é um clipe de Deepfake; Estou chegando a isso.
Produtos como VASA-1, Omnihuman-1, Mocha e Provavelmente Gen-4 da Runway podem ser usados para criarfases DeepFakes que possam enganar.
Os pesquisadores de meta que trabalham no Mocha e projetos similares devem abordar isso publicamente se e quando o modelo estiver disponível comercialmente.
Você pode identificar inconsistências nas amostras de Mocha disponíveis on -line, mas assista a esses vídeos em uma exibição de smartphones e eles podem não ser tão evidentes. Remova sua familiaridade com a geração de vídeo da IA; Você pode pensar que alguns desses clipes de mocha foram filmados com câmeras reais.
Também é importante a divulgação dos dados meta usados para treinar essa IA. O artigo disse que o Mocha empregou cerca de 500.000 amostras, totalizando 300 horas de amostras de vídeo de fala de alta qualidade, sem dizer onde obtiveram esses dados. Infelizmente, esse é um tema na indústria, não reconhecendo a fonte dos dados usados para treinar a IA, e ainda é preocupante.
Você encontrará o artigo de pesquisa completo do Mocha Neste link.