¿Quieres concepts más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora
Opadai se suma a un mercado de voz de IA cada vez más competitivo para las empresas con su Nuevo modelo, GPT-Realtimeque sigue instrucciones complejas y con voces «que suenan más naturales y expresivos».
A medida que la IA de voz continúa creciendo, y los clientes encuentran casos de uso como llamadas de servicio al cliente o traducción en tiempo actual, el mercado de voces de IA que suenan realistas que también ofrecen seguridad de grado empresarial se está calentando. Operai afirma que su nuevo modelo proporciona una voz más humana, pero aún necesita competir contra compañías como ElevenLabs.
El modelo estará disponible en la API de tiempo actual, que la compañía también puso generalmente disponible. Junto con el modelo GPT-RealTime, OpenAI también lanzó nuevas voces en la API, que llama Cedar y Marin, y actualizó sus otras voces para trabajar con el último modelo.
Operai dijo en una transmisión en vivo que funcionó con sus clientes que están construyendo aplicaciones de voz para capacitar a GPT-RealTime y «alineó cuidadosamente el modelo a Evals que se basan en escenarios del mundo actual como la atención al cliente y la tutoría académica».
AI Scaling alcanza sus límites
Los límites de potencia, el aumento de los costos del token y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos:
- Convertir la energía en una ventaja estratégica
- Arquitectura de inferencia eficiente para ganancias reales de rendimiento
- Desbloquear ROI competitivo con sistemas de IA sostenibles
Asegure su lugar para mantenerse a la vanguardia:
La compañía promocionó la capacidad del modelo para crear voces emotivas y de sonido pure que también se alinean con la forma en que los desarrolladores se construyen con la tecnología.
Modelos de voz a voz
El modelo funciona dentro de un marco de voz a voz, lo que le permite comprender las indicaciones habladas y responder vocalmente. Los modelos de voz a voz son ideales para respuestas en tiempo actual, donde una persona, típicamente un cliente, interactúa con una aplicación.
Por ejemplo, un cliente quiere devolver algunos productos y llamar a una plataforma de servicio al cliente. Podrían estar hablando con un asistente de voz de IA que responde a preguntas y solicitudes como si estuvieran hablando con un humano.
En una transmisión en vivo, los clientes de Operai T-Mobile Mostró un agente con voz de IA que ayuda a las personas a encontrar nuevos teléfonos. Otro cliente, la plataforma de búsqueda de bienes raíces Zillowmostró a un agente que ayuda a alguien a reducir un vecindario para encontrar el lugar perfecto.
Operai dijo que GPT-Realtime es su «modelo de voz más avanzado listo para la producción». Al igual que sus otros modelos de voz, puede cambiar los idiomas a mitad de la oración. Sin embargo, los investigadores de Operai notaron que GPT-Realtime puede seguir instrucciones más complejas como «hablar enfáticamente con acento francés».
Pero GPT-Realtime enfrenta la competencia de otros modelos que muchas marcas ya usan. Once Conversación lanzada AI 2.0 en mayo. Sano Se asocia con franquicias de comida rápida para un drive de voz de IA. Inicio de IA enfático Hume ha lanzado su modelo EVI 3, que permite a los usuarios generar versiones de IA de su propia voz.
A medida que las empresas descubren varios casos de uso para la IA de voz, incluso más proveedores de modelos generales que ofrecen LLM multimodales están presentando un caso por sí mismos. Mistral Lanzó su nuevo modelo Voxtral, afirmando que funcionaría bien con la traducción en tiempo actual. Google está mejorando sus capacidades de audio y ganando popularidad con una función de audio en Notebooklm que convierte las notas de investigación en un podcast.
Mejor instrucción siguiendo
Operai dijo que GPT-Realtime es más inteligente y comprende mejor el audio nativo, incluida la capacidad de atrapar señales no verbales como risas o suspiros.
La evaluación comparativa utilizando la evaluación de audio de Huge Bench mostró que el modelo obtuvo una puntuación del 82.8% en precisión, en comparación con su modelo anterior, que obtuvo un 65.6%. OpenAI no proporcionó números que probaron GPT-Realtime contra modelos de sus competidores.
OpenAI se centró en mejorar las capacidades de seguimiento de instrucciones del modelo, asegurando que el modelo se adhiera a las direcciones de manera más efectiva. El nuevo modelo logra una puntuación del 30.5% en el punto de referencia de audio de Multichallenge. Los ingenieros también reforzaron las funciones llamando para que GPT-Realtime pueda acceder a las herramientas correctas.
Actualizaciones de API en tiempo actual
Para apoyar el nuevo modelo y mejorar cómo las empresas integran las capacidades de IA en tiempo actual en sus aplicaciones, OpenAI ha agregado varias características nuevas a la API de tiempo actual.
Ahora puede admitir MCP y reconocer las entradas de imágenes, lo que le permite informar a los usuarios sobre lo que ve en tiempo actual. Esta es una característica que Google enfatizó mucho durante su presentación Astra del proyecto el año pasado.
La API de tiempo actual también puede manejar el Protocolo de iniciación de la sesión (SIP). SIP conecta aplicaciones a teléfonos como una crimson de teléfono público o teléfonos de escritorio, abriendo más casos de uso del centro de contacto. Los usuarios también pueden guardar y reutilizar las indicaciones en la API.
Hasta ahora, las personas están impresionadas con el modelo, aunque estas todavía son pruebas iniciales de un modelo que se lanzó recientemente.
Openai redujo los precios de GPT-RealTime en un 20% a $ 32 por millón de tokens de entrada de audio y $ 64 para tokens de salida de audio.
avots