Inicio Tecnología En el mercado de AI de voz concurrida, Operai apuesta por instrucciones...

Tecnología

En el mercado de AI de voz concurrida, Operai apuesta por instrucciones y discurso expresivo para ganar la adopción empresarial

Por

28 agosto 2025

¿Quieres concepts más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora

Opadai se suma a un mercado de voz de IA cada vez más competitivo para las empresas con su Nuevo modelo, GPT-Realtimeque sigue instrucciones complejas y con voces «que suenan más naturales y expresivos».

A medida que la IA de voz continúa creciendo, y los clientes encuentran casos de uso como llamadas de servicio al cliente o traducción en tiempo actual, el mercado de voces de IA que suenan realistas que también ofrecen seguridad de grado empresarial se está calentando. Operai afirma que su nuevo modelo proporciona una voz más humana, pero aún necesita competir contra compañías como ElevenLabs.

El modelo estará disponible en la API de tiempo actual, que la compañía también puso generalmente disponible. Junto con el modelo GPT-RealTime, OpenAI también lanzó nuevas voces en la API, que llama Cedar y Marin, y actualizó sus otras voces para trabajar con el último modelo.

Operai dijo en una transmisión en vivo que funcionó con sus clientes que están construyendo aplicaciones de voz para capacitar a GPT-RealTime y «alineó cuidadosamente el modelo a Evals que se basan en escenarios del mundo actual como la atención al cliente y la tutoría académica».

AI Scaling alcanza sus límites

Los límites de potencia, el aumento de los costos del token y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos:

Convertir la energía en una ventaja estratégica

Arquitectura de inferencia eficiente para ganancias reales de rendimiento

Desbloquear ROI competitivo con sistemas de IA sostenibles

Asegure su lugar para mantenerse a la vanguardia:

https://www.youtube.com/watch?v=nfbbmtmjhx0

La compañía promocionó la capacidad del modelo para crear voces emotivas y de sonido pure que también se alinean con la forma en que los desarrolladores se construyen con la tecnología.

Modelos de voz a voz

El modelo funciona dentro de un marco de voz a voz, lo que le permite comprender las indicaciones habladas y responder vocalmente. Los modelos de voz a voz son ideales para respuestas en tiempo actual, donde una persona, típicamente un cliente, interactúa con una aplicación.

Por ejemplo, un cliente quiere devolver algunos productos y llamar a una plataforma de servicio al cliente. Podrían estar hablando con un asistente de voz de IA que responde a preguntas y solicitudes como si estuvieran hablando con un humano.

En una transmisión en vivo, los clientes de Operai T-Mobile Mostró un agente con voz de IA que ayuda a las personas a encontrar nuevos teléfonos. Otro cliente, la plataforma de búsqueda de bienes raíces Zillowmostró a un agente que ayuda a alguien a reducir un vecindario para encontrar el lugar perfecto.

Operai dijo que GPT-Realtime es su «modelo de voz más avanzado listo para la producción». Al igual que sus otros modelos de voz, puede cambiar los idiomas a mitad de la oración. Sin embargo, los investigadores de Operai notaron que GPT-Realtime puede seguir instrucciones más complejas como «hablar enfáticamente con acento francés».

Pero GPT-Realtime enfrenta la competencia de otros modelos que muchas marcas ya usan. Once Conversación lanzada AI 2.0 en mayo. Sano Se asocia con franquicias de comida rápida para un drive de voz de IA. Inicio de IA enfático Hume ha lanzado su modelo EVI 3, que permite a los usuarios generar versiones de IA de su propia voz.

A medida que las empresas descubren varios casos de uso para la IA de voz, incluso más proveedores de modelos generales que ofrecen LLM multimodales están presentando un caso por sí mismos. Mistral Lanzó su nuevo modelo Voxtral, afirmando que funcionaría bien con la traducción en tiempo actual. Google está mejorando sus capacidades de audio y ganando popularidad con una función de audio en Notebooklm que convierte las notas de investigación en un podcast.

Mejor instrucción siguiendo

Operai dijo que GPT-Realtime es más inteligente y comprende mejor el audio nativo, incluida la capacidad de atrapar señales no verbales como risas o suspiros.

La evaluación comparativa utilizando la evaluación de audio de Huge Bench mostró que el modelo obtuvo una puntuación del 82.8% en precisión, en comparación con su modelo anterior, que obtuvo un 65.6%. OpenAI no proporcionó números que probaron GPT-Realtime contra modelos de sus competidores.

OpenAI se centró en mejorar las capacidades de seguimiento de instrucciones del modelo, asegurando que el modelo se adhiera a las direcciones de manera más efectiva. El nuevo modelo logra una puntuación del 30.5% en el punto de referencia de audio de Multichallenge. Los ingenieros también reforzaron las funciones llamando para que GPT-Realtime pueda acceder a las herramientas correctas.

Actualizaciones de API en tiempo actual

Para apoyar el nuevo modelo y mejorar cómo las empresas integran las capacidades de IA en tiempo actual en sus aplicaciones, OpenAI ha agregado varias características nuevas a la API de tiempo actual.

Ahora puede admitir MCP y reconocer las entradas de imágenes, lo que le permite informar a los usuarios sobre lo que ve en tiempo actual. Esta es una característica que Google enfatizó mucho durante su presentación Astra del proyecto el año pasado.

La API de tiempo actual también puede manejar el Protocolo de iniciación de la sesión (SIP). SIP conecta aplicaciones a teléfonos como una crimson de teléfono público o teléfonos de escritorio, abriendo más casos de uso del centro de contacto. Los usuarios también pueden guardar y reutilizar las indicaciones en la API.

Hasta ahora, las personas están impresionadas con el modelo, aunque estas todavía son pruebas iniciales de un modelo que se lanzó recientemente.

TBH, las características MCP y SIP son la verdadera historia aquí, no solo otro modelo.
La capacidad de conectarse a herramientas y sistemas externos sin problemas es lo que finalmente moverá estos modelos de ser demostraciones impresionantes a integrarse en flujos de trabajo reales.
El aspecto de tiempo actual …
– jk (@_junaidkhalid1) 28 de agosto de 2025

Probar GPT-RealTime
Revisión inicial:
– Mejora de audio notable
– Es un stickler para las instrucciones (muy bien)
– se siente rápido pic.twitter.com/ltycs0qlxv
– Jake Colling (@jacobcolling) 28 de agosto de 2025

Bueno, GPT-Realtime obtuvo una transmisión en vivo no porque la mayoría de los usuarios estén interesados, sino por razones comerciales estratégicas
Los centros de llamadas son un objetivo importante para los proveedores de LLM y la primera compañía en alcanzar un avance actual obtendrá ingresos masivos
– Anko (@anko_979) 28 de agosto de 2025

Professionals & contras de @Openai Actualización en tiempo actual de alguien que construye en AI Audio:
Professional: Mejor llamadas de funciones, más emoción, 20% más barato, mejor management, imagen es genial pero no usará
CON: Sin voces personalizadas (la experiencia creativa debe tener), todavía * caro * vs tts-llm-stt tuberías
– Gavin Purcell (@gavinpurcell) 28 de agosto de 2025

Openai redujo los precios de GPT-RealTime en un 20% a $ 32 por millón de tokens de entrada de audio y $ 64 para tokens de salida de audio.

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu jefe, VB Each day te tiene cubierto. Le damos la cuenta inside de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir concepts para el ROI máximo.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.

avots

Facebook
Twitter
Pinterest
WhatsApp

Artículo anteriorNo te preocupes, fanáticos del ‘miércoles’, el coma casi ha terminado
Artículo siguienteRivian activa el soporte clave de Apple Automobile en vehículos de segunda generación

Carmelo Sanches

En el mercado de AI de voz concurrida, Operai apuesta por instrucciones y discurso expresivo para ganar la adopción empresarial

Modelos de voz a voz

Mejor instrucción siguiendo

Actualizaciones de API en tiempo actual

DEJA UNA RESPUESTA Cancelar respuesta

Recientemente

Ai o no, el video de la multitud de Will Smith...

Startups de Seattle Clarifica, Dropzone AI, Statsig, Land en la última...

iOS 26: ¿Qué hay de nuevo en la aplicación de podcasts?

El Q2 de $ 46.7b de NVIDIA demuestra la plataforma, pero...

‘El mago de Oz’ en la esfera tiene un sorprendente cameo...

Las respuestas de NYT Mini Crossword de hoy para el viernes...

Samsung ofrece una atractiva oferta de pedido para nuevas tabletas Galaxy...

Las respuestas de NYT Mini Crossword de hoy para el viernes...

Hurdlegs y respuestas para el 29 de agosto de 2025

Cómo ver el eclipse lunar whole y la luna de sangre...