¿Quieres concepts más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora
Un nuevo marco de capacitación desarrollado por investigadores de Laboratorio de tencent ai y Universidad de Washington en St. Louis permite que los modelos de idiomas grandes (LLM) se mejoren sin requerir Cualquier datos marcados con humanos. La técnica, llamada R-Zeroutiliza el aprendizaje de refuerzo para generar sus propios datos de entrenamiento desde cero, abordando uno de los principales cuellos de botella para crear sistemas de IA autoevolución. R-Zero funciona al tener dos modelos independientes que evolucionan conjuntamente interactuándose y desafiándose mutuamente.
Los experimentos muestran que R-Zero mejora sustancialmente las capacidades de razonamiento en diferentes LLM, lo que podría reducir la complejidad y los costos de capacitación de IA avanzada. Para las empresas, este enfoque podría acelerar el desarrollo de modelos especializados para tareas de razonamiento complejos sin el gasto masivo de curarse los conjuntos de datos etiquetados.
El desafío de los LLM de autoevolución
La thought detrás de los LLM de autoevolución es crear sistemas de IA que puedan generar, refinar y aprender de manera autónoma y aprender de sus propias experiencias. Esto ofrece un camino escalable hacia una IA más inteligente y capaz. Sin embargo, un desafío importante es que la capacitación de estos modelos requiere grandes volúmenes de tareas y etiquetas de alta calidad, que actúan como señales de supervisión para que la IA aprenda.
Confiar en los anotadores humanos para crear estos datos no solo es costoso y lento, sino que también crea un cuello de botella basic. Limita efectivamente las capacidades potenciales de una IA con lo que los humanos pueden enseñarlo. Para abordar esto, los investigadores han desarrollado métodos sin etiquetas que obtienen señales de recompensa directamente de las propias salidas de un modelo, por ejemplo, midiendo su confianza en una respuesta. Si bien estos métodos eliminan la necesidad de etiquetas explícitas, aún dependen de un conjunto de tareas preexistentes, lo que limita su aplicabilidad en escenarios verdaderamente auto evolucionar.
AI Scaling alcanza sus límites
Los límites de potencia, el aumento de los costos del token y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos:
- Convertir la energía en una ventaja estratégica
- Arquitectura de inferencia eficiente para ganancias reales de rendimiento
- Desbloquear ROI competitivo con sistemas de IA sostenibles
Asegure su lugar para mantenerse a la vanguardia:
Otros enfoques implican que los modelos generen sus propias tareas para aprender. Sin embargo, en dominios como el razonamiento abierto, donde no hay una forma easy de verificar la corrección (como un ejecutor de código), asegurar que la calidad de estos datos autogenerados sea un obstáculo significativo.
Cómo funciona R-Zero
R-Zero es un marco diseñado para entrenar LLMS de razonamiento que puede evolucionar de cero datos externos. El proceso comienza con un modelo base único, que se divide en dos roles: un «retador» y un «solucionador». Estos dos modelos se optimizan de forma independiente, pero evolucionan juntos a través de un ciclo continuo de interacción.
El objetivo del retador es crear nuevas tareas que estén justo en el umbral de las habilidades actuales del solucionador, ni demasiado fácil ni imposible. El solucionador, a su vez, es recompensado por resolver estas tareas cada vez más complejas. En comentarios escritos para VentureBeat, Chengsong Huang, coautor del periódico y estudiante de doctorado en la Universidad de Washington en St. Louis, explicó que esta dinámica es essential porque generar preguntas de alta calidad a menudo es más complicada que encontrar las respuestas.
«Lo que encontramos en un entorno práctico es que el mayor desafío es no generar las respuestas … sino más bien generar preguntas de alta calidad, novedosas y progresivamente más difíciles», dijo Huang. «Creemos que los buenos maestros son mucho más raros que los buenos estudiantes. La dinámica coevolutiva automatiza la creación de este ‘maestro’, garantizar un plan de estudios estable y dinámico que empuja las capacidades del solucionador mucho más allá de lo que un conjunto de datos estático y preexistente podría lograr».
Una vez que el Challenger genera suficientes preguntas, se filtran para la diversidad y se compilan en un conjunto de datos de capacitación. En la fase de entrenamiento del solucionador, está ajustado a estas preguntas desafiantes. La respuesta «correcta» para cada pregunta está determinada por un voto mayoritario de los propios intentos anteriores del solucionador.
Todo este proceso se repite, creando un bucle de administración private que funciona sin ninguna intervención humana, lo que permite que los dos modelos se empujen mutuamente para que se vuelvan progresivamente más capaces en cada iteración.
R-Zero en acción
Los investigadores probaron R-Zero en varios LLM de código abierto, incluidos modelos de las familias QWEN3 y Octothinker. Primero entrenaron a los modelos sobre problemas matemáticos y luego probaron si las habilidades de razonamiento aprendidas podrían generalizarse a otros puntos de referencia complejos de dominio basic como Mmlu-pro (tareas de comprensión y razonamiento de varios idiomas) y Supergpqa (Tareas de ciencia y razonamiento).
Los resultados mostraron que R-Zero es un marco altamente efectivo y agnóstico del modelo. Por ejemplo, aumentó la puntuación del modelo QWEN3-4B-base en +6.49 en promedio en los puntos de referencia de razonamiento matemático. El proceso de capacitación mejoró de manera consistente y sustancial el rendimiento, con ganancias que se acumulan en varias iteraciones. El modelo más grande QWEN3-8B-base vio su puntaje de matemáticas promedio aumentar en +5.51 puntos después de tres iteraciones.

Un hallazgo clave fue el salto de rendimiento inmediato después de la primera iteración, que validó la efectividad del papel del retador en la creación de un plan de estudios de aprendizaje de alta calidad. «Esto confirma que el plan de estudios inteligente generado por el retador entrenado por RL es significativamente más efectivo que el de un generador no entrenado», escriben los investigadores en su artículo.
En specific, las habilidades aprendidas de los problemas matemáticos se transfirieron efectivamente a tareas de razonamiento basic, mejorando así las capacidades subyacentes de los modelos. Por ejemplo, el mismo modelo QWEN3-4B-base mostró una mejora de +7.54 en puntos de referencia de razonamiento de dominio basic. Otro hallazgo interesante es que R-Zero puede servir como un paso de pre-entrenamiento decisivo. Los modelos primero mejoraron primero por R-Zero lograron un rendimiento aún mayor cuando luego se ajustaron los datos etiquetados tradicionales, lo que sugiere que el marco actúa como un amplificador de rendimiento.
Para las empresas, el enfoque «de cero datos» podría ser un cambio de juego, especialmente en dominios de nicho donde los datos de alta calidad son escasos o inexistentes. Huang destaca que la principal ventaja de R-Zero es su capacidad para dejar de lado la parte más cara y que requiere mucho tiempo del desarrollo de IA: la curación de datos.
«Nuestro enfoque evita completamente el cuello de botella basic de tener que encontrar, etiquetar y curar conjuntos de datos de alta calidad», dijo. «No se trata solo de una medida de ahorro de costos; es una vía hacia la creación de AI que puede superar las capacidades humanas, porque ya no está limitada por el alcance del conocimiento o los datos humanos».
Sin embargo, el proceso coevolutivo también reveló un desafío crítico. A medida que el Challenger genera con éxito problemas progresivamente más difíciles, la capacidad del solucionador para producir respuestas confiables «correctas» a través de la mayoría de los votos comienza a disminuir. Los investigadores encontraron que la verdadera precisión de estas etiquetas autogeneradas cayó del 79% en la primera iteración al 63% en el terceroen comparación con un fuerte Oracle LLM como GPT -4. Esta disminución de la calidad de los datos es una compensación clave y un posible cuello de botella para el rendimiento a largo plazo del sistema.
Huang reconoció que este es un problema basic para el paradigma de autoevolución. «Nuestro trabajo es una prueba de concepto que demuestra el potencial de este enfoque, pero reconocemos que mantener una mejora estable a largo plazo sin estabilizarse es un obstáculo significativo», dijo. «Resolver este problema será un próximo paso essential para toda la comunidad de investigación».
Los investigadores también destacan una limitación clave del marco: el mecanismo precise es el más adecuado para dominios como las matemáticas donde la corrección puede determinarse objetivamente. Entonces, ¿cómo podría este poderoso paradigma extenderse a tareas empresariales más subjetivas como generar copias de advertising o resumir informes?
Huang sugiere que un camino potencial hacia adelante implica agregar un tercer agente de IA-evolución de la mezcla: un «verificador» o «crítico».
«En lugar de evaluar una respuesta ‘correcta’ easy, este verificador estaría capacitado para evaluar la calidad de la producción del solucionador en función de criterios más matizados», explicó. «La dinámica coevolutiva involucraría al Challenger creando el aviso, el solucionador que genera la respuesta y el verificador que proporciona una señal de calidad, con los tres modelos mejorando juntos».
Si bien esto sigue siendo una dirección para futuras investigaciones, apunta hacia un futuro en el que los sistemas de IA totalmente autónomos pueden dominar no solo la lógica objetiva, sino también el razonamiento subjetivo.
avots