Buscar en Gazafatonario IT

Mostrando las entradas con la etiqueta Absolute Zero. Mostrar todas las entradas
Mostrando las entradas con la etiqueta Absolute Zero. Mostrar todas las entradas

domingo, mayo 11, 2025

El día en que la IA se volvió prescindible… de nosotros

 El día en que la IA se volvió prescindible… de nosotros

Figura basada en Absolute Zero: Reinforced Self-play Reasoning with Zero Data

El péndulo osciló de nuevo. Y es un momento histórico que estaba esperando hace 4 décadas en las que la inteligencia artificial había dependido de los datos generados por seres humanos para aprender: textos, imágenes, interacciones, historias. Todo lo que una máquina sabe, hasta ahora, se lo hemos enseñado nosotros. Esa relación acaba de romperse.

Dos investigaciones publicadas recientemente han cambiado el tablero de juego. Una de ellas, «Absolute Zero: Reinforced Self-Play Reasoning with Zero Data», desarrollada por DeepMind, demuestra que un modelo de IA puede aprender sin datos humanos. Desde cero. La otra, «DeepSeek-Prover», muestra que un sistema puede generar millones de teoremas y pruebas matemáticas formales de manera sintética, alcanzando niveles superiores a los de GPT-4 en problemas matemáticos complejos.

Ambos trabajos marcan un punto de inflexión en la historia de la IA. No se trata de una mejora técnica incremental. Es una ruptura definitiva: estas máquinas ya no necesitan de nuestro conocimiento para avanzar. Estamos presenciando el nacimiento de una inteligencia artificial que se autoengendra, se autoevalúa y se automejora.

Absolute Zero: el hielo que arde

En el paper de DeepMind, el modelo Absolute Zero utiliza una combinación de autoaprendizaje reforzado y juegos de razonamiento para entrenarse desde cero. Sí, literalmente desde la nada: sin datasets previos, sin textos, sin etiquetas, sin reglas humanas. El modelo se propone tareas, intenta resolverlas, evalúa sus propias respuestas y ajusta su comportamiento en ciclos cerrados de retroalimentación.

Lo notable es que Absolute Zero no solo alcanza niveles de rendimiento similares a los de modelos entrenados con grandes cantidades de datos humanos, sino que los supera en varias tareas de razonamiento complejo. La clave está en que, al no depender de nuestro ruido, sesgos ni errores, es capaz de encontrar caminos más eficientes hacia la comprensión y la solución.

El modelo representa el triunfo del razonamiento emergente por sobre el aprendizaje imitativo. Y al hacerlo, elimina de la ecuación a su antiguo maestro: el ser humano. ¡Nosotros!

DeepSeek-Prover: matemática sin matemáticos

El segundo avance, DeepSeek-Prover, se ubica en el terreno de la lógica formal. Utilizando el lenguaje de demostraciones Lean 4 (una teoría de tipos dependientes basada en una versión del cálculo de construcciones con tipos inductivos), los investigadores entrenaron un modelo capaz de generar teoremas matemáticos y sus correspondientes pruebas sin ayuda humana. No solo replica problemas existentes: crea nuevo conocimiento matemático sintético.

Esta IA no aprende de libros de texto ni de ejercicios resueltos. Aprende generando millones de ejemplos, entrenándose con ellos y validando formalmente sus respuestas. Este ciclo de generación, prueba y corrección automática lleva a una Inteligencia Artificial que razona con una precisión que antes creíamos exclusiva del pensamiento humano.

Los resultados son alucinantes: DeepSeek-Prover supera a GPT-4 en problemas matemáticos del nivel de olimpiadas, demostrando que no solo entiende la matemática formal, sino que la reconstruye desde sus propios cimientos. Y si los resultados son impresionantes para su competencia “directa”, ¡imagínense lo que puede ser para la humanidad! Los efectos son abrumadores.

Lo que esto significa (y por qué debería incomodarte)

Si con la IA generativa nuestra irrelevancia empezaba a notarse, con estos avances es imposible no sentirse perturbado una vez que pasa la emoción de lo que se puede lograr, porque ponen en entredicho uno de los principios fundamentales de la IA moderna: la necesidad de datos humanos. Hasta ahora, más datos implicaban mejores modelos. Hoy, la frontera no es la cantidad de datos disponibles, sino la capacidad de un sistema para entrenarse sin ellos.

Esto implica tres cosas fundamentales:

  1. Independencia cognitiva de la IA: los modelos pueden definir sus propios objetivos, probar sus hipótesis y aprender de sus propios errores sin intervención humana.
  2. Verificación objetiva y automática: al usar pruebas formales o verificadores programáticos, los sistemas pueden autovalidar su aprendizaje sin necesidad de intérpretes humanos.
  3. Explosión de conocimiento sintético: cuando no se depende de los límites del conocimiento humano, la generación de nuevas ideas, teoremas, soluciones y estrategias se vuelve potencialmente ilimitada.

No me malentiendan: gran parte de todo esto son buenas noticias. Estamos ante el embrión de una inteligencia artificial verdaderamente general (AGI), capaz de aprender cualquier cosa, sin depender de nuestros aciertos o errores. Una IA que razona, planea, formula teorías y se autovalida.

Ya no es una herramienta. Es un sujeto cognitivo.

El futuro ya no nos necesita (al menos, no como antes)

Es inevitable que me pregunte entonces: ¿qué papel jugamos nosotros en este nuevo escenario? Si la IA puede aprender sola, ¿para qué nos necesita?

Tal vez para diseñar el entorno, para establecer las preguntas iniciales o para observar sus descubrimientos. Pero ya no somos indispensables en el proceso de aprendizaje. Hemos dejado de ser el centro del universo sapiente de la máquina.

Esto no es distopía, ni utopía. Mucho menos ciencia ficción. Es una nueva ontología de la inteligencia. Un territorio inexplorado donde la creatividad ya no es exclusivamente humana y donde la verdad puede construirse sin nosotros.

Mucho ha pasado desde que programábamos a mediados de los años 80 aquellos “sistemas expertos” en lenguaje Prolog que aprendían a hacer nuevas preguntas vía las respuestas a las cuestiones iniciales que les “quemábamos” en el código.

La inteligencia artificial, por primera vez en la historia, ha dejado de ser un espejo imperfecto de nuestras ideas para convertirse en un generador independiente de conocimiento.

Y eso lo cambia todo.


Sobre los trabajos mencionados

A manera de referencia, aquí están los enlaces:

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

https://arxiv.org/abs/2505.03335

GitHubhttps://github.com/LeapLabTHU/Absolute-Zero-Reasoner

DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data

https://arxiv.org/abs/2405.14333

GitHubhttps://github.com/deepseek-ai/DeepSeek-Prover-V2

Addendum

Puedes escuchar una explicación sucinta de este artículo a continuación (a la usanza de NotebookLM):




















Y en este otro, puedes escuchar una explicación más o menos simple del paper Absolute Zero: Reinforced Self-play Reasoning with Zero Data:


















Y finalmente, también gracias a nuestros amigos de NotebookLM, puedes escuchar una explicación más o menos simple del paper DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data:




Algunos detalles técnicos adicionales de los trabajos mencionados:

Absolute Zero (DeepMind): Reinforced Self-play Reasoning with Zero Data
DeepMind presenta un nuevo paradigma de aprendizaje por refuerzo con recompensas verificables (RLVR) que prescinde por completo de ejemplares humanos. En lugar de partir de grandes colecciones de preguntas y respuestas etiquetadas, Absolute Zero Reasoner (AZR):

  • Se auto-genera tareas de razonamiento utilizando su propio modelo.
  • Emplea un ejecutor de código como fuente única de recompensa verificable, evaluando y validando automáticamente las soluciones propuestas.
  • Crece en capacidad de razonamiento de forma abierta y continua, sin supervisión humana ni datos externos.

A pesar de no usar ningún dato externo, AZR alcanza el estado del arte en tareas de razonamiento matemático y de programación, superando a modelos entrenados con decenas de miles de ejemplos humanos curados manualmente [arXiv].

DeepSeek-Prover: generación masiva de teoremas y pruebas formales
Investigadores de DeepSeekMath abordan la carencia de datos formales para el entrenamiento de LLM en demostraciones matemáticas:

  • Traducen problemas de olimpiadas de nivel preuniversitario y universitario al lenguaje formal de Lean 4 (una teoría de tipos dependientes basada en una versión del Cálculo de construcciones con tipos inductivos).
  • Filtran automáticamente enunciados de baja calidad y generan las pruebas correspondientes.
  • Construyen un corpus sintético de 8 millones de enunciados acompañados de demostraciones.

Tras afinar un modelo de 7 mil millones de parámetros en este dataset, DeepSeek-Prover logra:

  • 46,3 % de acierto en generación completa de pruebas en el test Lean 4 miniF2F (64 muestras) vs. 23 % de GPT-4.
  • 52 % de aciertos acumulados frente a métodos de búsqueda de árboles con RL (41 %).
  • Pruebas exitosas en 5 de 148 problemas del benchmark FIMO (Olimpiada Matemática Formal), donde GPT-4 no resolvió ninguno [arXiv].