La IA china de código abierto DeepSeek R1 iguala al o1 de OpenAI con un costo 98% menor

Los investigadores chinos de IA han logrado lo que muchos pensaban que estaba a años luz de distancia: un modelo de IA gratuito y de código abierto que puede igualar o superar el rendimiento de los sistemas de razonamiento más avanzados de OpenAI. Lo que hace esto aún más notable es cómo lo hicieron: dejando que la IA se enseñara a sí misma mediante prueba y error, de la misma manera que aprenden los humanos.

“DeepSeek-R1-Zero, un modelo entrenado mediante aprendizaje por refuerzo (RL) a gran escala sin ajuste fino supervisado (SFT) como paso preliminar, demuestra capacidades de razonamiento notables”. EL trabajo de investigación cama.

El “aprendizaje por refuerzo” es un método en el que un modelo es recompensado por tomar buenas decisiones y castigado por tomar malas, sin saber cuál es cuál. Luego de una serie de decisiones, aprende a seguir un camino reforzado por esos resultados.

Inicialmente, durante el desarrollo supervisado Durante esta fase, un grupo de humanos le dice al modelo el resultado deseado, dándole el contexto para saber qué es bueno y qué no. Esto lleva a la siguiente fase, el aprendizaje por refuerzo, en la que un modelo proporciona diferentes resultados y los humanos clasifican los mejores. El proceso se repite una y otra vez hasta que el modelo sabe cómo ofrecer resultados satisfactorios de forma consistente.

Imagen: Búsqueda profunda

DeepSeek R1 es un referente en el desarrollo de la IA porque los humanos desempeñan un papel mínimo en el entrenamiento. A diferencia de otros modelos entrenados con grandes cantidades de datos supervisados, DeepSeek R1 aprende principalmente a través del aprendizaje por refuerzo mecánico, esencialmente entendiendo cosas a través de la experimentación y obteniendo retroalimentación sobre lo que funciona.

“Gracias a RL, DeepSeek-R1-Zero emerge naturalmente con muchos comportamientos de razonamiento poderosos e interesantes”, explican los investigadores en su artículo. El modelo incluso desarrolló habilidades sofisticadas como la autoevaluación y la reflexión sin haber sido programado explícitamente para hacerlo.

A medida que el modelo pasó por su proceso de entrenamiento, naturalmente aprendió a dedicar más “tiempo para pensar” a problemas complejos y desarrolló la capacidad de detectar sus propios errores. Los investigadores demostraron una “momento ajá” donde el modelo aprendió a reevaluar sus enfoques iniciales a los problemas, algo para lo que no estaba explícitamente programado.

Las cifras de rendimiento son impresionantes. En el punto de referencia matemático AIME 2024, DeepSeek R1 logró una tasa de éxito del 79,8%, superando al modelo de razonamiento o1 de OpenAI. En las pruebas de codificación estandarizadas, demostró un desempeño de “nivel experto”, logrando una calificación Elo de 2029 en Codeforces y superando al 96,3% de los competidores humanos.

Imagen: Búsqueda profunda

Pero lo que realmente distingue a DeepSeek R1 es su costo, o la falta de él. El modelo ejecuta consultas únicamente. 0,14 dólares por millón de tokens en comparación con $ 7,50 de OpenAIhaciéndolo un 98% más barato. Y a diferencia de los modelos propietarios, el código y los métodos de capacitación de DeepSeek R1 son completamente de código abierto bajo la licencia del MIT, lo que significa que cualquiera puede tomar el modelo, usarlo y modificarlo sin restricciones.

Imagen: Búsqueda profunda

Los líderes de IA responden

El lanzamiento de DeepSeek R1 provocó una avalancha de respuestas de los líderes de la industria de la IA, y muchos enfatizaron la importancia de un modelo de código completamente abierto que iguale a los líderes propietarios en capacidades de razonamiento.

El principal investigador de Nvidia, el Dr. Jim Fan, entregó quizás el comentario más punzante, estableciendo un paralelo directo con la misión original de OpenAI. “Vivimos en una época en la que una empresa no estadounidense mantiene viva la misión original de OpenAI: una investigación verdaderamente abierta que empodere a todos”, señaló Fan, elogiando la transparencia sin precedentes de DeepSeek.

Fan destacó la importancia del enfoque de aprendizaje por refuerzo de DeepSeek: “Pueden ser los primeros [open source software] proyecto que muestra un crecimiento sostenido y significativo de [a reinforcement learning] vuelo. También elogió el simple intercambio de “algoritmos sin procesar y curvas de aprendizaje matplotlib” por parte de DeepSeek en comparación con los anuncios publicitarios más comunes de la industria.

El investigador de Apple, Awni Hannun, mencionó que los usuarios pueden ejecutar una versión cuantificada del modelo localmente en su Mac.

Tradicionalmente, los dispositivos Apple han tenido problemas con la IA debido a su falta de compatibilidad con el software CUDA de Nvidia, pero eso parece estar cambiando. Por ejemplo, el investigador de IA Alex Cheema pudo ejecutar el modelo completo después de aprovechar la potencia de 8 unidades Apple Mac Mini trabajando juntas, lo que sigue siendo más barato que los servidores necesarios para ejecutar los modelos de IA más avanzados disponibles actualmente.

Dicho esto, los usuarios pueden ejecutar versiones más ligeras de DeepSeek R1 en sus Mac con buenos niveles de precisión y eficiencia.

Sin embargo, las reacciones más interesantes se produjeron después de pensar en lo cerca que está la industria del código abierto de los modelos propietarios y el impacto potencial que este desarrollo podría tener para OpenAI como líder en el campo de los modelos de razonamiento de IA.

El fundador de Stability AI, Emad Mostaque, adoptó una postura provocativa y sugirió que el lanzamiento ejerce presión sobre los competidores mejor financiados: “¿Te imaginas ser un laboratorio pionero que recaudó alrededor de mil millones de dólares y ahora no puedes no publicar tu último modelo porque puede?” No lo hagas. ¿Vencer a DeepSeek? »

Siguiendo el mismo razonamiento pero con un argumento más serio, el empresario tecnológico Arnaud Bertrand explicó que la aparición de un modelo competitivo de código abierto podría ser potencialmente perjudicial para OpenAI, ya que hace que sus modelos sean menos atractivos para los usuarios experimentados que, de otro modo, estarían dispuestos a gastar mucho dinero. fortuna. mucho dinero por tarea.

“Es básicamente como si alguien lanzara un teléfono comparable al iPhone, pero lo vendiera por 30 dólares en lugar de 1.000 dólares. Es así de dramático.

El director ejecutivo de Perplexity AI, Arvind Srinivas, describió el lanzamiento en términos de su impacto en el mercado: “DeepSeek ha replicado ampliamente o1 mini y lo ha convertido en código abierto. ” En una observación posterior, destacó el rápido ritmo del progreso: “Es una especie de locura ver que el razonamiento se convierte en una mercancía tan rápidamente. »

Srinivas dijo que su equipo trabajará en el futuro para integrar las capacidades de razonamiento de DeepSeek R1 en Perplexity Pro.

Inicio rápido

Realizamos algunas pruebas rápidas para comparar el modelo con OpenAI o1, comenzando con una pregunta muy conocida para este tipo de pruebas comparativas: “¿Cuántas R hay en la palabra Fresa?”

Normalmente, los modelos tienen dificultades para proporcionar la respuesta correcta porque no trabajan con palabras: trabajan con tokens, representaciones digitales de conceptos.

GPT-4o falló, OpenAI o1 tuvo éxito, al igual que DeepSeek R1.

Sin embargo, o1 fue muy conciso en el proceso de razonamiento, mientras que DeepSeek aplicó un resultado de razonamiento importante. Curiosamente, la respuesta de DeepSeek pareció más humana. Durante el proceso de razonamiento, el modelo parecía hablar consigo mismo, utilizando jerga y palabras no comunes en las máquinas, pero más utilizadas por los humanos.

Por ejemplo, al pensar en el número de R, el modelo se dijo a sí mismo: “Está bien, déjame resolverlo”. También usó “Hmmm” durante el debate e incluso dijo cosas como “Espera, no. Espera, analicémoslo.

El modelo finalmente logró los resultados correctos, pero pasó mucho tiempo razonando y escupiendo fichas. En condiciones típicas de fijación de precios, esto sería una desventaja; pero dada la situación actual, puede producir muchos más tokens que OpenAI o1 y seguir siendo competitivo.

Otra prueba para ver qué tan buenos eran los modelos a la hora de razonar era jugar a los “espías” e identificar a los autores de un cuento. Elegimos una muestra del banco grande conjunto de datos en Github. (La historia completa está disponible aquí e implica un viaje escolar a un lugar remoto y nevado, donde estudiantes y profesores se encuentran con una serie de extrañas desapariciones y la modelo debe descubrir quién era el acosador).

Las dos modelos pensaron en ello durante más de un minuto. Sin embargo, ChatGPT falló antes de resolver el misterio:

Pero DeepSeek dio la respuesta correcta después de “pensar” en ello durante 106 segundos. El proceso de pensamiento fue correcto y el modelo incluso pudo corregirse a sí mismo después de llegar a conclusiones incorrectas (pero aún bastante lógicas).

La accesibilidad de las versiones más pequeñas impresionó especialmente a los investigadores. Como recordatorio, un modelo de 1.5B es tan pequeño que, en teoría, podrías ejecutarlo localmente en un teléfono inteligente potente. E incluso una versión cuantificada tan pequeña de Deepseek R1 pudo competir con GPT-4o y Claude 3.5 Sonnet, según el científico de datos de Hugging Face. Vaibhav Srivastav.

Hace apenas una semana, SkyNove de UC Berkeley lanzó Sky T1, un modelo de razonamiento que también puede rivalizar con la vista previa de OpenAI o1.

Aquellos que quieran ejecutar el modelo localmente pueden descargarlo desde GitHub O cara de peluche. Los usuarios pueden descargarlo, ejecutarlo, eliminar la censura o adaptarlo a diferentes áreas de especialización modificándolo.

O si quieres probar el modelo online, ve a gato tierno o el de DeepSeek portal webque es una buena alternativa a ChatGPT, especialmente porque es gratuito, de código abierto y la única interfaz de chatbot de IA con un modelo diseñado para razonar distinto de ChatGPT.

Editado por Andrew Hayward.

Generalmente inteligente Hoja informativa

Un viaje semanal de IA narrado por Gen, un modelo de IA generativa.