E10: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Поділитися
Вставка
  • Опубліковано 2 лют 2025
  • Título: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.
    Año de publicación: 2025
    Autores:
    Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z.F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao (entre otros).
    Resumen: DeepSeek-AI presenta DeepSeek-R1, un modelo de lenguaje grande (LLM) diseñado para potenciar las capacidades de razonamiento mediante aprendizaje por refuerzo (RL). Inicialmente, se desarrolló DeepSeek-R1-Zero, un modelo entrenado puramente con RL, sin ajuste supervisado previo, mostrando notables habilidades de razonamiento

КОМЕНТАРІ •