1. GRPO技术原理笔记

    原始论文-2024.4:DeepSeekMath- Pushing the Limits of Mathematical Reasoning in Open Language Models

    2025/07/21 模型后训练

  2. DeepSeek-R1论文笔记

    背景 今年春节期间,deepseek推出的DeepSeek-R1模型及其系列蒸馏模型爆火,全世界各个角落都在讨论,甚至过年一个我从没见面的大伯都在讨论deepseek的模型,说让他感觉到中国AI很有希望。于是春节期间,仔细阅读了下deepseek-r1的论文,做了笔记。后面再补上deepseek-v3的技术报告笔记。

    2025/02/07 llm