Blog | 生如夏花

GRPO技术原理笔记
原始论文-2024.4：DeepSeekMath- Pushing the Limits of Mathematical Reasoning in Open Language Models
2025/07/21 模型后训练
DeepSeek-R1论文笔记
背景今年春节期间，deepseek推出的DeepSeek-R1模型及其系列蒸馏模型爆火，全世界各个角落都在讨论，甚至过年一个我从没见面的大伯都在讨论deepseek的模型，说让他感觉到中国AI很有希望。于是春节期间，仔细阅读了下deepseek-r1的论文，做了笔记。后面再补上deepseek-v3的技术报告笔记。
2025/02/07 llm

Search

Categories Cloud

llm 模型后训练

1