DeepSeek 公开模型原理与训练方法说明
2025 年 9 月 2 日
DeepSeek 发布大模型训练原理说明,其模型采用预训练和优化训练两阶段流程,预训练使用公开互联网数据,优化训练数据由自建问答对和匿名化用户数据组成,最终模型以自回归方式生成文本。
2026-02-28
消息称 DeepSeek 多模态大模型 V4 将于下周发布2026-02-11
DeepSeek 更新模型 可一次性处理超长文本2026-01-01
DeepSeek 元旦发布新论文:梁文锋署名,提出全新 mHC 架构2025-11-27
DeepSeek 发布可自验证数学模型 DeepSeekMath-V22025-09-18
DeepSeek-R1 论文登上《自然》封面 梁文锋为通讯作者2025-09-02
DeepSeek 公开模型原理与训练方法说明2025-08-30
DeepSeek 决定使用华为 AI 芯片训练部分模型2025-08-01
DeepSeek 关联公司公布大语言模型部署方法专利2025-04-05
DeepSeek 与清华联合研究:创新奖励模型推理方法,提升可扩展性2025-03-02
摩尔线程全面拥抱 DeepSeek 开源周,加速 AI 模型训练与推理查看更多
体验专业版特色功能,拓展更丰富、更全面的相关内容。