混元 OCR 模型核心技术揭秘：统一框架、真端到端

2025 年 11 月 30 日

腾讯混元大模型团队正式发布并开源商业级、开源且轻量的 OCR 专用视觉语言模型 HunyuanOCR。该模型感知和语义能力出色，获 ICDAR 2025 DIMT 挑战赛冠军等成绩。其实现三大突破：全能与高效统一、极简端到端架构、数据驱动与 RL 创新。核心技术聚焦于：轻量化模型结构设计，采用端到端训推一体范式，协同架构避免图像失真与细节丢失。高质量预训练数据生产，构建超 2 亿「图像-文本对」语料库，覆盖多场景多语言。重应用导向的预训练策略，分四阶段循序渐进。OCR 任务定制的强化学习方案，针对不同任务采取混合策略，有严苛数据筛选、自适应奖励设计、GRPO 算法与格式约束优化等注意事项。