01DeepSeek 公布多模态模型技术报告后又删除
DeepSeek 在 GitHub 发布多模态大模型并公开配套技术报告,提出基于「视觉原语」的创新推理框架,以突破当前多模态大语言模型在空间参照任务中的核心瓶颈。报告指出主流链式思维推理范式局限于语言学领域,现有研究忽视「参照鸿沟」问题,自然语言模糊性会导致模型推理逻辑崩溃。为此,DeepSeek 提出「基于视觉原语的思考」框架,将空间标记提升为推理基本单元,使模型具备「指代」能力,实现对空间关系的精确推演。该框架模型架构高度优化,视觉标记效率高,在相关测试中能与前沿模型匹配,为多模态智能指明方向。不过,随后该论文被删除。
