智源研究院发布开源中文互联网语料库 CCI 4.0
2025 年 5 月 9 日
智源研究院发布大型开源文本数据集 CCI 4.0,包含中英双语数据,总规模达 35TB。CCI 4.0 首次采用 CoT 方法合成推理轨迹数据,提升模型推理能力,其中合成数据规模比现有最大开源数据集提升近 20 倍。该数据集经过严格处理与评审,确保安全合规,有效提升模型训练效率和性能。数据集由多个机构共同贡献,已支持超 500 家单位的大模型研发。
2025-06-06
智源研究院发布全球首个原生多模态世界模型2025-05-09
智源研究院发布开源中文互联网语料库 CCI 4.02025-03-06
智源开源多模态向量模型 BGE-VL:多模态检索新突破2024-10-21
智源研究院发布原生多模态世界模型 Emu32024-06-14
2024 北京智源大会开幕,智源推出大模型全家桶及全栈开源技术基座新版图2021-01-12
阿里巴巴、智源研究院、清华大学联合发布国内最大预训练 AI 模型「文汇」体验专业版特色功能,拓展更丰富、更全面的相关内容。