中国AI公司DeepSeek新模型“MODEL1”曝光

发布时间: 2026-01-21 分类: 新闻简报/News 热度: 8708

21日，DeepSeek官方GitHub仓库更新了一系列FlashMLA代码，借助AI对全部总代码文件数:114个（包括.py, .md, .txt, .sh, .cpp, .cu, .h文件）进行分析，发现了一个此前未公开的模型架构标识 “MODEL1”，共被提及31次。MODEL1是DeepSeek FlashMLA中支持的两个主要模型架构之一，另一个是 DeepSeek -V3.2。据推测，MODEL1很可能是一个高效推理模型，相比V3.2，内存占用更低，适合边缘设备或成本敏感场景。它也可能是一个长序列专家，针对 16K+ 序列优化，适合文档理解、代码分析等长上下文任务。此前媒体爆料，DeepSeek将在今年2月中旬农历新年期间推出新一代旗舰AI模型——DeepSeek V4，将具备更强的写代码能力。

—— 科创板日报