21日,DeepSeek官方GitHub仓库更新了一系列FlashMLA代码,借助AI对全部总代码文件数:114个(包括.py, .md, .txt, .sh, .cpp, .cu, .h文件)进行分析,发现了一个此前未公开的模型架构标识 “MODEL1”,共被提及31次。MODEL1是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是 DeepSeek -V3.2。据推测,MODEL1很可能是一个高效推理模型,相比V3.2,内存占用更低,适合边缘设备或成本敏感场景。它也可能是一个长序列专家,针对 16K+ 序列优化,适合文档理解、代码分析等长上下文任务。此前媒体爆料,DeepSeek将在今年2月中旬农历新年期间推出新一代旗舰AI模型——DeepSeek V4,将具备更强的写代码能力。
—— 科创板日报