DeepSeek升级至1M Token上下文窗口 万亿参数模型在路上

12 小时前 AI快讯 2

DeepSeek升级至1M Token上下文窗口 万亿参数模型在路上

2月11日,AI模型DeepSeek的网页端与移动应用同步完成版本迭代,其核心突破在于将上下文窗口长度提升至100万(1M)Token,较此前128K版本的处理能力跃升近8倍,可一次性处理整本长篇小说、完整项目代码库等大规模文本,正式跻身全球长文本处理顶尖模型梯队,同时业内透露其万亿参数旗舰模型正蓄势待发。

2月11日一早,不少DeepSeek的忠实用户打开网页端或APP时,都收到了版本更新提示,而此次升级的核心亮点,很快在AI社区引发热议——上下文窗口直接从128K跃升至1M Token。这一变化并非数字上的简单增长,而是AI在大规模文本处理能力上的跨越式突破。

回顾去年8月发布的DeepSeek V3.1,其128K的上下文窗口已能满足多数日常文本处理需求,但面对长篇小说、整项目代码库、百万字科研文献等超大规模文本时,仍需分段上传、多次交互,不仅效率低下,还可能丢失文本前后逻辑关联。此次更新后,1M Token的处理能力较此前提升近8倍,按1Token约对应75个中文字符计算,相当于可一次性读取约75万字的中文内容,彻底打破了长文本分段处理的壁垒。

从用户实测反馈来看,DeepSeek的新能力已经显现出实用价值:有文学爱好者上传了总Token数超24万的英文原版《简爱》,模型不仅完整消化了整本内容,还能精准回答关于小说情节伏笔、人物性格转变、主题隐喻的细节问题,甚至能基于原文逻辑生成不同结局的续写内容;程序员用户则上传了包含10万行代码的Python项目库,DeepSeek可快速梳理项目架构,定位潜在的性能瓶颈与安全漏洞,并给出针对性的代码重构建议,全程无需分段操作;在办公场景中,用户上传几十页的复杂法律合同或超万字的会议纪要,模型能直接提取核心条款、梳理决策脉络,生成结构化的摘要与执行清单,大幅提升办公效率。

在AI模型的竞争赛道上,上下文窗口长度已成为衡量模型专业能力的核心指标之一。此前,全球范围内仅有少数头部模型能突破100K Token的门槛,DeepSeek直接跃升至1M Token,标志着其正式跻身长文本处理的全球顶尖梯队。行业分析师指出,实现如此大规模的上下文窗口,背后离不开注意力机制优化、内存管理技术等底层算法的突破,这些技术积累不仅能提升当前模型的实用性,更可能为后续更高参数模型的研发打下基础。

值得注意的是,此次1M Token的更新或许只是DeepSeek的“前菜”。据业内消息透露,DeepSeek的万亿参数旗舰模型正在紧锣密鼓地研发中,此次长文本处理能力的突破,很可能是该旗舰模型的技术前置验证。万亿参数模型通常在复杂任务理解、跨领域知识整合、逻辑推理精度上具备更显著的优势,若DeepSeek V4顺利推出,有望在通用AI能力上实现新的跃升,进一步推动AI在法律、科研、智能制造等垂直领域的深度落地。

随着大语言模型的技术边界不断拓展,长文本处理能力的提升正在重新定义AI的应用场景。对于专业从业者而言,无需再为文本长度限制妥协效率;对于AI行业来说,DeepSeek的突破也为长文本技术的发展提供了新的参照标准,未来或将引发新一轮的技术竞赛,最终推动AI工具向更高效、更智能的方向演进。

所属分类
×

微信二维码

请选择您要添加的方式

AI小创