DeepSeek升级至1M Token上下文窗口 万亿参数模型在路上
2月11日,AI模型DeepSeek的网页端与移动应用同步完成版本迭代,其核心突破在于将上下文窗口长度提升至100万(1M)Token,较此前128K版本的处理能力跃升近8倍,可一次性处理整本长篇小说、完整项目代码库等大规模文本,正式跻身全球长文本处理顶尖模型梯队,同时业内透露其万亿参数旗舰模型正蓄势待发。
2月11日一早,不少DeepSeek的忠实用户打开网页端或APP时,都收到了版本更新提示,而此次升级的核心亮点,很快在AI社区引发热议——上下文窗口直接从128K跃升至1M Token。这一变化并非数字上的简单增长,而是AI在大规模文本处理能力上的跨越式突破。
回顾去年8月发布的DeepSeek V3.1,其128K的上下文窗口已能满足多数日常文本处理需求,但面对长篇小说、整项目代码库、百万字科研文献等超大规模文本时,仍需分段上传、多次交互,不仅效率低下,还可能丢失文本前后逻辑关联。此次更新后,1M Token的处理能力较此前提升近8倍,按1Token约对应75个中文字符计算,相当于可一次性读取约75万字的中文内容,彻底打破了长文本分段处理的壁垒。
从用户实测反馈来看,DeepSeek的新能力已经显现出实用价值:有文学爱好者上传了总Token数超24万的英文原版《简爱》,模型不仅完整消化了整本内容,还能精准回答关于小说情节伏笔、人物性格转变、主题隐喻的细节问题,甚至能基于原文逻辑生成不同结局的续写内容;程序员用户则上传了包含10万行代码的Python项目库,DeepSeek可快速梳理项目架构,定位潜在的性能瓶颈与安全漏洞,并给出针对性的代码重构建议,全程无需分段操作;在办公场景中,用户上传几十页的复杂法律合同或超万字的会议纪要,模型能直接提取核心条款、梳理决策脉络,生成结构化的摘要与执行清单,大幅提升办公效率。
在AI模型的竞争赛道上,上下文窗口长度已成为衡量模型专业能力的核心指标之一。此前,全球范围内仅有少数头部模型能突破100K Token的门槛,DeepSeek直接跃升至1M Token,标志着其正式跻身长文本处理的全球顶尖梯队。行业分析师指出,实现如此大规模的上下文窗口,背后离不开注意力机制优化、内存管理技术等底层算法的突破,这些技术积累不仅能提升当前模型的实用性,更可能为后续更高参数模型的研发打下基础。
值得注意的是,此次1M Token的更新或许只是DeepSeek的“前菜”。据业内消息透露,DeepSeek的万亿参数旗舰模型正在紧锣密鼓地研发中,此次长文本处理能力的突破,很可能是该旗舰模型的技术前置验证。万亿参数模型通常在复杂任务理解、跨领域知识整合、逻辑推理精度上具备更显著的优势,若DeepSeek V4顺利推出,有望在通用AI能力上实现新的跃升,进一步推动AI在法律、科研、智能制造等垂直领域的深度落地。
随着大语言模型的技术边界不断拓展,长文本处理能力的提升正在重新定义AI的应用场景。对于专业从业者而言,无需再为文本长度限制妥协效率;对于AI行业来说,DeepSeek的突破也为长文本技术的发展提供了新的参照标准,未来或将引发新一轮的技术竞赛,最终推动AI工具向更高效、更智能的方向演进。

48 分钟前
近日,人工智能企业OpenAI正式宣布关停旗下AI视频生成工具Sora。该产品2024年2月首次亮相时,曾凭借最高生成60秒4K分辨率连贯视频的能力引发行业震动,上线后累计有超12万创作者获得测试资格。本次关停并未如外界最初猜测一般源于版权纠纷,而是与模型训练成本高企、商用化落地不及预期直接相关。

50 分钟前
斯坦福大学人机交互实验室近日发布专项研究结果,针对ChatGPT、Google Gemini、DeepSeek等12款主流生成式AI聊天机器人的测试显示,其在医疗、财务、个人职业选择等高风险决策场景的平均错误率达37%,专家明确提示普通用户不应将AI聊天机器人作为个人决策的唯一参考依据,需对其输出内容保持审慎验证态度。

52 分钟前
微软近期正式上线AI协作工具Copilot Cowork,搭载全新升级的智能研究引擎,可自动扫描用户工作文档、项目材料中的逻辑漏洞、数据缺失及论证空白,目前已向Office 365商业版用户开放灰度测试。据内部测试数据显示,该工具可帮助职场用户减少42%的跨部门信息核对时间,项目前期漏洞排查效率提升近60%。

53 分钟前
近日,家用智能设备厂商Beatbot正式发布面向泳池护理场景的Sora系列机器人,产品搭载边缘端AI视觉模型,可自主识别水体杂质、规划清洁路径,清洁覆盖率较传统自动清洁设备提升47%。与此同时,OpenAI、Google、DeepSeek等主流大模型厂商均在加速布局智能家居赛道,AItoC落地场景边界正在持续扩容。

56 分钟前
近期苹果公司旗下原生AI功能Apple Intelligence在国内iOS 18开发者预览版用户设备中短暂现身,上线仅数小时后便被快速关停。作为苹果首款端云协同大模型服务,Apple Intelligence此前官宣仅面向欧美英语市场率先推送,本次意外曝光也引发业内对其中国区落地进程、监管适配进度的广泛讨论。

1 小时前
科技媒体Digital Trends最新发布的AI赛道趋势观察显示,2024年以来OpenAI、谷歌、DeepSeek、苹果等全球头部厂商的核心AI产品ChatGPT、Gemini、Apple Intelligence、Perplexity等相关搜索量同比上涨127%,用户对AI工具的实用性需求已远超概念性追捧,生成式AI产业正从技术研发阶段全面转向落地普及阶段。

1 小时前
科技品牌戴尔近期对旗下高端Copilot+ PC推出限时优惠,搭载英特尔酷睿Ultra 9处理器、32GB运行内存、2.5K Mini-LED触控屏的顶配机型直降500美元,到手价低于1100美元。作为微软官方认证的端侧AI设备,本次降价大幅拉低了高端Copilot+ PC的入手门槛,也侧面反映出消费级AI硬件市场的竞争正在快速升温。

1 小时前
美国科技媒体Digital Trends近期开展的AI体育赛事预测实验显示,测试者调用ChatGPT、Google Gemini、DeepSeek三款主流大模型,对NCAA“疯狂三月”男篮锦标赛64强赛果进行预测,整体准确率仅为41.7%,远低于美国资深球迷群体61%的平均预测准确率,暴露了当前通用大模型在非结构化、高随机性场景下的能力短板。