少找工具,多做创作

DeepSeek获数亿美元B轮融资 发布推理提速300%的轻量大模型

AI初创企业DeepSeek(深度求索)近日宣布完成数亿美元B轮融资,由红杉中国、高瓴创投联合领投,资金将用于通用大模型技术迭代与垂直场景落地。同时,公司发布新一代轻量通用大模型DeepSeek-Lite全系列,参数覆盖7B至70B,推理速度较上一代提升300%,在中文理解与代码生成基准测试中跻身全球Top3阵营。

2024年以来,国内通用大模型赛道的融资热度持续攀升,据不完全统计,上半年公开披露的融资事件已超22起,单笔融资额多在亿元级别,资本的目光正从“技术炫技”转向“落地可行性”。DeepSeek此次能吸引两家顶级机构联合领投,核心在于其在超长上下文处理、代码生成两大领域的硬实力——此前推出的DeepSeek-Code-V2曾在HumanEval代码基准测试中拿下92.3%的Pass@1准确率,反超GPT-4o的91.2%。

不同于早期大模型公司融资时多强调参数规模,DeepSeek在本次融资沟通中重点展示了落地数据:目前其代码大模型已接入国内120+头部互联网企业的开发平台,帮助开发人员平均提升编码效率45%;通用大模型则与6家全国性银行合作,将智能客服的问题解决率从63%拉升至91%。红杉中国合伙人表示,“我们看好DeepSeek在轻量化模型领域的技术突破,这是解决大模型落地成本过高的核心路径之一”。

此次发布的DeepSeek-Lite系列,核心是采用了自研的结构化稀疏技术与轻量化指令微调方案。在性能层面,70B参数版本在CMMLU中文基准测试中得分达78.6%,仅比GPT-4的80.1%低1.5个百分点;而在部署成本上,7B参数版本可在单张RTX 4090消费级GPU上实现实时推理,延迟低至80ms,部署成本仅为同性能大模型的1/6。

更值得关注的是,DeepSeek-Lite首次实现了“全场景自适应推理”:当处理短文本问答时,模型会自动切换到快速推理模式,速度提升5倍;当处理超长文档总结(最高支持64万token上下文)时,仍能保持90%以上的内容还原度。

DeepSeek创始人兼CEO周明透露,本轮融资的40%将用于垂直场景的模型定制与落地,重点布局工业制造、金融科技与职业教育三大领域。其中,针对工业制造的专属模型预计将于2024年底推出,可支持CAD图纸自动生成、工艺参数优化等功能,有望帮助制造企业缩短研发周期30%以上。

同时,公司计划在未来6个月内开放DeepSeek-Lite的API免费试用权限,面向中小开发者与创业团队降低准入门槛,进一步推动大模型技术的普惠化应用。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
所属分类
相关资讯