总部位于东京的AI初创公司Sakana AI近日发布Text-to-LoRA(T2L)和Doc-to-LoRA(D2L)两项突破性技术,依托“超网络”架构,让大模型无需重新训练即可在秒级内处理超长文档或学习新任务,将传统方式处理12.8万Token文档所需的12GB显存需求降至50MB,有望终结大模型处理长文本时的“内存焦虑”。
当企业试图让大模型处理百万字级的合同、研发文档时,往往陷入两难:要么硬塞文本导致模型响应迟缓、显存告急,要么花费数天时间微调模型,成本高昂——这是AI开发者长期以来的“内存焦虑”。而Sakana AI的最新技术,正在把这个难题的解决时间压缩到一秒以内。
大语言模型的“内存焦虑”并非个例。随着企业对大模型处理长文本需求的爆发,传统方案的弊端愈发凸显:若直接将超长文档输入模型,需要占据数十GB的显存来临时存储上下文信息,普通算力设备根本无法承载;若选择微调模型适配新任务,则需要投入大量算力资源和时间成本,且每处理一类新文档都需重复操作,效率极低。这种矛盾,直接限制了大模型在法律、医疗、科研等长文本密集领域的落地速度。
Sakana AI给出了第三条路径——依托“超网络”架构推出的T2L和D2L两项技术。与传统微调不同,这两项技术无需对大模型本身进行重新训练,而是通过超网络快速生成极小的LoRA(低秩适配)插件,让大模型在秒级内“内化”海量文档或掌握新任务。
其中D2L技术的内存优化效果尤为显著:传统方式处理12.8万Token(约十万字)的文档时,模型需要占用超过12GB的显存来记录上下文信息;而使用D2L技术后,显存需求直接降至50MB,内存占用仅为原来的1/240。T2L技术则侧重于快速学习新任务,比如让大模型在秒级内掌握特定领域的专业规则,无需长时间的微调过程。
这种“即插即用”的超轻量适配方案,为大模型的落地应用打开了新的想象空间。对于企业用户而言,无需采购昂贵的大显存GPU,就能让现有大模型快速处理超长合同、医学病历、科研论文等复杂文本;对于AI开发者来说,秒级的任务适配能力大幅降低了模型迭代和定制的成本,有望推动大模型从“通用型”向“场景化”快速转型。
有行业人士指出,Sakana AI的技术突破本质上是对大模型适配逻辑的重构——不再依赖模型本身的大内存,而是通过超网络的“桥梁作用”实现信息的高效传递,这或许会让大模型告别对高端算力的过度依赖,进入轻量化适配的新时代。