登录体验完整功能(收藏、点赞、评论等) — 已累计有 9707 人加入

Nous Research发布CNA技术 零训练零改权实现大模型精准调控

近日,AI开源研究机构Nous Research正式发布全新大模型调控技术对比神经元归因(Contrastive Neuron Attribution,简称CNA)。该技术无需进行稀疏自动编码器(SAE)训练,也不需要修改模型权重参数,仅通过消融稀疏MLP电路即可实现对大语言模型行为的精准控制,大幅降低了大模型对齐与功能定向修改的技术门槛与算力成本。

过去两年,大语言模型的行为定向调整始终是产业落地的核心难点。针对特定场景的全参数或LoRA微调,不仅需要数万至数十万级的训练算力投入,还普遍面临模型原有通用能力被稀释的“灾难性遗忘”风险;而此前业内推崇的稀疏自动编码器(SAE)电路定位方案,同样需要消耗大量算力完成适配,几乎很难被中小开发团队普及。

此次Nous Research推出的CNA技术,核心逻辑是通过对比神经元激活状态的差异,直接定位大模型MLP层中对应特定功能的稀疏电路,完全跳过了SAE训练环节,也不需要对原有模型的权重做任何修改。

开发者仅需识别出对应特定功能的MLP电路,对其进行定向消融,即可快速调整大模型的输出行为:既可以抑制幻觉、有害信息生成等负面能力,也可以定向增强代码生成、专业领域问答等特定能力,整个过程不会影响原有模型的推理效率,算力消耗仅为传统微调方案的1%不到

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯