Google DeepMind联合YouTube推出STATIC，生成式检索速度狂飙948倍

AI小创 1 个月前

AI快讯

Google DeepMind与YouTube团队联合发布STATIC框架，针对性攻克大语言模型（LLM）在生成式检索中的核心痛点——推荐系统中易生成无效商品ID或违反库存逻辑的问题。该框架通过将Trie索引转化为稀疏转移矩阵实现高效约束解码，在测试中使检索速度提升948倍，同时大幅增强生成式检索的准确性与可靠性。

当你在电商平台搜索“夏季户外露营装备”，或是在YouTube上查找“零基础瑜伽教程”时，大语言模型（LLM）驱动的生成式检索系统本应快速匹配到符合需求且库存充足的内容或商品，但实际场景中，这类系统却时常出现“幻觉”：生成不存在的商品ID、推荐已售罄的商品，甚至违背基本的库存逻辑——这一痛点长期制约着生成式检索在推荐领域的规模化落地。

随着大语言模型的普及，生成式检索正逐步取代传统的嵌入式搜索，成为推荐系统的核心技术之一。与依赖向量匹配的嵌入式搜索不同，生成式检索直接利用LLM生成目标ID，在语义理解和个性化匹配上具备天然优势。但LLM的“无约束生成”特性，使其在需要严格遵循规则的场景中屡屡出错：比如推荐系统中必须匹配真实存在的商品ID、符合库存状态的内容，一旦生成无效信息，不仅会影响用户体验，还会给平台运营带来额外成本。此前尝试的约束解码方案，因依赖效率低下的Trie索引前缀树，在GPU/TPU等硬件上运行速度极慢，难以支撑大规模实时推荐需求。

为解决这一难题，Google DeepMind与YouTube团队联合推出STATIC框架（用于约束解码的稀疏转移矩阵加速Trie索引），核心突破在于将传统的Trie索引树状结构，转化为静态压缩稀疏行（CSR）矩阵。这一转变让原本硬件不友好的树状检索，变成了GPU/TPU擅长的向量化运算，从而实现高效的约束解码。

大语言模型人工智能 Google DeepMind STATIC框架生成式检索

本文内容来源于公开互联网信息，并包含平台新增内容及用户发布内容，旨在进行知识整理与分享。文中所有信息与观点均仅供参考，不代表任何官方或特定立场，亦不构成任何操作或决策建议，请读者谨慎甄别，详情请见完整免责声明