2026年6月26日,富士通正式发布创新PHOTON自上而下网络并行分层计算架构,针对当前AI领域主流Transformer大模型在长文本处理、高并发多查询场景下频繁访存导致的效率痛点,实现算力性能提升475倍,为破解全行业长期面临的算力成本高企、处理效率不足的共性难题提供了全新技术路径。过去三年大语言模型的迭代速度远超行业预期,上下文窗口从4K快速跃升至百万Token级别,参数规模最高突破十万亿级,但支撑所有主流大模型的Transformer架构却已经显露出明显的先天短板。根据行业调研数据,在处理长文本推理、高并发多轮查询任务时,传统Transformer架构需要反复调取显存中的历史词元数据,访存延迟占总推理耗时的比例超过70%,GPU满负载运行时的有效计算占比不足30%,大量算力被白白消耗。仅2025年,全球企业用于大模型推理的算力投入同比上涨320%,高昂的成本已经成为AI技术落地的核心阻碍之一。富士通此次推出的PHOTON架构,核心是跳出了传统Transformer的词元级计算逻辑,从架构层面做了自上而下的重构。 不同于传统Transformer对输入内容做逐词切割的处理方式,...