当大型语言模型(LLMs)逐步渗透进科研、商业、日常服务等多元场景,一个关键矛盾正愈发凸显:应用端对推理效率的高需求,与现有技术计算开销大、准确率收益递减的现实形成尖锐对立。就在行业为这一困局绞尽脑汁时,Meta FAIR(基础 AI 研究部门)研究团队抛出了颠覆性解决方案 ——DeepConf(Deep Think with Confidence)方法。北京时间 9 月 9 日 9:00am,Z Potentials 将特邀该方法共同贡献者、Meta FAIR 研究科学家 Jiawei Zhao(加州理工学院博士)开启直播访谈,深度拆解 “置信度信号驱动低质轨迹动态过滤” 的核心逻辑,为 LLM 推理效率与性能的双重提升提供全新思路。

作为 Meta FAIR 的核心研究力量,Jiawei Zhao 在机器学习领域早已积累了深厚的技术沉淀,尤其在 LLM 优化方向成果斐然。内存优化层面,他博士期间提出的 GaLore 方法(入选 ICML 2024 oral),凭借捕捉梯度低秩结构的创新思路,大幅节省模型训练与推理的内存及计算资源;针对长序列训练的 Mini-Sequence Transformers 方法,也成功入选 NeurIPS 2024,为解决长文本处理的内存瓶颈提供了有效路径。在推理效率提升领域,他主导的 Act Only When It Pays 方法,通过强化学习式的选择性展开策略减少无效计算;HeadInfer 方法则借助 “按注意力头卸载” 技术,实现内存高效的 LLM 推理,这些成果均成为 DeepConf 方法的重要技术铺垫。此外,他在模型微调(如 S²FT,发表于 NeurIPS 2024)与理论研究(低秩梯度 / 权重结构、张量分解等)的深耕,更为 DeepConf 的可靠性提供了扎实的理论支撑。
而 DeepConf 的另一位共同贡献者 Yichao Fu,作为加州大学圣地亚哥分校(UCSD)Hao AI 实验室博士生,同样在 LLM 系统优化领域颇具建树。他参与开发的 “Efficient LLM Scheduling by Learning to Rank”(NeurIPS 2024),通过学习排序机制优化模型调度效率;“Break the Sequential Dependency of LLM Inference Using Lookahead Decoding”(ICML 2024)则突破了 LLM 推理的顺序依赖限制,二者在系统层面的创新,与 Jiawei Zhao 的算法优化形成互补,共同推动 DeepConf 实现 “理论 – 算法 – 系统” 的全链条落地。
DeepConf 的诞生,直指 LLM 推理的核心痛点 —— 传统自一致性多数投票方法在提升准确率时,往往面临 “计算开销陡增但准确率收益递减” 的困境。为解决这一问题,团队创新性地提出 “利用模型内部置信度信号动态过滤” 的思路:无需额外模型训练或超参数调优,即可无缝集成现有服务框架,通过提取组置信度、底部 10% 组置信度、尾部置信度等关键信号,在推理轨迹生成中或生成后,精准筛选掉低质量轨迹,保留高价值计算路径。该方法分为离线与在线两种模式,分别适配不同应用场景的需求。
在权威基准测试中,DeepConf 的表现堪称惊艳。以 AIME2025 推理基准为例,离线模式下,DeepConf@512 在 GPT-OSS-120B 模型上实现 99.9% 的超高准确率,远超传统多数投票方法的 97.0%,将推理精度推向新高度;在线模式下,其优势则集中在效率提升 —— 相比全并行推理,最多可减少 84.7% 的生成 Token 量,同时还能实现准确率的反向提升,真正打破 “效率与性能不可兼得” 的魔咒。这种 “零额外成本、双维度提升” 的特性,使其在企业级 LLM 应用中具备极强的落地价值,无论是客服对话、代码生成,还是科研数据分析等场景,都能通过 DeepConf 降低计算成本、提升响应速度。
此次直播访谈中,Jiawei Zhao 将不仅深入解析 DeepConf 的技术细节,还将结合自身在 Meta FAIR 的研究实践,分享 LLM 优化领域的前沿趋势。对于 AI 研发从业者而言,这是一次直击核心技术的学习机会;对于企业决策者来说,更是把握 LLM 效率优化方向、降低应用成本的关键窗口。随着 DeepConf 等创新方法的不断涌现,LLM 推理正逐步告别 “低效冗余” 的旧时代,迈向 “精准计算、高效协同” 的新阶段,而这场访谈,或将成为见证这一变革的重要节点。