清华大学王智：工业大模型「数据、算力、成本」三重门，我们如何系统破局？丨GAIR2025

2025年12月12-13日，第八届GAIR全球人工智能与机器人大会在深圳·博林天瑞喜来登酒店正式启幕。

作为AI 产学研投界的标杆盛会，GAIR自2016年创办以来，始终坚守“传承+创新”内核，始终致力于连接技术前沿与产业实践。

在人工智能逐步成为国家竞争核心变量的当下，算力正以前所未有的速度重塑技术路径与产业结构。13日举办的「AI 算力新十年」专场聚焦智能体系的底层核心——算力，从架构演进、生态构建到产业化落地展开系统讨论，试图为未来十年的中国AI产业，厘清关键变量与发展方向。

GAIR 2025「AI 算力新十年」专场上，清华大学深圳国际研究生院副教授王智发表了题为《工业机理 × 大模型：行业大模型的系统约束与可控推理的研究进展》的主题演讲，系统阐述了他对工业大模型训推和落地实践的核心判断。

清华大学王智：工业大模型「数据、算力、成本」三重门，我们如何系统破局？丨GAIR 2025

当智能制造从自动化走向智能化，工业大模型被视为关键一跃，却也直面着真实产线中数据稀缺、算力受限、成本敏感的三重挑战。这不仅是一个算法问题，更是一个需要贯通学术前沿与产业实践的复杂系统工程。

在此背景下，清华大学深圳国际研究院的王智教授与其联合团队，选择了一条“从场景中来，到场景中去”的攻坚路径。他们依托国家基金委重点项目，联合深圳信息职业技术学院、汇川技术等合作伙伴，在过去一年里，将研究扎根于工业质检、具身智能、程序生成等具体场景，试图拆解并回应那些最实际的问题：如何用大模型升级传统规则系统？如何让机器自主理解并执行任务？如何在弱算力、弱网络的工厂环境下，让智能模型真正“跑起来”？

与单纯追求模型规模的常见叙事不同，王智教授团队的工作呈现出鲜明的“工程思维”与“成本意识”。他们的探索从底层的数据生成与表征优化出发，延伸至模型规划、分布式训练与推理加速的全链路，其目标并非打造一个万能的“工业GPT”，而是构建一套能让大模型技术适配工业严苛约束、实现低成本高效部署的方法论体系。

这背后，是一个更为深刻的议题：当通用人工智能的浪潮席卷而来，工业领域究竟需要怎样的大模型？它的知识如何注入机理与约束？它的智能又如何与机器人、产线、网络环境协同共生？王智教授的汇报，正是对这一议题的一次阶段性答卷。

以下为王智教授演讲精彩内容的精编整理，雷峰网(公众号：雷峰网)作了不改变原意的编辑：

非常荣幸能在此与大家分享我们的研究工作。

我们团队承担了国家基金委的重点项目，此次汇报主要涵盖项目启动大半年来取得的研究进展。需要说明的是，今天所展示的成果，是我们与深圳信息职业技术学院、汇川技术联合团队共同完成的。同时，我们也基于此基础，与普渡科技、越疆科技合作开展了深圳市重点研发计划项目的研究，相关内容也一并向各位汇报。

首先介绍项目背景。当前，智能制造正加速融入智能化元素，以工业大模型为代表的行业大模型已成为发展的必然趋势，因此，针对智能制造行业大模型展开深入研究，显得尤为迫切。

清华大学王智：工业大模型「数据、算力、成本」三重门，我们如何系统破局？丨GAIR 2025

在本项目中，我们围绕几个关键方向开展了应用示范探索：其一，如何将传统基于规则的小模型质检方式，升级为大模型驱动的质检；其二，开展工业具身智能研究，推动大模型与机器人深度融合；其三，进一步探索大模型在工业编程领域的应用——例如，能否让大模型生成PLC程序，从而实现对整条产线的优化？这是我们项目初期确立的几个重点问题。

清华大学王智：工业大模型「数据、算力、成本」三重门，我们如何系统破局？丨GAIR 2025

传统模型在具有明确工艺机理、且受成本制约的工业场景中，存在一定的缺陷。我们通过梳理发现，现有数据往往缺乏对工业机理、工业约束与成本约束的控制；同时，模型的训练与推理也面临算力与效率的双重挑战。这些不足，正是我们开展此项新研究的出发点。

接下来，我将以点线结合的方式，向大家汇报我们近一年来的研究进展及最新思考。我们主要针对三大挑战展开攻关：一是行业应用中的数据短缺问题；二是工业模型重训练与微调时算力网络资源的不足；三是工业场景对推理效率的严苛要求。围绕这些挑战，我们在四个方向进行了布局：数据制备、模型规划、分布式训练以及推理加速，其中特别聚焦于以视觉语言模型（VLM）、视觉语言动作模型（VLA）为代表的具身模型的加速。

清华大学王智：工业大模型「数据、算力、成本」三重门，我们如何系统破局？丨GAIR 2025

首先是工业跨场景数据的生成与融合。这里我主要以具身智能与工业场景结合为例。现有数据多通过遥操、工厂记录等方式采集，成本高、局限性大，且难以嵌入背后的工业机理知识。

为此，我们提出了虚实融合的数据制备智能体框架，旨在实现低成本、高质量的合成数据生成。项目周期为三年，目前已完成约三分之一。

我们主要在以下三方面取得了进展：一是物理可靠场景的重建，经历了从影视、声音、网络至3D高斯的进展；二是结构化场景的生成与编辑；三是探索利用大模型进行场景泛化与数据生成。相关工作已发表为论文，考虑到今天可能大部分观众来自产业界，在此选取部分内容展开说明。

清华大学王智：工业大模型「数据、算力、成本」三重门，我们如何系统破局？丨GAIR 2025

我们首先探索了利用NeRF（神经辐射场）等隐式神经表征来刻画工业场景所需的多模态数据。这类表征具有跨模态兼容性强的优点，能够统一表达音频、时序、3D及2D数据，但其缺点是速度慢，因此我们的工作重点围绕加速展开，包括优化3D数据采样方向、以及针对2D数据重点进行减枝与优化，从而显著提升了隐式神经表征的效率。

清华大学王智：工业大模型「数据、算力、成本」三重门，我们如何系统破局？丨GAIR 2025

然而，3D隐式神经表达的速度瓶颈依然突出。为此，在第二阶段，我们将重心聚焦于可视化3D数据，并将研究范式从影视声音表达过渡到3D高斯表征，但3D高斯模型体量较大，对大范围场景进行表征和传输时，仍面临存储与带宽的压力。

我们在现有工作基础上进行了拓展：当前研究大多集中于提升失真性能，却难以在给定存储大小限制下重建场景，我们重点解决了这一问题。

此项工作主要包含几个部分：首先，通过测量分析，我们明确了3D高斯重建中与模型大小最相关的超参数及其影响关系，从而改变了传统“先重建后优化”的范式，转向在训练中直接针对高敏感度参数进行优化。同时，我们在算子层面也进行了加速。图中展示了我们的实验效果，其核心优势是能将模型压缩到足够小。

在当前一味追求重建质量的红海竞争中，我们从延迟、带宽与设备限制角度对3D高斯进行优化，这一思路获得了ACM Multimedia评委会的认可，成为1500余篇投稿中入选最佳论文候选的6篇之一。

我们相信，这项技术不仅可用于预训练数据制备，也将推动沉浸式多媒体体验的发展，其核心挑战依然是带宽与质量之间的平衡。

前两项工作主要关注数据的底层表征。在获得表征后，还需将其编排成完整场景。为此，我们开发了基于大模型的结构化场景生成与编辑方法。

首先，我们尝试将场景结构化为JSON或XML等格式，进而利用大模型进行编辑。当然，这不可避免地会产生“幻觉”问题。我们引入了一种力引导结构来消除违背常识的布局，例如防止沙发嵌入墙体或物体姿态不合理。经过优化，我们能生成既真实又多样化的场景布局。

拥有了场景和物体资产后，下一步便与本次会议的主题紧密相连：我们能否制备出真正有用的数据？这是对我们已有多个模块的综合应用。核心问题很直接：能否不通过人工示教或遥操，就让机器自主运动并完成任务？既让语言类模型已经有了泛化能力，我们又可以相对比较真实、快速地生成数据，这是我们的初衷。

这个初衷想达到什么样的效果？

我们拍摄一张实验室真实场景的照片，不进行任何示教，就凭空仿真去生成一系列的这个行为记录，用行为记录数据对VLA模型进行微调，它能否工作？

我们测试了这一流程的可行性。结果表明，该流程充满希望，尽管目前仍存在一些边界案例。模型已能识别操作点并泛化出运动轨迹，但偶尔仍会出现不满足物理约束或动作不合理的情况。

在实验室环境下，这样生成的示教数据已经具备实用价值。

清华大学王智：工业大模型「数据、算力、成本」三重门，我们如何系统破局？丨GAIR 2025

例如图示，完全无需人工示教，虽然生成的动作在重心平衡、操作点定位上存在偏差（如浇花时未考虑水杯满溢状态的重心变化），但模型成功率从零提升到了75%。我们甚至发现，遥操100条数据与我们自动生成1000条数据所能达到的效果是相近的。

这是我们在不同场景下的实验结果。目前受限于实验室本体与场景的规模，我们希望未来能对此框架进行更大范围的扩展。我们已经部分解决了生成速度、任务泛化与场景编排的问题。展望未来，在不同本体协作的背景下，是否会产生新的有趣现象？我们也期待与各位同行深入交流。

在数据制备的最后部分，我们还探索了智能体级别、决策级别的数据制备。具体场景是：在具身智能研究中，多个智能体需协作完成任务，如何制备这类数据？我们搭建了一个仿真环境，让多个智能体在同一3D场景中协作，并记录其交互数据，作为未来训练智能决策的基础。

在此过程中，我们重点解决了智能体间的协作维护问题，设计了一种分布式信念结构，以实现高效通信。基于此，智能体能够以尽可能少的通信量，协同完成打扫、收纳、侦查、巡检等任务。

清华大学王智：工业大模型「数据、算力、成本」三重门，我们如何系统破局？丨GAIR 2025

第二部分，是针对工业机理约束的大模型设计。需要澄清的是，我们不是做基模的设计，而是研究如何利用大模型来编排策略、工具链及其他智能体。工业场景的核心约束之一是成本，这不仅指推理成本，更包括所串联工具链本身的运行成本。为此，我们研究了融合拓扑约束与成本反馈的高效任务规划方法。

清华大学王智：工业大模型「数据、算力、成本」三重门，我们如何系统破局？丨GAIR 2025

这是我们的总体框架。传统大模型调用工具也能完成任务，但其产生的动作序列成本可能较高，例如导致机械臂不必要的弯折或调用高算力算法。

为控制成本，我们进行了两方面设计：一是将各类工具Token化，使其能被语言模型像处理词汇一样进行编排；二是将任务执行产生的成本消耗转化为奖励信号，通过强化学习过程来优化工具调用策略。

大家可能会问：将大模型用于娱乐对话尚可，但在视频处理、工业控制等严肃场景，其成本与延迟是否可接受？为此，我们与字节跳动合作了一个项目，针对视频服务场景，研究大模型在带宽预测、码率优化等任务中的实际效能。

基于真实数据的测试，我们发现了一些规律：

首先，大模型确实具备良好的泛化能力，能够适应网络领域的任务，我们对码率自适应、任务调度、带宽预测三类任务进行了验证。其次，在网络任务中，模型性能似乎存在某种“缩放定律”提前饱和的现象，未必需要特别大规模的模型。此外，我们提出了大模型路由机制：并非所有任务都需经过大模型处理，常规任务可直接由传统规则或算法处理；只有当任务超出传统算法能力范围时，才路由至大模型，从而在某种程度上保证软性的延迟上限。

清华大学王智：工业大模型「数据、算力、成本」三重门，我们如何系统破局？丨GAIR 2025

第三部分，是关于弱算力、弱网络环境下的分布式训练。这部分研究起步稍晚，目前我们已完成流水线规划和梯度压缩方面的工作，目标是在算力网络资源受限的条件下，更高效地利用资源对模型进行后训练或微调，以适应不同场景需求。

这两部分工作理论性较强。

清华大学王智：工业大模型「数据、算力、成本」三重门，我们如何系统破局？丨GAIR 2025

我们改进了Top-k梯度压缩方法，该方法虽能有效减少通信量，但在非独立同分布数据场景下性能可能下降。我们提出了一种新的压缩机制，使其在联邦学习等场景下能达到与未压缩相当的收敛性能。

无论模型是预训练还是微调得来，最终都需在类工业或工业场景中快速部署。我们重点针对具身智能模型（如OpenVLA框架）进行加速优化。与通用语言模型相比，这类模型包含几个显著模块：视觉感知、视觉语言理解（VLM）以及策略生成（通常基于扩散模型）。我们的工作可概括为对这三部分分别进行优化，手段包括参数量化、输入量化、通道剪枝以及KV Cache优化。

清华大学王智：工业大模型「数据、算力、成本」三重门，我们如何系统破局？丨GAIR 2025

首先，在视觉感知部分，其输出数据受模型参数与输入数据通道的共同影响，我们发现模型结构与输入数据之间存在耦合关系。因此，我们提出了一种多维度联合轻量化方法，针对感知模块进行加速：对于某些数据，在数据层面进行剪枝对后续任务影响更小；而对于其他数据，则更适宜在模型层面进行过滤，这些特性能够在我们框架中被自动学习。感知数据输入后，需经VLM处理。我们对此也进行了优化，主要发现时间与空间维度可以联合压缩：在VLM感知阶段，Token序列具有关联性，不可随意混排；同时，不同Token的重要性也不同。我们据此提出了时空联合压缩优化框架。

接下来是策略生成部分的扩散模型加速。

值得一提的是，在我们实验室的测试中，前端的感知与VLM部分耗时约占3%，策略生成部分约占1%，但两者均有加速空间。对于扩散模型，我们主要通过缓存机制，以存储换计算。我们的特点是将KV Cache的粒度细化至“块”级别，这虽然增加了缓存单元的数量，但也为优化提供了更细的指导。我们摸索出了“块”在时序上的参考规律。

初步实验表明，在算法相同的情况下，仅优化“块”缓存策略就能带来显著的速度提升。

进一步地，我们不仅利用“块”在时序上的参考性，还探索了同一transformer模块内不同“块”之间的空间参考性。我们发现，同一空间内的“块”也具备相似性，可相互参考，从而进一步节省计算，我们还观察到一个有趣现象：在动作生成过程中，只需参考后续的部分“块”，而对前面序列的参考可以大幅减少。

下面简要介绍我们在专项任务中开展的应用场景示范。

首先，针对智能产线机器人。我们融合示教数据与生产数据对模型进行微调，再结合前述加速技术，逐步解决单点问题，最终集成为复杂的工程系统，使其能在真实产线场景中可靠工作。

第二，针对质检任务。我们利用大模型进行工具调用。在某些行业企业中，质检部门已积累了成百上千个检测工具，我们的方法能结合成本考量，智能调用这些现有工具链。

最后是总结与展望。

我们的工作是从通用大语言模型向工业大模型过渡的探索。我们发现，工业大模型在数据层面需要融合3D信息与物理约束，场景需多样化；在训练层面需适应弱网弱算环境；在训练与推理层面，均受到效率与具体场景的严格限制。

我们承担的重点专项隶属于国家基金委工业互联网方向。结合工业互联网与边缘网络的发展趋势，我们未来两至三年的重点攻克方向包括：模型加速、语义通信、网络自主化以及多智能体协同等。

以上是我今天的分享内容，涵盖了我们团队的开源项目进展及实验室成果转化情况。

谢谢大家。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。