模型合并技术通过组合多个模型的权重或结构,实现性能与效率的兼得。本文从现代大型语言模型的应用回溯到早期机器学习研究,解析其核心方法、实际案例与未来趋势。
训练一个顶尖的AI模型,成本高得吓人。以百度文心一言为例,单次训练耗资千万级别,电费、GPU资源、时间成本让多数团队望而却步。
模型合并提供了一条捷径:把多个已经训练好的模型“揉”在一起,让它们的优势互补。
比如,一个模型擅长写中文古诗,另一个模型擅长写代码。合并之后的新模型,能否同时具备这两种能力?答案是肯定的。
模型合并并不是什么新鲜概念。早在2010年代,机器学习社区就在研究模型集成(Ensemble Learning),比如随机森林、XGBoost——把多个弱分类器组合成一个强分类器。
但在参数空间层面进行合并(也就是直接融合模型权重),是随着Transformer架构和大型语言模型(LLM)的兴起才真正火起来的。
| 时期 | 代表技术 | 合并方式 |
|---|---|---|
| 早期(2010s) | 模型集成 | 结果投票/平均 |
| 中期(2018-2022) | 权重平均 | 线性插值 |
| 当前(2023-) | 参数融合 | 匹配层后合并 |
最简单直接的方法。把多个模型的对应层权重取平均。
优点是快、不费算力。缺点是只对同架构的模型有效,而且可能破坏原有能力。
比如,把阿里的通义千问和腾讯的混元模型硬平均——架构不同,参数维度不匹配,根本合不了。
这是最近的高频思路。先算出“任务向量” = 微调后模型的参数 - 基础模型的参数。
然后把这些任务向量加回到基础模型上。
于是,一个模型既能写诗(向量1),又能写代码(向量2),还不忘本(保留基础能力)。
论文《Editing Models with Task Arithmetic》把这种思路讲得很透。
不是直接合并参数,而是在训练过程中让两个模型的梯度对齐。这样最终的模型天然就融合了多个源的知识。
类似滴滴打车同时优化司机接单率和乘客等待时间——不是简单相加,而是找帕累托最优解。
不同厂商的LLM架构差异巨大(LLaMA系、GLM系、Qwen系),目前无法直接合并。需要先做参数对齐,比如用线性变换把维度映射到同一空间。
合并后,原有能力可能衰减。比如一个模型本来擅长翻译,合并后翻译质量下降。
需要引入权重系数或稀疏掩码来保护重要参数。
合并后的模型内部发生了什么?目前还是黑箱。业界正在探索用神经元重要性打分来理解每个参数贡献了多少。
模型合并不是魔法,但它为AI开发提供了一条低成本、高效率的路径。
从传统ML的集成学习,到现代LLM的参数融合,这条路越走越宽。未来,模型合并+小样本微调或许会成为AI应用的标准范式。
参考:Charles Goddard et al., Model Merging: A Survey (2024)
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断