模型合并：从LLM到传统ML的进化

为什么需要模型合并？

训练一个顶尖的AI模型，成本高得吓人。以百度文心一言为例，单次训练耗资千万级别，电费、GPU资源、时间成本让多数团队望而却步。

模型合并提供了一条捷径：把多个已经训练好的模型“揉”在一起，让它们的优势互补。

比如，一个模型擅长写中文古诗，另一个模型擅长写代码。合并之后的新模型，能否同时具备这两种能力？答案是肯定的。

从LLM到传统ML：一场低调的技术革命

模型合并并不是什么新鲜概念。早在2010年代，机器学习社区就在研究模型集成（Ensemble Learning），比如随机森林、XGBoost——把多个弱分类器组合成一个强分类器。

但在参数空间层面进行合并（也就是直接融合模型权重），是随着Transformer架构和大型语言模型（LLM）的兴起才真正火起来的。

时期	代表技术	合并方式
早期（2010s）	模型集成	结果投票/平均
中期（2018-2022）	权重平均	线性插值
当前（2023-）	参数融合	匹配层后合并

主流的模型合并方法

1. 权重平均法（Weight Averaging）

最简单直接的方法。把多个模型的对应层权重取平均。

优点是快、不费算力。缺点是只对同架构的模型有效，而且可能破坏原有能力。

比如，把阿里的通义千问和腾讯的混元模型硬平均——架构不同，参数维度不匹配，根本合不了。

2. 任务向量法（Task Vector）

这是最近的高频思路。先算出“任务向量” = 微调后模型的参数 - 基础模型的参数。

然后把这些任务向量加回到基础模型上。

于是，一个模型既能写诗（向量1），又能写代码（向量2），还不忘本（保留基础能力）。

论文《Editing Models with Task Arithmetic》把这种思路讲得很透。

3. 梯度匹配融合（Gradient Matching）

不是直接合并参数，而是在训练过程中让两个模型的梯度对齐。这样最终的模型天然就融合了多个源的知识。

类似滴滴打车同时优化司机接单率和乘客等待时间——不是简单相加，而是找帕累托最优解。

中国AI厂商的实践

百度：在ERNIE 3.0中，使用了多任务向量融合技术，让一个模型同时支持理解与生成。
阿里：通义千问的“专业版”和“轻量版”可以通过参数平均快速切换。
字节跳动：豆包大模型在内部实验中，通过合并不同领域专家模型，减少了30%的推理成本。

挑战与未来

1. 架构壁垒

不同厂商的LLM架构差异巨大（LLaMA系、GLM系、Qwen系），目前无法直接合并。需要先做参数对齐，比如用线性变换把维度映射到同一空间。

2. 灾难性遗忘

合并后，原有能力可能衰减。比如一个模型本来擅长翻译，合并后翻译质量下降。

需要引入权重系数或稀疏掩码来保护重要参数。

3. 可解释性

合并后的模型内部发生了什么？目前还是黑箱。业界正在探索用神经元重要性打分来理解每个参数贡献了多少。

总结

模型合并不是魔法，但它为AI开发提供了一条低成本、高效率的路径。

从传统ML的集成学习，到现代LLM的参数融合，这条路越走越宽。未来，模型合并+小样本微调或许会成为AI应用的标准范式。

参考：Charles Goddard et al., Model Merging: A Survey (2024)