【文章笔记】【模型融合】Merging Multi-Task Models via Weight-Ensembling Mixture of Experts
Merging Multi-Task Models via Weight-Ensembling Mixture of Experts
1.文章内容总结
1.1 背景和挑战
背景:深度学习的快速发展推进了向微调大型预训练模型转变用于下游任务,而非从头开始训练。初始在大规模数据集上训练过后,预训练模型具备了出色的常识,并能熟练识别和处理大型数据模式。这些模型在下游任务上微调后能获取特定任务的知识。在这种情况下,将多个特定任务的模型merge成一个统一的模型成为了知识转移和多任务学习的有效、可扩展的策略。
2025-08-045084 字11 分钟
【文章笔记】【模型融合】Editing Models with Task Arithmetic
Editing Models with Task Arithmetic
1. 文章总结及思考
1.1 背景
背景和动机:科研人员经常会想要在预训练之后再去编辑模型,来提高在下游任务上的性能,减少偏差或不符合期待的行为,让模型对齐人类偏好,或用新的信息更新模型。
2025-08-046321 字13 分钟
【文章笔记】【模型融合】AdaMerging
AdaMerging: Adaptive Model Merging for Multi-Task Learning
1.文章总结及思考
1.1 背景(动机和挑战)
当前的merge是让多个微调好的模型merge成一个模型后去执行MTL,但这存在几个问题:
2025-08-043992 字8 分钟
【文章笔记】【模型融合】Model Merging in Pre-training of Large Language Models
Model Merging in Pre-training of Large Language Models
摘要
模型merge已成为增强大型语言模型的一种有前景的技术,尽管它在大规模预训练中的应用仍然相对未被探索。本文对预训练过程中的模型merge技术进行了全面的研究。通过对从数百万到超过1000亿个参数的密集和混合专家(MoE)架构的广泛实验,我们证明,merge以恒定学习率训练的检查点不仅可以显著提高性能,还可以准确预测退火行为。这些改进不仅提高了模型开发的效率,还显著降低了培训成本。我们对合并策略和超参数的详细消融研究为潜在机制提供了新的见解,同时揭示了新的应用。通过全面的实验分析, …