新闻网讯 10月11日,中国自动化大会上召开,人工智能与自动化学院伍冬睿教授团队发表于《自动化学报(英文版)》(IEEE/CAA Journal of Automatica Sinica,影响因子19.2)的综述论文“A survey on Negative Transfer”获该刊2025年度Norbert Wiener Review论文奖。这也是伍冬睿教授团队获得的第7个杰出论文奖。

图为获奖证书和奖牌
传统机器学习的一个基本假设是训练和测试数据同分布。然而,现实应用中该假设往往不能满足。比如,两个图像数据库可能是用不同的相机在不同光照条件下采集的;脑机接口中的被试往往具有很大的个体差异。所以,从训练集上获得的模型在测试集上的泛化能力经常退化。
一个直观的解决办法是重新采集跟测试集样本分布相同的大量带标注样本,基于此训练一个有监督机器学习模型;然而,因为标注成本、隐私保护等限制,现实应用中往往无法获得这样的大量带标注样本。
更好的解决办法是使用迁移学习,即使用源域的数据或信息来促进目标域的学习。这样,目标域只需要很少或完全不需要带标注样本。
然而,迁移学习并非总是有效,除非其3个基本假设都得到满足:源域和目标域的学习任务相似或相关;源域和目标域数据分布比较接近;存在一个源域和目标域同时适用的模型。当这些假设不满足时,就会发生负迁移,即使用源域的数据或知识反而会让目标域学习性能变差,不如直接用目标域的数据进行训练,如下图所示。

负迁移图示
负迁移是迁移学习中一个长期存在且很具挑战性的问题。可靠的迁移学习需同时考虑3个问题:迁移什么?如何迁移?何时迁移?论文对近100种对抗负迁移的方法进行了分类和回顾。

图为对抗负迁移的方法总结
论文首次提出无监督与半监督场景下负迁移的理论定义,结合迁移学习中目标域误差理论界限指出负迁移产生原因。一是域间差异大:负迁移产生的根源,在特征、参数、训练、模型预测层面未考虑减轻域间差异的迁移学习算法都更有可能导致负迁移;二是源数据质量差:源域数据可分性差、类别不平衡或包含噪声,或者源模型过拟合、欠拟合或被对抗攻击的源模型也可能导致负迁移;三是目标域数据质量差:目标域数据可能包含噪声或非平稳的,具有开放或混合的域边界,或存在新类别和标签偏移都可能导致负迁移;四是不合适的迁移学习算法:迁移学习算法一般均存在一些假设和特定的应用场景。在特定任务上选择不合适的迁移学习算法、或使用不合适超参数也可能导致负迁移。
论文还构建了负迁移检测标准和负迁移任务构造策略,如下图:

人工智能与自动化学院博士生张稳为第一作者,硕士生邓凌飞为第二作者,伍冬睿教授为通讯作者。合作者还包括重庆大学张磊教授。该论文谷歌学术被引492次、WoS被引192次。