一、定义
“联邦学习”让互相不信任的各方,可以把样本和特征汇聚到一起,共同获得更好的预测模型。
2016年由谷歌团队提出,数据不动模型动。[可信联邦学习研究进展]
联邦学习的初心是建立一种方法在保护隐私的前提下让多个端协同进行机器学习训练。[联邦学习Federated Learning思考(一)]
联邦学习(Federated Learning)是一种新兴的机器学习方法,旨在解决在分布式环境下的数据隐私和安全问题。传统的机器学习方法通常需要将所有数据集中在一个中心位置进行训练,这样可能导致数据隐私和安全问题。而联邦学习则采用一种去中心化的训练方式,让每个参与者在本地训练模型,然后将模型的更新参数发送给中央服务器,由中央服务器聚合这些更新以更新全局模型。[AI续写]
联邦学习核心问题:
二、分类
1、横向联邦学习 FA
横向联邦学习主要用于解决样本不均衡的问题,适用于两个或多个client上的数据集拥有相同的特征空间,而样本ID空间不同,目的是通过扩展样本的数量增加模型训练的精度。
例如,不同医院的电子病历数据,每个医院的数据特征相似,但样本分布不同。(ID不同)
横向联邦学习的过程如下:
- 选取公共特征:首先,从各方数据集中选取公共的特征,用于后续的模型训练。
- 加密训练:各方在本地进行加密训练,得到模型更新参数。
- 模型聚合:各方将模型更新参数发送给中央服务器,由中央服务器聚合这些更新以更新全局模型。
- 更新模型:中央服务器将聚合后的全局模型发送给各方,各方使用全局模型进行本地更新。
- 重复步骤3和4,直到模型收敛。
2、纵向联邦学习
纵向联邦学习主要用于解决特征不充分的问题,适用于两个或多个client上的数据集拥有相同的样本ID空间,而特征空间不同,目的是通过扩展特征的数量提高模型训练的精度。
例如,有一家银行和一家保险公司同在一个城市,它们的客户群体很多是重合的(ID重合),但是银行的数据是用户的资产信息,而保险公司的数据是用户的保险信息,如果它们想要在不互相披露数据的情况下,联合开发一个风控模型。
纵向联邦学习的过程如下:
- 选取公共样本:首先,从各方数据集中选取公共的样本,用于后续的模型训练。“加密实体对齐”
- 加密训练:各方在本地进行加密训练,得到模型更新参数。
- 模型聚合:各方将模型更新参数发送给中央服务器,由中央服务器聚合这些更新以更新全局模型。
- 更新模型:中央服务器将聚合后的全局模型发送给各方,各方使用全局模型进行本地更新。
- 重复步骤3和4,直到模型收敛。
3、联邦迁移学习(FTL)
迁移学习是指将从一个任务中学习到的知识或经验应用到另一个任务中的机器学习技术。
联邦迁移学习(FTL)是一种在联邦学习中引入迁移学习的方法,适用于两个或多个数据集在特征空间(X)和样本ID空间(Y)上都没有相同点。
例如:不同地区的银行和电子商务公司,业务(特征)和用户(样本ID空间)都没有交集。
FTL通过引入一个公共的源域数据集,将源域数据集的知识迁移到目标域数据集中,以提高目标域模型的性能。FTL的过程如下:
- 选择源域数据集:首先,选择一个公共的源域数据集,该数据集与各方的目标域数据集具有相似的数据分布。
- 训练源域模型:在源域数据集上训练一个模型,作为迁移学习的基础模型。
- 联邦训练:各方在联邦学习的框架下,使用基础模型进行加密训练,得到模型更新参数。
- 模型聚合:各方将模型更新参数发送给中央服务器,由中央服务器聚合这些更新以更新全局模型。
- 更新模型:中央服务器将聚合后的全局模型发送给各方,各方使用全局模型进行本地更新。
- 重复步骤3和4,直到模型收敛。
联邦迁移学习的架构类似于纵向联邦学习,但是采用的梯度计算方法、损失函数、交换结果有所不同。这个领域目前相对较不成熟。
三、优点与缺点
联邦学习有以下优点:
- 保护隐私:联邦学习可以在不泄露原始数据的情况下训练模型,从而保护用户隐私。
- 节省资源:联邦学习可以在资源有限的设备上进行训练,从而降低了计算成本。
- 个性化:联邦学习可以根据每个参与者本地的数据训练个性化的模型,从而提高模型性能。
- 去中心化:联邦学习避免了将大量数据集中在一个中心位置的问题,从而降低了数据泄露的风险。
缺点是:
- 安全性的代价是性能。与不需要加密的分布式机器学习相比,联邦学习的性能显然要低得多。
- 联邦学习默认各个参与方是可信的,虽然采取了一些防范措施,但是仍然难以有效防范恶意参与方或者“诚实但是好奇”的参与方,引入虚假数据或者有害数据。
- 联邦学习的各个参与方的计算能力不同,网络连接不稳定,数据机构差异大等,而过程中又需要进行大量的互相通信,因而通信效率很容易成为性能瓶颈。
四、应用场景
联邦学习的应用场景包括:
- 移动设备:联邦学习可以在移动设备上进行训练,从而实现个性化推荐、语音识别等应用。
- 物联网:联邦学习可以在物联网设备上进行训练,从而实现设备故障诊断、能耗优化等应用。
- 金融:联邦学习可以在金融行业中用于风控、信贷评估等应用,同时保护用户隐私。
- 医疗:联邦学习可以在医疗行业中用于疾病预测、药物研发等应用,同时保护患者隐私。
- 监管:监管机构可以通过组合不同部门、机构的数据,对洗钱、欺诈等行为建立更加精确的预警模型。
五、最新进展
1、联邦学习标准、open-sourse平台、专利
2、研究展望:
- 安全合规
- 防御攻击
- 算法效率
- 技术应用
- 联盟机制
3、《联邦学习》教科书出版
六、参考资料
扫盲:
https://zhuanlan.zhihu.com/p/556130371
https://zhuanlan.zhihu.com/p/577963737
联邦学习+推荐 / +视觉-智慧城市 / 语音识别