机器学习和人工智能的成功离不开大量的数据,但随着人工智能在各行各业的应用落地,人们对于用户隐私数据保安全的关注度也在不断提高。如何在遵守更加严格的、新的隐私保护条例的前提下,解决数据碎片化和数据隔离的问题,是当前人工智能研究者必须解决的问题。
在以上的背景基础下,人们开始寻求一种不必将所有数据集中到一个中心存储点就能够训练机器学习模型的方法。
联邦学习旨在建立一个基于分布数据集的联邦学习模型。 其基本思想为:
由每一个拥有数据源的组织训练一个模型,之后让各个组织在各自的模型上彼此交流沟通,最终通过模型聚合得到一个全局模型。为了确保用户隐私和数据安全,各组织间交换模型信息的过程将会被精心地设计,使得没有组织能够猜测到其他任何组织的隐私数据内容。同时,当构建全局模型时,各数据源仿佛已被整合在一起。
联邦学习是一种具有以下特征的用来建立机器学习模型的算法框架。
分布式机器学习是指利用多个计算节点进行机器学习或者深度学习的算法和系统,旨在提高性能、保护隐私,并可扩展至更大规模的训练数据和更大的模型。如下图是一个由三个计算节点和一个参数服务器组成的分布式机器学习系统:
分布式机器学习通常可分为: 面向扩展性的分布式机器学习和面向隐私保护的分布式机器学习。
面向扩展性的分布式机器学习是指用来解决不断增长的扩展性和计算需求问题的机器学习。
常见的解决方法有:
面向隐私保护的分布式机器学习主要目的是保护用户隐私和数据安全。在面向隐私保护的分布式机器学习系统中,有多个参与方且每一方都拥有一些训练数据。因此,需要使用分布式机器学习技术来利用每个参与方的训练数据,从而协同地训练机器学习模型。
对于隐私保护的分布式机器学习系统,它通常能保护下列的信息:训练数据输入、预测标签输出、模型信息(包括模型参数、结构和损失函数)和身份识别信息(如记录的数据来源站点、出处或拥有者)等。
在面向隐私的分布式机器学习中,常用的用于保护数据隐私的方法大概分为以下两个类别:
在此场景中,协调方是一台聚合服务器(也称为参数服务器),可以将初始模型发送给各参与方A~C。参与方A~C分别使用各自的数据集训练该模型,并将模型权重更新发送到聚合服务器。之后,聚合服务器将从参与方处接收到的模型更新聚合起来并将聚合后的模型更新发回给参与方。这一过程将会重复进行,直至模型收敛、达到最大迭代次数或者达到最长训练时间。
在这种体系结构下,参与方的原始数据永远不会离开自己。这种方法不仅保护了用户的隐私和数据安全,还减少了发送原始数据所带来的通信开销。此外,聚合服务器和参与方还能使用加密方法来防止模型信息泄露。
在对等网络架构中,不需要第三方服务器的存在,各个参与方直接通信且通过加密解密的方式来保证隐私安全
参考文献:
[1] 杨强,刘洋等. 联邦学习(Federated Learning). 电子工业出版社.