破解求交合规问题,富数科技「全匿踪联邦学习」全网始发
随着数字化转型和数据要素流通的需求提升,以及《数据安全法》与《个人信息保护法》的施行,隐私计算被日益认可,其“数据不动算法动”、“数据不出库,算法满地跑”的理念满足了数据所有权和数据使用权分离的要求,满足了数据资产既要合规又要可用的数据要素市场建设需求。
作为隐私计算的关键技术,联邦学习在利用多方数据进行安全合规联合建模发挥非常重要的作用。市场上有很多联邦学习的实践是针对异构数据进行纵向联邦建模,有三个主要流程: 一、安全求交,找出双方共有的样本集;二、针对共有的样本集,在双方原始数据不见面的情况下,通过交换梯度,迭代完成建模过程;三、使用联邦模型进行推理预测。
虽然在此建模流程中还是存在重大的合规风险,问题出在“安全求交”这一阶段,安全求交不暴露交集外的用户ID,但交集内用户ID却暴露了。简单举例:在跨行业联合营销的时候, A公司和B公司先通过用户ID(一般是MD5后的手机号或者手机设备号)进行安全求交,然后使用各自后台数据特征进行跨域的联合建模。在这个过程中,B公司就掌握了哪些用户ID同时是A公司的用户,从而推测这批用户的价值,就有可能出于自身目的对这批用户进行营销。而对A公司来说,这批交集用户的隐私被泄漏,损害了自有核心用户价值。
“安全求交却泄漏交集用户ID”显然是和联邦学习“数据不动算法动”的宗旨是背道而驰的,对此众多机构的合规部门提出了异议,暂缓采用联邦学习,这个问题不解决,隐私计算大规模应用的可能性就会被大幅降低。
近日,富数科技在上海市国有资产监督管理委员会和上海市商用密码管理局联合指导的“夯实数字底座,赋能央企国企数字化转型”的大会上宣布,在国际密码学会高级会士来学嘉教授指导下,经过数十位算法博士和专家的攻关,实现了“全匿踪联邦学习”,突破了无需安全求交、不泄露交集ID、在全匿名数据集下进行联邦学习的技术难题,真正符合《数据安全法》和《个人信息保护法》的要求,进一步加强了用户数据安全和隐私保护。
联邦学习作为一个工程问题,实现“数据不动算法动”是重要目标,富数科技「全匿踪联邦学习」实现完全自研,不再使用安全求交输出双方共同的样本ID集合,而是采用匿踪对齐,并增加了对匿踪对齐的样本集的匿名化算法处理,又设计了匿踪的联邦学习算法,在保持匿踪的条件下,进行联合建模,迭代训练直到收敛。同时为了更好的满足用户实际应用场景,对匿踪对齐算法、匿名化算法、匿踪联邦学习算法进行计算量和空间存储的优化,保持了高性能低误差。
联邦学习作为数据要素流通安全的技术手段,是数据开放的一道闸门,如果这道闸门有明显的安全漏洞,反而可能引起更大的安全问题,从而影响到整个行业的健康发展。富数科技「全匿踪联邦学习」是联邦学习在可信安全方面的一小步,对促进行业发展可能是一大步,因为只有安全可信,联邦学习才可能从试点级应用真正走向大规模生产系统应用,从而赋能我国数字化转型乃至数据要素市场的万千数据场景之中。
声明:本网站部分图片、文章来源于网络,版权归原作者所有,如有侵权,请联系删除电话:0512-65733795。