AI训练遇隐私难题 数据孤岛阻碍机器学习训练
2019-11-19 10:42:16 来源: 科技日报
数据可以说是人工智能的燃料。但随着AI落地各个应用场景,数据隐私泄露问题日益严重。数据的交流使用和数据的隐私保护似乎成为了不可调和的矛盾。
如何在不泄露各自数据隐私的情况下实现数据的共享和模型的共建,同时连通数据割裂的孤岛是当前所面临的问题。目前各机构正试图利用联邦学习打通人工智能应用的最后一公里,促进人工智能落地。
数据孤岛阻碍机器学习训练
“互联网时代产生的海量数据,其背后的价值如何能挖掘出来,又会对我们产生什么样的影响?”近日,在由中国计算机学会发起的第四次联邦学习主题研讨会上,微众银行人工智能首席科学家范力欣说,如何发掘和利用这些信息是现在一个非常热门的研究方向,但要安全合规地发挥这些海量数据背后的价值,就涉及到隐私保护问题。
随着人工智能的发展,其可能带来的隐私泄露风险也日益凸显。除了备受关注的脸书(Facebook)等巨头公司的用户隐私泄露事件外,目前用于算法训练的数据的来源也让人担忧。有媒体日前报道,在网络商城中有商家公开售卖“人脸数据”,数量达17万条。目前网络商城运营方已认定涉事商家违规,涉事商品已被下架处理。
为了应对隐私泄露风险,各国都采取了相应措施。如2018年欧盟出台了首个关于数据隐私保护的法案《通用数据保护条例》;2019年5月美国旧金山禁用人脸识别,禁止政府机构购买和使用人脸识别技术,以此来消除技术带来的隐患;从2009年开始到2019年十年间,我国也出台了非常严格的隐私保护法案。
但同时,数据隐私的保护也对依赖数据的机器学习形成了巨大挑战。如《通用数据保护条例》要求公司在使用数据前要先向用户声明模型的作用,这份条例的实行让许多大数据公司在数据交流方面非常谨慎。
“人工智能需要通过大量的数据学习才能把数据后面的知识挖掘、整理出来,把价值发挥出来。但现实的情况是一方面很多数据质量不好,缺乏标签;另一方面,数据完全分散在各个数据主体、企业的个案里面,是一个个数据孤岛,无法把它们连接起来。”范力欣说,如何在保护数据隐私同时打破数据孤岛是我们现在面临的问题。
联邦学习或将提供解决办法
在人工智能领域,传统的数据处理模式往往是一方收集数据,再转移到另一方进行处理、清洗并建模,最后把模型卖给第三方。但随着法规的完善和监控愈加严格,如果数据离开收集方或者用户不清楚模型的具体用途,运营者都可能会触犯法律。同时,数据是以孤岛的形式存在的,解决孤岛的直接方案就是把数据整合到一方进行处理。但目前粗暴地将数据聚合是法律法规所禁止的。
范力欣表示,联邦学习正是针对数据孤岛和隐私保护而产生的一种解决方式。值得一提的是,2019年4月,李开复也曾在演讲中提到联邦学习。他表示,为了防止最严重的数据滥用,需要制定相应的法规。与此同时也可以尝试“以子之矛攻己之盾”——用更好的技术解决技术带来的挑战,例如同态加密、联邦学习等技术。
作为一种分布式机器学习技术,联邦学习可以实现各个企业的自有数据不出本地,而是通过加密机制下的参数交换方式共建模型,即在不违反数据隐私法规的情况下,建立一个虚拟的共有模型。由于数据本身不移动,因此也不会涉及隐私泄露和数据合规问题。这样,建好的模型将在各自的区域仅为本地的目标服务。在这样一个联邦机制下,参与各方可以在不披露底层数据和底层数据的加密(混淆)形态下共建模型,各个参与者的身份和地位相同,这就是为什么这个体系叫做联邦学习。
微众银行人工智能部高级研究员范涛介绍,如SecureBoost联邦模型,核心是大家共同构建了一棵“树”,每一方都可以看见这棵“树”,但是每一方看见的东西是不一样的。通过构建这样一棵“树”能够实现算法的性能提升。
“联邦学习所使用的数据是不能移动的,但数据背后的知识、数据背后的价值是可以移动、转移、共建的。所有贡献数据的参与者都有同等的权利、获得同等的回馈,这是共同获益的机制。”范涛说。
如此,大家就有了动力共建联邦学习的生态。
“联邦学习大体可以分为横向联邦和纵向联邦。横向联邦特征维度都一样,通过扩充样本的方式提升模型质量;纵向联邦样本相通,通过扩充特征的方式来实现数据的信息互通,提升模型质量。”范涛说,比如目前的传统反洗钱模型存在样本少、数据质量低的问题,使用横向联邦的技术可以解决这样的问题,在横向联邦里面,不需要进行样本对齐。
正在迈向积累经验的落地阶段
事实上,联邦学习早在2015年就被提出了,当时只是作为一个算法工具。随后,随着联邦学习切实地解决了上述问题,开始受到关注。“现在联邦学习已经进入一个新的时期,就是落地时期。”微众银行首席人工智能官杨强表示,在经历以隐私保护为重点的第一阶段之后,目前的联邦学习正在迈向积累经验的落地阶段。
“在联邦学习这个生态之中,我们可以看到各种各样的落地场景,比如智慧城市、智慧终端、智慧医疗等。”范力欣说,比如在医疗领域,健康监护需要在普适环境下实现开放域用户行为的智能感知和理解,而面向疾病诊断的智能算法研究存在着限制移动、时空受限等缺陷。
针对以上难题,中科院计算所泛在计算系统研究中心主任研究员陈益强及其团队利用联邦学习技术,将范式驱动的限定场景下面向疾病的诊断模型向普适场景下的健康状态监测进行联邦迁移。
“此外云服务也是联邦学习一个比较理想的落地途径,联邦学习其自身具备的特点,适合在云上和多个用户进行部署和使用,例如可以把在公有云里面联邦学习的机构组织加进来,形成一个异构系统或者生态系统,为不同的组织之间的数据对接提供平台。”VMware中国研发中心技术总监张海宁说。
与此同时,联邦学习也正面临着诸多挑战和机会。“工业实践者在具体部署联邦学习技术以满足业务合规化的同时,还需要为现有的联邦学习配置‘保护锁’与‘疫苗’,以更好地保护自身的商业机密。”创新工场南京国际人工智能研究院执行院长冯霁介绍,联邦学习框架内不同模块可能会遇到的潜在攻击方式,如数据下毒、信道监听以及对抗样本等都是联邦学习需要面临的挑战。
范力欣表示,建立数据价值联盟将是联邦学习的最终愿景。“长期来看,联邦学习的期望是把数据背后的知识和价值拿出来,参与各方共建一个数据价值联盟,这个联盟里有的成员作出了贡献,让其他成员享受到其所提供的服务,当然其他成员也需要付出他们认为该付出的,来进行对等交换。”据了解,联邦学习标准草案预计将于2020年2月推出。(记者 马爱平 马 越)
为您推荐
精彩放送
热门文章
-
舆情预警丨搜于特:实控人及其一致行动人合计约2.16亿股持股被司法冻结 占公司总股本比例7.08%
-
热推荐:中科江南:已就数字人民币在财政国库资金支付领域应用进行试点
-
今日报丨超500家企业签约参展 第六届进博会公布首批参展商名单
-
环球通讯!交易所债券收盘:地产债多数下跌 “21旭辉01”跌超4%
-
环球观焦点:舆情预警丨如皋沿江开投:企业本部涉及重大诉讼
-
世界热资讯!小米汽车数字钥匙专利公布,可提升设备续航
-
双枪科技投资设立自动化设备新公司
-
世界头条:山高环能于天津投资新设生物能源销售公司
-
天天讯息:工信部:2022年全国家用电冰箱产量8664.4万台 同比下降3.6%
-
微信已全面支持“小号” 全量开放辅助账号注册功能
-
自然资源部:取消集中供地制度系误读
-
机构:2022年Q4苹果全球智能手机市场份额达到历史最高水平
精彩图片
-
成本大减!新一轮的旗舰大战也将在即将到来的9月正式拉开帷幕
-
博览会开幕 中国首款具有自主知识产权的国产通用型科学计算软件正式发布
-
技术下降!Intel独立显卡驱动一次评测就发现43个Bug
-
高性能的台式机彻底告别“光污染” 雷克沙推出简洁纯白外观设计
-
韩国媒体率先报道:三星电子236层NAND闪存预计年内开始生产 市场竞争更激烈
-
新科技!苹果正在积极研发某种形式的AR/VR头显或智能眼镜
-
谷歌测试开展新功能 向用户展示哪些云流媒体服务拥有特定的视频游戏
-
支付宝积极响应国家为小微降费的政策号召 一年降费让利近80亿
-
京东汽车就与浦林成山旗下新能源车轮胎品牌浦林达成战略合作 助力轮胎“电动化转型”
-
苹果新专利公布:暗示未来 iPhone手机或许有陶瓷材质版
-
盖茨和韩国能源供应商SK共同牵头 其中SK投资2.5亿美元
-
海底捞早已经捞不动了 据统计上半年最高亏损达2.97亿
热文
-
谷歌母公司下季度将调整财报:AI研究部门将单独披露
-
我国新增18处国际重要湿地 总数达82处 面积764.7万公顷
-
激发国企科技创新活力
-
爱一个人是什么感觉的说说_爱一个人是什么感觉
-
安徽省有哪些市区县名称_安徽省有哪些市区县
-
北京海淀区GDP首破万亿元大关
-
广东移动大数据解码春节:跨省出行热度高 莞深空城率超70%
-
世界动态:挪威称雷克萨斯的自费混合广告误导
-
今日要闻!又一批跨国公司地区总部和研发中心落户上海
-
环球微头条丨科大讯飞与杭州市签署全面战略合作协议
-
奥维睿沃:海信系电视2022年12月单月出货量居全球首位
-
南财投资日历(2月3日)
-
珠海:涉及知名大盘!11家房企、中介因违法违规被查处
-
世界焦点!证监会:更好保护中小投资者合法权益 树牢“大投保”理念
-
环球消息!Q4“固收+权益”理财定价下行明显,近6月收益猛跌101BP丨机警理财日报(2月2日)
-
证监会:稳妥有序化解私募基金、地方交易场所、债券违约等重点领域风险
-
当前热文:恒瑞医药人事变动频繁?董事长孙飘扬回应
-
银川优化生育措施征求意见:提高二三孩生育住院分娩医疗费报销比例
-
热门:国家卫健委发布国家血液病医学中心和国家血液病区域医疗中心设置标准
-
环球观焦点:长三角G60科创走廊:锚定“科创+产业+金融+人才”高水平融合发展
-
北京:到2025年新孵化国家高新技术企业2000家
-
环球简讯:《煤矿安全改造中央预算内投资专项管理办法》发布
-
美国联邦快递管理层将裁员超10%
-
巴比食品:2022年净利润2.22亿元 同比下降29.21%
-
空客与卡塔尔航空就A350订单纠纷达成和解
-
动态焦点:国家能源局负责人会见香港中电总裁
-
全球快资讯:北京这个区 GDP总量首次突破一万亿元!
-
天天快报!高质量发展 | 亮出“作战图” 跑出“加速度”
-
北京关停三里屯酒吧街?官方回应
-
中汽协:2022年全国汽车商品累计进出口总额为2486.5亿美元 同比增长11.7%
-
龙虎榜丨中国长城今日涨停,上榜营业部席位全天成交2.83亿元
-
立讯精密董事长王来春:未来20年立讯要有30%产品进入全球行业无人区
-
当前观点:ChatGPT热度爆棚 谷歌开测“学徒巴德”等多款竞品
-
环球即时:沪硅产业:向专业投资者公开发行不超过13.4亿元科技创新公司债券申请获批
-
天天微资讯!商务部:继续稳定和扩大汽车消费 支持新能源汽车消费
-
新年“开门红” 江苏中欧班列今年首月开行突破200列
-
舆情预警 | 小米汽车设计泄密供应商被处罚100万
-
股票破位怎么办?股票破位必须止损吗?
-
股票一字线会持续几天?股票丁字线说明什么?
-
每日速递:商务部:研究制定海南自由贸易港禁止、限制进出口货物物品清单
-
焦点短讯!舆情预警 | 交通银行四川省分行原党委委员、副行长刘志刚被“双开”
-
股票分红对以后走势有没有影响?分红和股票涨跌有关系吗?
-
环球热点!舆情预警丨云天化:从未在任何网络平台开展众筹集资
-
【环球播资讯】商务部:研究制定海南自由贸易港禁止、限制进出口货物物品清单
-
环球简讯:上海浦东GDP突破1.6万亿元
-
博亚精工:公司目前与成飞集团无业务往来
-
【天天报资讯】商务部:2022年社会消费品零售总额44.0万亿元,与2021年基本持平
-
世界最资讯丨银保监会就人身保险公司分类监管办法业内征求意见 涉及高风险业务、分支机构和非标资产投资
-
商务部:2023年要强化贸易促进 合理扩大进口
-
每日看点!沪指震荡收涨0.02% 半导体和白酒板块表现强势