?

Facebook AI科学家:我们正在给算法模型喂垃圾数据

【数据猿导读】 Moustapha Cissé说到:“你吃什么,你就是什么,而我们正在给算法模型喂垃圾食品”

Facebook AI科学家:我们正在给算法模型喂垃圾数据

在最近的一次谈话中,Facebook人工智能研究科学家Moustapha Cissé告诉我,“你吃什么,你就是什么,而我们正在给算法模型喂垃圾食品”。

如果你不知道食物中有什么,你就很难合理饮食。同理,如果你不理解训练数据的原理,就不能训练出偏差更小的模型。

这就是为什么最近的论文“给数据集创建数据手册” https://arxiv.org/abs/1803.09010 如此有趣的原因。在这篇论文中,来自微软研究的Timnit Gebru及其同事与来自其他学术研究机构的合著者们为数据集提出了相当于食物营养标签的标准。

很多机器学习和深度学习模型,大多倾向于使用像ImageNet或COCO 这样的公共数据集,或是私人创造的数据集,这些数据集能够将训练数据集的内容、偏差和其他相关素材传输给有兴趣的用户是非常重要的。

“数据手册”这篇论文探讨了使用标准化数据手册,将这些信息传递给数据集、商业化API和预构建模型用户的方案。除了能协助用户交流数据偏差外,作者还指出这种数据手册能够提升信息的透明度,并为数据的可靠性背书。

除了潜在的伦理问题外,当使用第三方数据进行训练的模型不能充分归纳到不同语境时,隐藏的数据偏差会造成部署系统的不可预测性,甚至失败。当然,最好的选择是收集第一方数据,并使用由该领域里具有专业知识和深刻见解的专家们构建和训练的模型。

广泛可用的公共数据集、更易上手的机器学习工具,能便捷访问的人工智能API和预购建模型促进AI民主化,使得越来越多的开发人员将AI技术运用到他们的应用中。作者建议,为AI数据集和工具创建数据手册可以为那些没有专长领域的工程师提供基础的信息,有助于减少由数据集误用引发的问题。

信息安全公司Terbium实验室的CTO Clare Gollnick,在与我们讨论科学和人工智能中的再现性?;?,提出了类似观点。她担心开发人员往往把重心放在用更深层、更复杂的模型解决问题,而当这些模型被应用到生产中时,通?;嵊龅椒夯奈侍?。相反地,她发现,当研究人员利用该领域里现有的专业知识和深刻见解去解决AI问题时,成果将更为稳健。

Gebru和合作者在论文中指出,AI尚未经受以往伴随着新兴行业(如汽车、医药和电气行业)发展而逐步完善的安全法规的检验。文中提到:

当汽车首次在美国出现时,没有车速限制、停车标志、交通信号灯、驾驶员教育,与安全带或醉酒驾驶有关的规定。因此,1900年代早期,碰撞、超速和鲁莽驾驶造成了许多人员伤亡。

几十年来,汽车及其它行业都在不断地修改完善旨在?;す怖娴姆ü?,同时其自身的技术革新也没有停滞。论文认为,是时候开始考虑为AI制定相关的法律法规了,特别是当我们开始将其用于健康和公共部门等高风险实践中时。欧洲即将出台的通用数据?;ぬ趵℅DPR)就将处理这些问题。

论文提出的“数据手册”来源于电气组件相关的概念。每一个售出的电子组件都附带相应的“数据手册”,上面列出了组件的功能、特性、运行电压、物理细节等。当用户需要在购买前了解某个零件的性能,以及误操作情况下可能出现的反应时,这些数据手册就能提供用户所需的支持。

Facebook_AI科学家_算法模型_垃圾数据_大数据-1

(图片来源于网络)

作者建议,数据集或API的提供方应该附带一份“数据手册”来解决一系列标准化问题,这份“数据手册”应该包含以下主题:

•    数据集创建的动机

•    数据集的组成

•    数据收集过程

•    数据预处理

•    数据的分布

•    数据的维护

•    法律和伦理方面的考虑

对于上面所列主题的具体详解,可以参照该论文;它还包含了一系列补充细节,并为Wild数据集中的UMAS Labeled Faces 提供示例“数据手册”。这是一个完整全面、易于使用,并将具有影响力的模型。

这样的“数据手册”允许用户了解他们使用的数据的优点和局限性,并防止出现诸如偏差和过度拟合之类的问题。同时,“数据手册”还能全方位的促使数据集的创作者和用户对数据源进行不同角度的思考,并理解数据其实并非‘事实上’的存在,而是需要谨慎对待和维护的具有生命力的资源。

虽然我不是个电气工程师,但是我非常欣赏这个有趣的想法。

注:本文由【友盟+】翻译,原作者:SAMCHARRINGTON,原文链接:https://venturebeat.com/2018/05/02/datasheets-could-be-the-solution-to-biased-ai/


来源:友盟+

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

旅游交通大数据——大众旅游时代的“富矿”
旅游交通大数据——大众旅游时代的“富矿”
大数据军演新疆展开:山东高速不停车交费
大数据军演新疆展开:山东高速不停车交费
2025年全球大数据规模将增长至163ZB,如何将数据世界变革为智能世界?
2025年全球大数据规模将增长至163ZB,如何将数据世界变革为智...

我要评论

精品栏目

[2017/12/19]

大数据24小时

More>

[2017/12/18-22]

大数据周周看

More>

[2017/12/18-22]

大数据投融资

More>

[2017/12/18-22]

大咖周语录

More>

[2017/12/13-20]

大数据周聘汇

More>

[2017/12/12-19]

每周一本书

More>

返回顶部
  • 浙江网信办依法依规关闭一批违法违规网站以及用户账号 2018-08-13
  • 习近平:请乡亲们同党中央一起,撸起袖子加油干! 2018-08-13
  • 唯物辩证法是以客观事实为依据的,不是按什么理论为依据,人们的争论,就是从客观来证明理论的真伪,你给人家戴上有色眼镜,别人还怎么实事求是? 2018-08-10
  • 少年足球情 体育强国梦——“蒙牛”少年足球队亮相卢日尼基体育场 2018-08-10
  • 计划经济不是产生于利益交换之上的计划经济。说白了,计划经济就是为人民服务的计划经济。要养活14亿,甚至24亿中国人的经济。 2018-08-09
  • 人民日报评论员:大就要有大的样子 2018-07-11
  • 昨天我发的贴怎么不回答。狂犬认为:“如果观察者观察到物体相对于他运动,那么他是绝对静止的”。狂犬观察到,无论它是打滚还是跳楼,是装死还是狂跑,它观察到物体都是相 2018-07-11
  • 686| 771| 266| 286| 118| 329| 738| 627| 813| 843|