应用程序在数据科学:相关性和异常

思考,讨论,和做的,他们都有一个时间和地点在任何域。不过,与数据科学实干家规则。一个大水桶表面上随机的东西在一个熟练的医生的手变得艺术的东西。是的,甚至对火灾hydrant.-Editor数据

作者:阿曼达·安德烈

“什么呢?”

简单而强大的,第一个最大的数据来自迈克·谢伊的科学问题,从全球业务部门的工程师,超越科学数据。他阐述了:“我们真的有什么在这个巨大的堆数据?甚至我们如何看其他数据来确定是什么?”

和他的第二个最大的问题,”什么不我们有什么?”leads to more questions: “What data are relevant to what we’re trying to accomplish, that don’t exist, that we haven’t looked into? How do we identify that gap, not just with human beings identifying it, but statistically?我们怎么知道什么有关?”

虽然谢伊的问题似乎是压倒性的抽象的,他们是非常有用的应用于具体问题时,如讨论的文档分类数据科学从业人员。简单地通过识别数据流类型的文档,他和他的团队能够告诉赞助商哪些相关与否,从而节省赞助商的麻烦他们不需要收集数据。或者你能看到什么数据不是在那里,你可以发现另一种新兴模式。“你有随机模式应该见证,如果这些消失,然后很奇怪的东西,“谢伊解释道。“这不是正态分布。”Patterns like this could point to social phenomena such as fraud or a physical issue such as a medical problem.

这种“奇怪”的存在——一个事件或观察所得来的模式——可能意味着有一个异常。数据科学,异常检测是至关重要的,人和机器都需要解释数据和模式。这些解释可能对社会行为或政策有巨大的影响。

例如,谢伊的一个最喜欢的例子简单的数据科学的——或者,如果你愿意,使用简单但强大的技术看海量数据——是纽约市消防栓的问题,不公平净赚55000美元每年由于他们没有意识到公民停车空间是非法的。当一个计算机科学家博客关于他如何使用纽约开放数据发现两个离群值消防栓,纽约政府回应画线的道路上澄清停车的地方。公民开始节省数千美元。大量数据时才认识到这一点,以及人类分析师来检测它。

“算法倾向于追逐的一个分布,“谢伊说,这意味着计算机经常训练对多数人的平均水平。“如果我们达到一个点,算法是决定我们看到和读和说的是如果我们不断朝着平均,我们就会错过这些高性能,高度有效的离群值,这将推动我们更美好的未来。”

调整的方法之一是正确的平衡人类和计算机援助。谢伊给计算机辅助人类的例子,比如一个天气预报员使用计算机模型来确定飓风的影响,例如发表在FiveThirtyEight创始人兼统计学家内特银的书信号和噪声(谢伊认为是最好的数据科学他读的书在过去的几年里)。,另一方面,也有半自动电脑的选项,比如在线广告系统,使用人工输入来确定为每个用户定制的广告。最终,谢伊说,重要的是要问:“我们怎么仔细使用算法来增强人们的决策?”——数据科学团队应该问自己的一个问题,因为他们在设计和分析系统中前进。

你喜欢这个系列的数据科学从业人员和应用程序数据科学?想听更多的故事吗?让我们知道!

阿曼达·安德烈是一个计算社会科学家在认知科学和人工智能。她专注于社交媒体分析,设计创新的空间,在酷主题写文章。

参见:

错误和卓越的悖论:彼得·圣吉博士讨论培养学习组织

横切Hackathon检视新兴移动技术的影响

数字笔记本紧急应急人员

通过系统Visioneering管理知识

manbetx客户端首页主教法冠公司是一个非盈利性组织,设有研发中心由联邦政府。了解更多主教法冠。