数据科学的技术挑战

阿曼达·安德烈。以前她在文章中提到过,定义、应用和协调数据科学在主教法冠,我们是生成每天250万tb的数据,需要数据科学团队和个人贡献者是至关重要的,我们发现在频谱移动知识,我们可能有用的份额。技术和文化的挑战,也出现在我们试图理解和利用这种新资源。安德烈博士继续她与专家讨论伊丽莎白霍曼,统计学家和组长在横切的数据分析,和埃里克•Bloedorn博士高级人工智能engineer.-Editor校长

公共领域由Pixabay照片

作者:阿曼达·l·安德烈

许多技术挑战出现在做数据的科学。这里有一些的斜方经历了我们在这方面所做的工作。

处理高维空间(即,处理数据很多功能)

根据《牛津词典》统计,“维度的诅咒”这个术语是由数学家理查德·贝尔曼在1961年描述“难以获得准确的估计有很多参数同时估计。”

仅仅是另一个词的特性,特征或特征。例如,一辆汽车的特点可能是重量,颜色,英里每加仑,座椅在车里,手套箱的数量变化,是否汽车脚垫,等等。随着我们的访问数据的增加,收集到的特性增加了。

我们的本能可能会说,“数据越多越好!”,但在现实中,这些特性的更多,你必须解决的几个问题,即虚假的相关性和指数增大样本量的必要性。

虚假的相关性。让我们把我们的车的例子。说我们想做一个模型,预测汽车的制造,它是否将是丰田和福特。我们记录上述特性,以及成千上万的其他人。这些特性我们收集越多,越高的机会,我们会发现之间的伪相关特性和使是我们增加的机会我们将学习特质的训练数据不推广到世界其他地方。汽车上的灰尘量可能与汽车的制造,但这可能是由于巧合或一个混杂因素。然后有一个伪相关这两个特性。麻烦当我们部署模型在现实世界:它不会工作,因为它是学习的细节数据集(或说,“学习的细节数据的样本训练”)。

需要指数更大的样本量。负责人:这个概念很难想象,是数学的最好解释。

让我们坚持我们的汽车的例子。假设我们从许多汽车在路上收集数据,我们想确定一辆车是丰田,福特,或另一个。假设我们只使用一个feature-let英里每加仑。可以绘制在维空间,即,沿着一条直线。然而,只有使用一个特性,绘制汽车基于MPG,不得单独丰田车的福特车。如果我们添加第二个特性,重量,我们可能会得到一个更好的二维图,即。,the data in this 2d plane may allow us to separate some of the Toyotas from the Fords. Another feature such as horsepower leads to a 3-dimensional plot, i.e., a cube. There is now even more space for the cars to take up and more room to separate the cars by their make.

随着功能的添加,空间的增长,但是还有更多的方法模型overfit数据,的特异性和训练数据的特性。如果我们想象空间内的数据作为一个云,霍曼说,“还有更多的房间外面的云数据异常发生。当你搬到高维度,所有数据异常,因为空间太稀少。”

记住大量的变量数据集应该提醒数据科学团队,即使他们有大量的数据,他们应该照顾的数据采样,不管他们是否收集数据。

正确的数据训练模型。因为数据是如此不同,有时它很容易用一种不同的数据要求,或追求“简单”数据集训练模型。Bloedorn有关网络安全的一个例子项目中研究恶意软件使用训练数据集的可执行文件已明确标记为恶意软件在反对使用一个数据集文件可能难以分类为恶意软件。模型似乎表现得很好,但是遇到的问题。“当你领域在现实世界中,它不会工作得很好,”Bloedorn状态。“你需要一个训练集,不仅包括极端的例子,但中间。”

霍曼补充说,“你想测量响应输入B,你没有回应,所以你说,我将代替响应C,你更换这个东西你无法衡量的东西你可以,但你不回答这个问题你最初开始回答。”这意味着对于我们这些需要什么数据,研究人员可能很快得到结果,但他们可能不会有效。评估这些模式——在第一个地方是使用好的数据进行数据科学正确的关键。

不断更新模型。斜接的管家航空安全信息分析和共享系统(亚洲)十多年来,航空安全以来进化不只有在技术方面,但从词汇和工程师和决策者如何描述手头的问题。,当这一切发生的时候,老款可能会丢失当前的问题。在其他领域,如欺诈或网络安全,这个问题进一步加剧了与对手的活动。“只有曙光的理解这个问题我就提出了一个模型,Bloedorn指出,“这是,我必须把一个模型我们定期评估它。我需要跟踪概念漂移。”概念漂移的问题并不总是承认,但我们已经解决了在这些领域,因为模型维护生产分析是至关重要的。

注意数据科学文化挑战,2018年1月

阿曼达·安德烈是一个计算社会科学家在认知科学和人工智能。她专注于社交媒体分析,设计创新的空间,在酷主题写文章。

参见:

定义、应用、和协调数据科学横切

上升的挑战:打击非法无人机系统

错误和卓越的悖论:彼得·圣吉博士讨论培养学习组织

横切Hackathon检视新兴移动技术的影响

数字笔记本紧急应急人员

通过系统Visioneering管理知识

©2017斜方manbetx客户端首页公司。保留所有权利。批准的公开发布。
无限的分布。箱号17 - 4601

manbetx客户端首页主教法冠公司是一个非盈利性组织,设有研发中心由联邦政府。了解更多主教法冠。

0评论

档案

Pinterest上销

分享这