定义、应用、和协调数据科学横切

作者:阿曼达·l·安德烈

很长一段时间我认为我是一个统计学家,推断从特殊到一般的感兴趣数学家约翰•图基写道,在他1962年的文章中,“数据分析的未来。”但是当我看过数理统计的发展,我有理由怀疑和疑问。

图基提出并定义了这个新兴的科学领域:总的来说我觉得我核心利益是在数据分析中,包括我,在其他方面:程序分析数据,技术解释此类程序的结果,计划的收集数据的方法,以使分析更容易,更精确和更准确的,所有的机械和结果(数学)统计数据适用于分析数据。

五十年和一个数据革命后,哈佛商业评论一篇文章发布的托马斯·达文波特和D.J.帕蒂尔“数据科学家:最性感的工作21世纪”,推广一个新职业的想法,数据科学家“高级职业培训和好奇心使世界上发现的大数据。“完美的数据科学家,达文波特和帕蒂尔建议,与深入了解个体在数学和统计数据,编程,和领域知识(如医疗或网络安全)。有些工程师开玩笑地叫这个人独角兽。

“有许多学科数据科学,”伊丽莎白·霍曼博士解释道,统计学家和组长在横切的数据分析。“预期的两个数据科学家之间的相似性小于预期的两个统计学家之间的相似性,与统计是一个广泛的领域。”

科学:统计数据,科学,还是别的?

简短的回答:是的,是的,是的。统计和数据科学遵循一个收集数据的过程,处理和清洗,建模和分析,可视化,使用输出做出决策。然而,统计数据经常关注回答某个问题,告知其回答的数据。相反,数据科学补充道在专业领域,专注于数据所说的了解世界。

和数据科学的收入科学标签的一部分,其性质的推断世界数据的基础上,考虑到新数据收集和最好的方法是收集,并确保数据的重现性和验证。所有这些功能都是必不可少的科学方法。尽管这些问题是必要的统计数据,从统计数据科学出现了由于需要解决大的和不断变化的数据集。

的类型的数据,使数据科学额外的有趣。数据集往往是大型的、复杂的、不稳定的。“我是一个数据科学家,我工作在项目从大型数据集进行推断,“霍曼有关。“这是有趣的复杂和unwieldly数据时,特别是当你考虑不同类型的数据与图像或文本或视频等实体。你想让每个实体代表数学,然后做出推论是有趣和困难。”

主教法冠数据科学应用到航空安全

一个明显的地方斜方解决这些类型的数据集是通过公私合作航空安全信息分析和分享(亚洲)之间的合作联邦航空管理局和行业,以斜方为受信任的第三方。十多年来,斜方担任管家和建筑师的系统,这是世界上最大的航空安全信息的存储库。会员是自愿的,和从商业航空公司有超过一百名成员,通用航空运营商,飞行训练,和政府。数据是匿名的,可以包括任何从一架飞机的飞行速度有关。“这是更多的数据比你想象,”霍曼说。

在亚洲航空安全工作,博士埃里克•Bloedorn横切高级人工智能主要工程师,描述了过程:“有一个数据流在新兴的趋势和我们想要确定我们应该注意和漏洞。我们有各种各样的工具来看看飙升或下降,或者一些我们从未见过的。从这个数据和我们如何识别模式严格描述吗?”

斜方不仅保护和存储数据,但工作人员评估多个第三方工具,以及开发工具,协助分析,建模和可视化。跨斜方协作,美国联邦航空局和行业加强航空安全的关键。

需要团队

尽管达文波特和帕蒂尔强调数据科学家作为一个个体追求或工作,赞助商和组织学习,需要一个团队的个人追求这些复杂的问题。

“挑战在于拥有一个相对广泛的技能,“Bloedorn说。在网络安全与他的一个项目,他指出:“只有这样,我们成功的在做一些恶意软件分析工作是我们组中的人逆向工程专家。这些领域专家是必要的理解的意思不同的API调用。他们是必要的建议的功能将使用来解决手头的任务。我需要很长的讨论与领域专家他们的团队,其中包括技能分析,数学,计算机科学,域(感兴趣的)。”

这个问题经常出现在赞助商和机构Bloedorn和伯纳德•McShea领先网络安全工程师,放在一起演讲形成最佳实践的分析团队。他们发现一个好的团队沟通频繁和深入,它至少有以下三个角色:

  • 域主题专家——一个人理解和业务需要的数据
  • 混合数据科学家和领域主题专家——一个人理解建模方法,域,可以实现模型
  • 建模主题专家——一个人了解大局,机器学习的当前状态或在学术界和产业界建模

Bloedorn将数据科学团队比作一个足球队,与紧张,互补相互协调和每个成员意识到,游戏的动态变化:“你不能说在接下来的六个剧本,我要阻止这一个球员——必须依赖于游戏。也许你需要运行正确,所以你需要确保运行后可以得到正确的。这是非常紧密的协调。(扩展),如果你给一个人,他不知道数据域,和他只是清理数据,他可能干净的信号。你需要一些深刻的专业知识领域,紧密配合专家。”

将来是什么?

IBM报告,每一天我们生成250亿亿字节的数据。(250万tb或2500000000000000000字节的数据。)数据使用的速度加快,我们可以同意约翰·图基中央利益肯定是数据分析。

“我们的数据在这个新的世界,“霍曼说,“这就是进化,或改变的。我们分配的有效性和再现性的东西是很重要的。我们有证据认为,这种模式在未来会发生什么?我们学习模式或从数据建立一个模型,和我们需要测试过程产生的数据是否已经改变,结论是否我们仍然有效。”

Bloedorn还指出,机构和组织感兴趣的人工智能,机器学习,数据科学,但是他警告过分吹嘘或夸大技术。“这是令人激动和可怕的在同一时间在主管或副导演对整个组织业务基于机器学习和人工智能,这是令人兴奋的。我认为有真正的价值,但是我们怎么进去,实际上带来的影响,没有令人失望吗?如果你承诺太多,然后未能兑现这一承诺,负面影响将是巨大的。感兴趣的波达到顶点,我们试图防止崩溃太难。“一个AI冬季是一段时间,根据Raskino杰基芬和马克掌握宣传周期”,整个技术(瀑布)失宠,因为它辜负了人们的最初,过热的预期,”造成的减少资金和技术的兴趣。

可以有数据科学的冬天吗?更有可能的是,这个词和领域数据科学转变,改变或者贴上大数据分析、数据分析、统计和机器学习的交集,团队将继续实践学习的科学数据。和继续存在许多挑战科学家和数据科学团队,无论是协调适当的专家或者仅仅是进入一个数据科学的心态。在接下来的帖子,了解这些问题在数据科学技术和文化的挑战

阿曼达·安德烈是一个计算社会科学家的认知科学和人工智能的斜方公司。manbetx客户端首页她专注于社交媒体分析,设计创新的空间,在酷主题写文章。

参见:

升级机器学习。安装的大脑?(Y / N)

上升的挑战:打击非法无人机系统

错误和卓越的悖论:彼得·圣吉博士讨论培养学习组织

横切Hackathon检视新兴移动技术的影响

数字笔记本紧急应急人员

通过系统Visioneering管理知识

公共领域由Pixabay照片

©2017斜方manbetx客户端首页公司。保留所有权利。批准公开发布;无限的分布。箱号17 - 4148

manbetx客户端首页主教法冠公司是一个非盈利性组织,设有研发中心由联邦政府。了解更多主教法冠。

0评论

档案

Pinterest上销

分享这