数据科学从业人员

公共领域从照片Unsplash

作者:阿曼达·安德烈

早些时候,我和我的同事讨论的定义、应用、斜方和协调数据科学、技术和文化数据科学家和团队遇到的挑战。我有机会跟一些从业者在斜方和了解他们是否认为自己是数据科学家(或没有),总体视角带给他们日常工作,和概念,挑剔他们的大脑。

“你把自己作为一个数据科学家吗?”

我收到一个数组的回答这个问题,这是告诉在这个新兴领域的多样性和复杂性。

:“你知道,我不解释了Imanuel波特兰迪,一个工程师的工程和生物测定数据。“我更一个和多个学科相关的系统工程师真正关注的数据。“开始作为一个软件工程师为国防部承包商,波特兰迪工作越来越多的军事对现实世界建模数据,最终获得硕士学位系统工程和斜接的过渡。“我喜欢利用数据科学技术,“波特兰迪解释说。“我们提出不同的项目,旨在:我们如何促进这些超级算法来冷却解决方案?”

另一个角度看,托尼完整的数据分析将自己描述为一个“梦寐以求的数据科学家。”“我一直与斜方很长一段时间和做很多不同的事情,”他解释说。“这是一个角色,我成长为利用技能从我以前的工作。“肯有数学和物理背景从十多年横切的量子信息科学组。他也有一个背景的数据可视化,带来了这些技能在多个作业。

当我问迈克·谢伊全球业务部门的工程师,关于他是否认为自己是数据科学家,他哈哈大笑起来。“我经常把自己作为一个excel数据透视表的冠军,”他开玩笑说。“数据芒格,这不是那么糟糕。我可以接受这样的条件。好的,数据牧人。有一个老西部的氛围。“当笑声平息,谢伊解释道,虽然他可能使用数据科学技术,它通常更简单的——经常得到好的结果在时间和成本框架。

将简单科学的数据和创造力

谢伊的一个项目涉及到为客户工作,每一天,收到成千上万的非结构化文本文档,文档没有预定义的方式组织和有违规行为,使计算机很难解析。甚至元数据——数据描述的其他数据,比如标签文档——是不准确的。甚至在哪里开始?

团队注意到,每个文档都有一个标题和文本可以识别文档类型,所以他们开始解析标题和使用基本模式匹配来识别文件。“这不是太空时代深层神经网络的东西,“谢伊解释道,“这些低级的东西——元数据分析和基本模式匹配。“但结果,他们发现20%的数据冗余,可以删除。他们还发现,有可能,另外20%可以通过进一步的处理。告诉赞助商后,他们发现,他们不需要收集数据,数据摄入减少了近一半——一个巨大的节省资源!“我发现最简单的事情我们往往导致最好的输出,“谢伊指出。“只是解析标题为我们的赞助商有巨大影响。”

同样,波特兰迪强调了需要的用户数据的简单而深刻的理解。他的一些当前项目涉及自动化工具在云中——在互联网上运行的软件和服务和发展自然语言处理工具来帮助分析师。“数据科学有一个危险:我们能想出这些可视化或统计分析,但如果他们不理解用户或帮助他们在他们的任务,那么他们是有什么用?它是棘手的,因为你想强调所有的复杂性,但与此同时,用户必须知道这个东西不是魔法。”

肯也承认很难可视化复杂数据和建议将科学创造力的艺术创造力的科学数据。“最好的软件工程和分析是一个创造性的过程的结果,”肯有关。“不仅仅是数字和算法。可视化是经常思考,试图让人们看到,在一个新的,有时更直观的方式。”这种方法结合艺术和科学特别是来到玩肯最近的一个项目,结合游戏和数据收集的目的提高脑瘫患儿的生活质量——在即将发布的我们会更深入。

在接下来的系列文章集中于应用程序的数据的科学,我们将看看完整的项目,以及聊天anti-fragility波特兰迪对他的研究兴趣,和谢伊相关性和异常问题

阿曼达·安德烈是一个计算社会科学家在认知科学和人工智能。她专注于社交媒体分析,设计创新的空间,在酷主题写文章。

参见:

数据科学从业人员

应用程序在数据科学:相关性和异常

数据科学的技术挑战

定义、应用、和协调数据科学横切

上升的挑战:打击非法无人机系统

错误和卓越的悖论:彼得·圣吉博士讨论培养学习组织

横切Hackathon检视新兴移动技术的影响

数字笔记本紧急应急人员

通过系统Visioneering管理知识

©2018斜方manbetx客户端首页公司。保留所有权利。批准公开发布;无限的分布

manbetx客户端首页主教法冠公司是一个非盈利性组织,设有研发中心由联邦政府。了解更多主教法冠。

档案

Pinterest上销

分享这