所以你要像数据科学家一样思考?在《科学数据可视化工作流的重要性
信贷:卢卡斯
作者:阿里。扎伊迪
虽然绰号数据科学家暗示作用中心操作数据和建模,可视化数据和创建可视化不可或缺的一部分日常工作流程实践数据科学家喜欢我。可视化不仅使我们能够快速有效地沟通结果,但是可视化是一个关键的工具在探索性数据分析,数据清洗过程的建模和其他措施与数字讲故事。
与数据相关联的两种编程语言最科学Python和R,由于开发健壮的代码库。这些库是可重用的代码集合的捷径,可以导入和数据科学家和学习者用来节省时间和简化复杂的操作。
一些最知名的库包括可视化的Python代码Matplotlib,散景,GGPlot,Seaborn。虽然许多这些库启用类似类型的图形,每一种都有其优点和缺点多少代码需要产生不同的可视化,美学的视觉效果,可以创建可视化的类型。
要了解如何使用这些库来简化可视化过程中,我将展示一些例子在Python中使用Seaborn包中。随时跟随顺着我推荐使用谷歌Colaboratory避免在你的电脑下载Python的复杂性。开始创建一个新的笔记本,复制或类型的代码你看到下面,点击播放按钮左边的单元格。
Seaborn可视化例子
Seaborn包有一些内置的数据集,您可以加载和使用当你连接到互联网。泰坦尼克号我们将使用数据集得到的理解数据科学家如何选择显示读者或其他利益相关者乘客生还,并可能确定的趋势我们看到那些幸存下来而死亡的人。
第一步是将数据加载到Python。跟随输入此代码到一个单元格:
点击播放按钮在左边,你会看到下面的表得到以下输出代码。
现在我们已经创建了一个名为“泰坦尼克”,把所有的变量的数据从泰坦尼克号数据。然后输出数据集的前5行使用.head()命令。
作为一个数据科学家,处理任何数据集的关键是理解大局的每一列,数据的类型,可能的值的列。我们在一列的数据类型将会限制我们可以创建的类型的图形和可视化。我将解释更多关于这进一步通过例子。
您可能已经注意到,有一些怪癖这个数据,我们必须牢记。一个需要注意的重要的是,我们有票价价格,或票旅客支付的成本,英镑,但它的价格从1912英镑。当我们与历史财务数据,通货膨胀,所以我们不能直接比较机票价格从这个数据到目前的价格没有转换。这些怪癖的特征数据在每一个领域,这就是为什么知道域数据科学家是极其重要的。
可视化可以用于大量数据科学过程中的步骤:
- 清理数据是一个非常大的方面数据科学的过程。清洁是指修改和删除数据的过程,使之更适合分析。通过删除、编辑或结合变量,我们创造更强的数据会更好,更准确的模型。我们将会看到如何做到这一点的一个例子。
- 可视化的数据让我们了解趋势存在清洗后数据。我们如何用这些趋势进一步编辑的数据或在某些变量和丢弃吗?我们有异常值出现在需要删除的数据吗?
- 建模的数据可以使用可视化理解模型的性能。数据科学需要大量的尝试不同的模型,我们可以想象这些模型如何用不同的参数和选项来选择最好的模型。
让我们开始通过一些可视化了解在我们的数据集。
在这里我们做一个简单的计数阴谋存活率的理解性别的差异。条形图可视化快速帮助我们识别相比,更多的男性死亡活了下来,和更多的女性比死亡幸存下来。我们也快速识别,有更多的男性比女性。
正如我在前面提到的,你拥有的数据类型将决定什么类型的可视化可以创建。条形图是有价值的,当试图快速了解分类变量,变量只能持有一个值从两个或两个以上的类别没有任何命令。这可以有点混乱时数据的类别,但我们可以看到一个这样的例子在泰坦尼克号pclass变量数据。这个变量的可能的值是1,2,3,虽然这些数字与类别的类,而不是实际数字像车费变量。
你可以阅读更多关于什么类型的数据需要不同的可视化在这里。
相比之下,小提琴的情节让我们看到一个数值型变量的分布在一个分类变量。这里我们看到的年龄,一个数值变量,是分布在两性。我们也彩色小提琴情节理解每个性别的乘客幸存了下来,并没有。很快这张图告诉我们,更多的年轻男性比年长男性幸存下来。相比之下,我们很快明白女性幸存下来的数量是相同的跨年龄;没有明显的趋势区分在不同年龄组女性幸存下来。
现在让我们向我们展示如何把一个变量并将其可视化。
sibsp变量,表示和配偶,兄弟姐妹的数量和烤变量,表示父母和孩子的数量的乘客,可以结合。通过结合这两个,我们可以创建一个新的变量,可以提供更多的洞察力比分离变量如何家庭规模存活率的影响。
你看到新列称为“家庭规模”?让我们看看是否有年龄和家庭规模之间的关系,和颜色是否乘客幸存下来。你看到下面是一个绝对的散点图,让我们比较分类和数值变量。家庭规模是类别变量和年龄是数值变量。我们可以看到最大的家庭规模是8。彩色编码显示我们乘客幸存下来:蓝色对那些没有生存和橙色的。
我们看到一个有趣的结果。乘客2 - 4人的家庭规模似乎最好的生存机会;随着家庭规模的成长存活率普遍降低了。
作为一个数据科学家,需要逻辑思考这些类型的变量可能会显示一个关系。有时候你必须测试多个变量的组合没有任何期望的关系,有时你会使用一些逻辑推理根据你以往的经验或知识。例如,我可能在逻辑上期待那些一流的生存往往比三等舱的乘客,富裕的乘客可能会被优先考虑。
让我们来测试如果和另一个分类散点图理论是正确的,但这一次我们会看年龄和阶级,看看这乘客生还。
我们可以看到很多橙色圆点一流的部分相比三等部分,这证实了逻辑推理比乘客更富裕的乘客生还在下层阶级。
有很多需要考虑当你想一个数据科学家可视化数据分享你学过的东西。你必须记住,与可视化来讲述一个故事,你必须理解底层数据。泰坦尼克号的数据集,我们必须了解每个变量的复杂性。结合孩子的父母和配偶/列,我们能够得到更多的洞察力比如果我们单独使用这些列。有很多因素需要充分获得可视化的潜力和更多的数学和统计知识,找到最优变量进行分析,但我希望这个介绍让你像数据科学家一样思考。
阿里。扎伊迪是一个数据科学家斜方公司。manbetx客户端首页他的专长是机器学习和帮助推出代人工智能。他有一个女士在数据从弗吉尼亚大学的科学。
©2020斜manbetx客户端首页方公司。保留所有权利。批准公开发布;无限的分布。20 - 2935
横切为导向的团队致力于解决问题的一个更安全的世界。通过公私伙伴关系和联邦政府资助研发中心,我们在政府工作,与行业合作应对挑战的安全、稳定和幸福。了解更多主教法冠。
参见:
