采访阿里。扎伊迪在人工智能设计经验

卡梅伦Boozarjomehri(左)采访阿里。扎伊迪(右)。照片:马丁Buitrago

面试官:卡梅伦Boozarjomehri

欢迎来到知识播客的最新一期。在本系列中,软件系统工程师卡梅隆Boozarjomehri面试技术领导人横切了知识共享和协作不可或缺的一部分他们的实践。

阿里。扎伊迪是一个斜方数据科学家解决横切一个有趣的挑战是他工作的一部分一代人工智能联系。机器学习和数据科学发展,机器学习领域的教育已成为一个必要很少有人会联想到计算机科学。面临的挑战是:如何培养大学生在历史上,商业、公共卫生、音乐、等等由计算机科学家倡导使用工具?这是阿里的问题是负责解决,并在此讨论,他会引导我们从非正式主意的教训!

点击下面听播客:

播客成绩单
卡梅隆:	今日	大家好,欢迎来到横切的知识播客。我是你的主人,卡梅伦Boozarjomehri,今天我加入了数据科学家,阿里·扎伊迪。我读对了吗?太棒了。
卡梅隆:	00:25	不幸的是,我们的听众听不到当你竖起大拇指。阿里在横切的数据分析部门工作,对吗?
阿里:	00:32	是的,这是正确的。
卡梅隆:	00:34	所以我认为它会很有趣对你做一个背景。也许你想介绍一下自己和多久你一直在横切,什么样的你一直在做的事情,因为你有在这里吗?
阿里:	00:42	确定。我首先声明,我昨天在横切只是一周年纪念日。因此,我正式在横切一年。我是一个科学家在我们的数据分析部门。我最近毕业和我从UVA数据科学硕士学位,在此之前,我完成了我的本科乔治梅森大学。是的,这是我的背景。
卡梅隆:	01:06	一年在横切既是一个重要的和无关紧要的里程碑考虑我们有一些人很长的任期,但似乎有很多,你可以在一年。所以说,今年年底前,花一分钟来回顾所有的工作之后你已经很令人兴奋。
卡梅隆:	01:23	据我所知,你已经做了一些很有趣的项目?
阿里:	与一些	是的。是的,我完全同意你的看法,一年是很长,但很短,当你思考速度流逝,当你工作非常有趣的工作。
阿里:	01:38	是的,我有工作在多个项目的乐趣在横切自从我开始和所有的作品都是超级有趣,和超级挑战到目前为止,我兴奋地进入他们与你在一起时的感觉。
卡梅隆:	01:49	我将从这开始,我们有很多的谈话在这个播客交响乐团平台和一代人工智能联系。据我所知,你是我们这一代AI Nexus团队的一员。我认为这是一个很大的一部分,今天我想和你谈谈。
卡梅隆:	02:07	我们听到很多关于它作为一个平台,一个地方的人经验或想获得经验在机器学习,或与大众分享机器学习,数据科学家的培养下一代,我猜,数据工程师。但是我们没有得到一个好的教训是什么,什么实际的东西你学习的内部关系本身,样子。事实证明,你是完美的人来回答这个问题。
阿里:	02:35	完美的问题。是的,我现在工作在该平台上帮助设计不同的课程将在数据科学、人工智能和机器学习领域知识的课程。例如,我曾与一位教授(菲尔博士Barry,乔治梅森大学)项目管理类来创建数据科学课程对他来说,关系数据科学的项目管理。我没有经验和项目管理,但这是一个非常有趣的挑战在学习项目管理是如何教以及它是如何工作的,然后插入数据科学教案。
卡梅隆:	03:10	是的,所以我认为这是我们想要去的地方。你能告诉我们更多关于…首先,项目管理。我觉得这个词有很多不同的含义。你想进行更详细的描述在项目管理方面的工作是什么?
阿里:	03:24	确定。项目管理作为一门学科非常参与了解如何缓解三件事。一个是他们试图理解如何解决的时候进行一个新项目,或者当前项目。他们想要解决钱,他们想要解决风险。这三个东西作为理解项目管理的核心。你希望能够理解在一个新项目你要花很多钱,或者你可能需要一点点攒的钱在未来解决这些问题。
阿里:	04:01	你想了解你需要多少时间,如果会有任何延误在项目的不同部分的计划。你也希望能够了解其他风险。你有风险的人,人们也许离开这个项目,或需要新的人吗?与其他组件有问题的项目吗?假设这是一个项目的科学数据。有时你需要数据,数据的格式来找你,你可能没有预期,因此它需要额外的小时清洁的男人。也许是未完成的数据,或不完全。
阿里:	04:35	有时你需要准备这些东西,和项目管理试图减轻,通过创建一个整个纪律在减轻这三个东西,减轻风险这三个不同的类别。
阿里:	04:47	当我们第一次开始,我只知道项目管理从企业的角度来看,这是好的,我们将在一个新项目中使用这个项目管理工作流程,这是它是如何建造的。很多人会把一个甘特图与项目管理,这是他们的货币之一,项目管理。
卡梅隆:	05:08	如果你不要我我问你真正的快,你能解释一个甘特图的人可能不熟悉吗?
阿里:	05:13	确定。甘特图是一个随着时间的推移图用于描述不同的任务,你可以把这些任务并行,这样你有多个任务制定和重叠的时间框架。
卡梅隆:	05:30	它通常看起来像,如果你可以想象一种条形图酒吧在哪里…
阿里:	05:35	他们攀登。
卡梅隆:	05:36	是的。
阿里:	05:36	他们是按比例缩小的时间。
卡梅隆:	05:38	杆的长度代表预期的时间,和所有的酒吧灯光都很整齐地叠放着彼此,所以你有一个好主意,6月,7月,或者任何时间框架。你可以看到当一个酒吧结束预计当工作结束。
阿里:	05:50	嗯哼(肯定)。完全正确。这允许我们把数据科学和机器学习技术,并应用到一个全新的数据集,并提供学生在这个项目管理类的能力,了解如何使用数据来降低风险。
阿里:	06:11	我们所做的就是(斜方指导设计师乔·加纳找到一个和我)数据集已经存在。它有一个列表的项目失败从项目管理的角度来看。和它有很多不同的变量,或数据点,在项目失败的原因,这个项目的长度,项目的国家,和其他相关因素。
阿里:	06:33	我们能够做的就是补充数据集和一些综合生成的数据和提供Jupyter笔记本教案教授,和他可以部署。我们走的学生通过笔记本和给他们一个机会去了解如何使用数据,并进一步分析它在未来做出结论和降低风险。
卡梅隆:	时间是06:58	我得说,有很多解压,因为我觉得你说的完整宽度代人工智能联系平台,描述这个项目。首先,让我说:我爱这对机器学习的想法,因为我们在斜接,我们总是处理的前沿技术,或新技术,没有人真正玩或使用。赞助商可以不可能清楚地解释,“这区块链解决方案,这机器学习解决方案,”,“我们期望的进展是这样的。”
卡梅隆:	07:28	你可以设定预期的里程碑,但作为一个技术变化或当你学习新的方法来适应它,它可以很难遵循实际预期的进展。因为从来没有人做过。
阿里:	07:43	完全正确。我完全同意这一点。如果你看看当前的工作场所,和我们看到的项目,有很大的需要以外的人我们当前的学科分支,有这些技能,这样我们的赞助商可以使用它们。
阿里:	07:59	例如,尽管很好数据科学家,我可能没有领域知识的人也许历史研究,生物学或其他一些学科没有预期的数据科学或编程的技术准备。如果你给他们能够使用他们的技能领域知识与数据科学技能,那么你可以为我们的赞助商提供一个非常宝贵的资源。
卡梅隆:	塔利班)	是的。我认为这是一个很好的观点多么横切的试图将这些技术赞助商,不一定就在学术界,也作为一种工具对于那些希望培训他们的员工在机器学习这些目标和好处是什么样子的。
卡梅隆:	08:46	回到别的你说,你提到你有补充数据集已经发现与合成数据。你会说,为什么和你是怎么做的?
阿里:	08:55	确定。在数据科学中,最大的一个关键问题是没有足够的数据。
卡梅隆:	09:01	嗯哼(肯定)。
阿里:	09:04	这意味着您需要能够(a),有足够的数据或者(b),使用不同的方法所提供的数据的科学。大量的数据科学算法和方法需要大量的数据产品任何可行的见解。不幸的是,我们收到的数据集,它只有800到900行数据,并不足以为学生提供足够的分析。
阿里:	09:33	我看着我们的数据,我创造了更多的数据统计特性的基础上,原始数据集。我确保原始数据集的统计特性,如平均值的一些列或其他的一些列的模式,他们住的代表原始数据集时,我创造了更多的行。这允许我们做不同的数据集更使学生有更多的数据,然后它还允许我们使用其他方法来分析这些数据。
阿里:	13	有趣的挑战,我们有这个数据集有很多非常倾斜的数据点,因为数据收集主要是在美国,所以我们没有尽可能多的项目我们希望从其他大洲。处理,我们添加了分析数据的一个方面,学生必须使用自己的分析能力,和思考问题,说“好吧,我只需要数据来自美国,而不是从这些其他地区。“因为他们试图解决的问题也发生在美国。
阿里:	10:51	这允许我们做的就是给他们一个非常开放的数据集,我们让他们玩,他们可以从中获得一些见解,更贴近他们试图解决的问题。给一些背景的学生们试图解决,他们有一个项目的教授试图为一个自治公交系统创建一个项目计划。
卡梅隆:	十一14	嗯哼(肯定)。
阿里:	11:15	这个自治的公交系统将做什么,它必须有一定的预算,学生必须有这些公共汽车运行某些地理区域之间,他们不得不创建一个完整的项目计划来减轻风险的数量将在未来发生。
卡梅隆:	11:30	只是为了做一个小的解释这是怎么回事,这仍然是一个项目管理课程,但我们试图引进这个假设的技术,也就是这个自治的公共汽车。在这种情况下,你说,考虑到这些其他项目,这些其他进军现代技术和新兴技术,我们能辨别或维持对这个新项目我们要承担的成本,影响,,,只是我相信你提到的其他元素的数据集?
阿里:	中午的	完全正确。我们要做的是我们希望能够使用数据过去的项目和为什么他们失败了,和使用数据,并应用我们所学到的,到这个新数据集和新学生们试图解决的问题。
卡梅隆:	12:18	现在,我想对这个教案一件大事,我想,脑子里仍然是你教学生,学生的水平,如何使用机器学习,学习。但是创建一个教案,机器学习的重点,你真的希望他们不一定只是知道如何玩数据,但如何应用机器学习的最佳实践。这样的谈话或流程是什么样子?
阿里:	46	当然,是的。这是个很好的问题。我会说,首先要注意的是很多学生在这门课以前从未摸Python,所以我们不得不开始教训与一些基本的Python技能,以及Jupyter笔记本电脑技能。
卡梅隆:	13:01	我应该解释很快,Python,谁不知道,是一种脚本语言,相当强劲。你可以用它做很多不需要知道很多关于编程。很多机器学习技术是建立在Python中,和一代AI Nexus利用Python的机器学习算法,对吗?
阿里:	22节	是的。这是一个伟大的序言。有时候你忘记,你可能没有完全技术观众如此,谢谢你的解释。
阿里:	13:31	另一个我们正在使用的技术是Jupyter笔记本,这是一个更简单的方法使用Python,并开发和代码,并不畏惧只是因为它的布局和工作方式。我们必须注意的一件事是这些学生不知道如何在Python代码,所以我们说,最初的部分来帮助他们了解Python包是什么工作,和有什么功能,这些不同的命令,他们看到。然后我们还去读取数据到Python。
阿里:	14:05	你怎么把一个Excel文件和读取文件,然后当你读它,你如何创建你的变量的数据,以及如何你能干净吗?你怎么能玩数据,如何操作,如何进入?这部分有点挑战性,因为当你没有任何Python的知识,你需要一些初步掌握计算机科学和理解变量的工作,是什么数据结构,什么是列表,这些不同的技术,foreloops。
卡梅隆:	十四36	这是几年的计算机科学这门课你只是干扰到。
阿里:	39	是的,我试着远离一些技术性的东西,我试图让它很容易消化。地方可能有一些问题,我们试着用在笔记本上额外的资源来补充。从我们得到的反馈,似乎这些资源是非常有效的回答很多问题学生。
卡梅隆:	15:01	我看过互动和参与的一小部分代人工智能联系项目是Jupyter笔记本非常强劲,在我看来。因为我参与了一个单独的高中生,他们的地方,我想说,更精通技术可能比那些服用这类项目管理。但是他们的好处是…有这些不同的切换在Jupyter笔记本。如果你的目标是展示数据的人,给他们一些滑球玩,看看这将如何影响数据之类的,这是一件事。
卡梅隆:	15:36	但是你可以触及开关,它就会弹出一个小代码块,基本上一个文本字段可以输入自定义Python代码,或一些特定的查询等等。基本上只是一种让你得到更多的细节与笔记本如何将数据,如果我是一个完整的新手,我不想被打扰和编程,我只是想找出这些数据,我可以坚持。或者如果我在更高级的课程,我们真的想要构建定制查询,或确保数据我们玩是正确的或有价值的,然后我有这个选项。
卡梅隆:	十六12	我意识到这是一个许多额外的东西,但我认为这实际上是数据本身,这是在一天结束的时候,只要你想玩你的数据,如你之前指出的那样,很难获得足够的数据。你可能会认为在这个连接的世界,它不会很难获取数据。但很难获得足够的数据。
卡梅隆:	你们可以	正如你指出,你做很多来生成合成数据的填补这一差距。当你生成合成数据,你有采取任何特殊措施以确保…我相信这个词是过度拟合。据我所知,有两种类型的过度拟合。过度拟合的机器学习算法本身,你定制的方式或设置它,也许通过这些Jupyter笔记本切换,它基本上停止思考的一般方面“如果我看到这样的数据在野外,我想什么?”,重点是“这个数据是唯一的,因此只要我看到这样的数据,我将知道该怎么做。”
卡梅隆:	十七12	但是它难以适应不同数据可供选择,突然你的预算的疯狂,但你的时间也是野生。
阿里:	十七20	是的,当然。
卡梅隆:	17:22	好吧。我想知道是有考虑,如何生成数据本身?
阿里:	17:27	确定。我完全同意这一点。有两种方法可以overfit,就像你说。一个是模型过度拟合的数据,或数据本身是有偏见的,尤其是在合成数据,也许这个数据并不代表真实的世界,因为你从头创建它,它不是真实的。
阿里:	17:47	和有一些注意事项。我想要尽可能真实的原始数据集最小化,因为我们没有收集这些数据。这些数据来自第三方源和我想忠于统计数据集已经基本参数。它大约800到900行,所以,我不觉得它太小的一个数据集,如果我一直真正的统计特性,它已经有了,我们就会过度拟合。
阿里:	18:20	例如,如果我们有一个数据集可能,50到60行,我不得不创建合成数据统计特性的基础上,数据集,然后我会说,过度拟合将是一个更大的问题,因为原始数据集的样本容量太小。但是当你有800到900行,你有一点,你可以玩,和你有一点统计变异性在数据集能够创建数据有点更具代表性。
卡梅隆:	18:53	我认为最后一个注意出去,这种技术的好处是你向群众介绍机器学习。这是方便我们的赞助商让员工熟悉机器学习。它是方便学术训练的人,或者找到方法向人们展示机器学习的力量。
卡梅隆:	19:10	但是我认为你指出一些非常有价值的,这是很多人,他们听到机器学习,他们可以把它当这全能,这就是未来,一切都是完美的,因为机器学习很好。但是我们发现在各种不同的研究机器学习有偏见的问题,基本上和被误解,可以对不同的人群非常有害。
卡梅隆:	福音》第19章34节	作为一个喜欢探索偏见在一些机器学习的问题我已经做了我自己的工作,我很好奇如果你能说这个平台给用户带来不同的观点,以及它如何帮助他们减轻也许不仅仅是偏见的问题,还有其他问题在如何正确与机器学习技术呢?
阿里:	19:56	好问题。我认为,人们倾向于忘记的一件事是,数据科学是不应该黑盒,你不希望人们认为数据科学数据我扔到这个模型中,我得到一个特定的结果,这就是它的终结。我得到了我的结果,我现在可以将这个模型应用到新数据,我可以跳出采取任何模型,这是它的终结。
阿里:	21奸细	我不认为这是我们想要的方法。应该更多的理解,数据科学有这些优点,这些优点,但也有这些缺点。你必须真正评估方法你用什么数据。,你需要明白,有时一个特定的模型将出现某种结果,你需要考虑它与记住,这种模式可能会有一些偏见,它可能有一些缺点,它不能解决所有的问题或潜在的可能未来的其它数据。
阿里:	20:56	仍然需要回答的一个问题是,你能进入多少细节与这些教案,学生能够理解数据科学的力量和这些不同的机器学习算法的能力。但后来也带走,他们不能应用这些算法和模型。应该仔细考虑你正在使用这些模型:人工智能AI问题和伦理问题,隐私问题,自主车辆和其他风险问题与新技术。
卡梅隆:	21:32	我认为总是将是一个困难的问题,因为有很多的研究做…就像字面上的项目,如何让机器学习来显示他们的工作,展示了他们得出一个结论。因为偏见本身不是一件坏事。我的意思是,启发式偏差通常说,对世界的真理。但重要的是我们应该能够解释某些偏见,偏见,我们不想有可能基于不充分或不准确的数据。
卡梅隆:	22:00	非常感谢你的时间。这是惊人的谈话。在我们去之前,如果有谁想要开始在机器学习或提高速度与这些不同的工具是如何工作的,如果有任何资源你可以指出他们内部或外部斜方,人们应该意识到吗?
阿里:	22:17	确定。我想说一个开始的好地方,特别是如果你有兴趣在这些不同的技术,方法,和你想开始编码,我认为互联网是一个好地方去学习这些东西。我甚至不能数多少。在互联网上搜寻资源,有成千上万的网上课程,他们都做的很好。同样也有大量的不同的教科书。不幸的是,我不能推荐一个特定的人在我的头脑。但有多种教科书很详细数据的科学,关于Python,其他编程语言,比如R,用于数据科学、巨大的资源。
阿里:	22:58	我还说希望一代AI Nexus利差和生长在未来几年,希望这也会成为一个资源,为世界各地的学生。
卡梅隆:	23:09	好了好了,我们想给一个大感谢斜方和知识企业做这个播客,我们想给你一个更大的谢谢,阿里。这是我跟阿里。扎伊迪的对话,数据科学家横切的数据分析部门。谢谢你！
阿里:	23:21	谢谢你！谢谢你邀请我。