【数据科学】内部发展数据科学技能:真实世界的经验教训

视频号

微信公众号

知识星球

Chinese, Simplified

各组织正在向内看,以满足数据科学的需求,发展必要的文化、课程和计划,以深化数据分析专业知识。

几乎每个行业的公司都非常需要数据科学家,因为他们希望启动大数据和分析项目,并从数据资源中获得更多价值和见解。

然而,对这些专业人员的需求继续以相当大的幅度超过供应,而且没有迹象表明这种情况会很快改变。

在线就业网站CareerCast.com将数据科学家列为2018年最佳工作之一,预计今年的需求将增长19%。CareerCast评估了美国劳工统计局关于增长前景、行业招聘趋势、贸易统计、大学毕业生就业数据以及该网站自己的列表数据库的数据,以确定哪些因素推动了招聘需求。

就需求而言,数据科学专业经常跻身于顶级职业之列,组织需要专业地分析数据并将其转化为可操作的信息,这推动了数据科学行业的增长。

对于许多组织来说,填补这些职位的斗争是激烈的。从外部聘请专家当然可以成为建立数据科学团队战略的一部分,但考虑到极端的竞争,一些组织正在转向自己的队伍来培养他们需要的数据科学人才。

以下是一些组织如何鼓励数据驱动的文化,并在内部发展更深入的数据分析专业知识。

在嘉年华培养数据驱动的文化

数据科学是嘉年华风险咨询和保证服务部的战略重点,该部门运营嘉年华邮轮。该部门经理Daniel Bukowski表示,该部门提供内部审计服务,其领导层有力地支持了该领域的专业发展和培训。

例如,该部门支持Bukowski参加Udacity预测分析纳米学位课程,他有审计和会计背景,但没有受过IT或技术知识的正规教育。Udacity在人工智能、数据科学、编程与开发以及自主系统等领域提供了一系列在线高等教育项目。

Bukowski说:“该部门的许多其他审计员看到了数据分析的重要性,并正在寻求领导力支持的培训”,包括如何使用Alteryx、Tableau等供应商的分析工具。他说,该部门2018年7月的年度务虚会包括一次关于数据可视化的外部培训课程和一个关于审计相关数据分析举措的内部培训计划。

审计部门的两名数据科学家被聘为数据科学家。然而,该部门赞助的培训帮助Bukowski和其他几位审计员提高了数据素养,并能够将数据分析概念应用于审计和调查。

Bukowski说:“并不是所有的审计师都需要成为数据科学家,但他们必须具备数据素养。”。他又迈出了一步,报名参加了科学硕士数据分析项目,“因为我看到了数据在我的职业生涯中有多么重要,”他说。

随着数据科学/分析方面的额外教育,Bukowski的角色在过去12个月里从主要执行个人审计和调查演变为为为执行自己审计和调查的同事提供数据分析支持。

使用各种分析工具,Bukowski可以混合和分析大型数据集,而他的同事只能使用Excel电子表格。他说:“这导致了对Excel中较小数据集的分析不太可能发现的多次审计结果。”。

Bukowski表示,审计部门正在根据审计结果启动咨询项目,为嘉年华及其运营公司提供额外的分析驱动价值。

在SessionM让工程师参与数据科学工作

提供客户数据和参与平台的SessionM正在创建一个由专门的数据科学工程师(DSE)组成的团队,负责设计和编写用于生产的人工智能(AI)软件。SessionM负责数据科学、人工智能和机器学习的副总裁Amelio Vázquez Reina表示,这些人对机器学习(ML)、统计学和决策理论都很了解。

Vázquez-Reina表示,他们的主要职责是自动生成见解、预测和建议,并构建软件产品,为整个公司的决策提供自动执行。

Vázquez Reina表示,除了开发正式的DSE外,SessionM还有几项举措来帮助公司提高数据科学素养。他说:“我们定期与其他部门举行会议,要求DSE向我们的销售、业务分析师、产品和解决方案体系结构团队解释他们的数据模型和解决方案。”。

这些会议有两个目标。一个是向员工介绍SessionM的数据科学战略、方法和最佳实践。另一个是帮助公司的每个人理解并宣传其所谓的人工智能“价值生成链”。这是一个过程,包括从每个客户那里收集数据,明确规定客户目标,并强调软件开发的实验,以最大限度地为客户带来结果和见解。

此外,该公司还为软件工程师提供机会,通过其敏捷开发流程和为客户提供的数据科学服务,为其数据科学软件做出贡献。SessionM还举办以人工智能为中心的会议和社交活动。

“这些会议以描述公司感兴趣的问题的SessionM DSE的技术演示开始,然后对该问题进行数学表征,该问题适合公司的所有[软件工程师],最后围绕所选择的解决方案、实施以及在此过程中探索的任何权衡和替代方案进行开放式讨论。”

Ogury培养数据科学人才

Ogury是一家提供移动数据技术的公司,据该公司首席技术官Louis-Marie Brierre介绍,该公司每天接收的数据超过1TB。要获得处理如此大量信息的资源、技能和能力,需要一支敬业且才华横溢的数据科学团队。维持这样一个团队的关键之一是创造一个有吸引力的工作场所。

Brierre说:“我们激励团队的最佳方式是给他们学习和控制个人成长的空间。”。“我们授权我们的数据团队拥有和管理他们的项目,并承担全部责任。”

该公司的数据科学家与数据工程师以及开发和产品团队密切合作。Brierre说:“这让他们了解了业务,并使他们能够了解自己在公司中的角色和影响。”。“我们从不限制他们正在操纵的数据的计算能力以及他们想要测试的想法。”

Brierre说,由于项目和团队的多样性,“我们喜欢挑战人们,并通过每12或18个月加入一个新的部门为他们提供新的增长途径。”。“这让他们有机会离开舒适区,发现新的团队合作伙伴和项目。”

Ogury还致力于保持其数据科学家训练有素。

Ogury首席算法官Christophe Thibault表示:“我目睹了许多公司急切地等待新数据科学家的到来。”。“这些公司相信,他或她会来拯救他们的业务,提高所有(绩效指标)。是的,数据科学家和分析师是组织中的关键人物,但他们仍然需要像其他有价值的团队成员一样得到培养和培训。”

Thibault说,为了建立一支数据科学家团队,公司必须培养优秀的人才。“但他们也有责任为他们的到来做好组织准备,并为他们的成功做好准备,”他说。

自2014年以来,Ogury采取了几种做法来吸引和留住数据科学家。一个是消除技术限制。Thibault说:“我们所有的数据科学家都可以访问云上的沙盒环境,这样他们就可以测量自己的计算能力,并将其与他们正在操纵的数据和他们想要测试的想法进行全面比较。”。

另一个是鼓励合作。Thibault说,数据科学家和数据工程师拥有不同的技能和词汇。但对于一个组织的数据分析工作来说,他们一起工作和合作是至关重要的。“一个组织内知识的自由流动是企业蓬勃发展的方式,”他说。

第三种做法是将算法与数据相匹配,而不是相反。Thibault表示:“数据科学家与商业分析师密切合作,以了解数据。”。“尤其是在Ogury,我们有独特的、细粒度的第一方数据,数据科学家需要时间来理解信息。最重要的是,我们的团队必须确保他们使用的算法能够完美地拟合数据,而不是仅仅因为这是一条简单的出路就扭曲数据以将其拟合到众所周知或预先确定的算法中。”

美光协助获得高级学位

持续的学习和教育是计算机存储器技术提供商美光的首要任务。美光首席信息官Trevor Schulze表示:“由于许多数据科学都需要深入掌握统计学和机器学习,(公司)支持许多人在这一领域攻读高级学位。”。

此外,舒尔茨说,美光的员工发现大规模的在线开放课程(MOOC)有助于巩固某些技能。该公司还通过支持出席外部和内部会议和在会议上发言,向同行学习。

美光在世界各地的数据科学团队中雇佣了数百名员工。舒尔茨说,这些团队中约有一半的数据科学家来自公司的不同岗位,通常是工程部门。

舒尔茨说:“当人们有强大的数据基础、好奇和探索的心态,最关键的是掌握统计学和机器学习方法的能力时,就会成功地向数据科学过渡。”。“这些人在正规、高级教育中可能缺乏的东西,他们往往会在工业和数据知识方面弥补。”

数据科学的兴起对公司产生了巨大的影响。舒尔茨说:“三十多年来,机器人和计算机自动化一直是开发和生产下一代存储芯片的关键推动者。”。“然而,仅靠自动化已经无法推动行业向前发展。随着数据科学成为许多制造流程和商业决策的核心,美光正在发生真正的变革。”

在McAfee的指导并将培训作为首要任务

安全技术公司McAfee创建了一个卓越分析中心(ACE),其框架包括价值主张、宣传(包括培训和指导)、模型/算法和数据管理。该公司首席数据科学家Celeste Fralick表示,这得到了首席技术官和主要副总裁的支持。

为了实现该框架,ACE参与者定期安排关于算法的“技术讲座”;McAfee创建了八个实践社区,即教育、人力资源、工业/学术合作等领域的工作组。它还成立了技术工作组,如分析审查委员会、对抗性机器学习和分析门户网站。

ACE是全球性的,拥有150多名来自公司各个技能水平的人员。Fralick说:“我们现在正在制定一个辅导计划和一个关于数据货币化的短期课程,并探讨管理人员等非数据科学家可以提出的关于算法和模型开发的问题。”。

此外,McAfee还赞助了深入的培训,包括分析、清洁和预处理数据的介绍,以及模型和机器学习的介绍。

Fralick说:“虽然我们不教授‘工具’本身,但我们教授的是一般的‘窍门’和特定主题的概念。”。“工具会改变,但数学和可能破坏算法的陷阱通常不会改变。”

Fralick说,这些努力是故意缓慢而自愿地开始的,目的是在非对抗性的氛围中获得最初的积极影响。她说,对课程的需求猛增。

Fralick说:“我们还推荐特定的外部课程、书籍以及学位或证书课程。”。“我们发现,计算机科学家通常没有被教授数据科学的关键要素。当他们得到信息时,他们会热情地回应,明白数据不仅仅是收集和快速应用模型。开发成功的分析还有更多的工作要做。”

Fralick说,对于训练有素的数据科学家来说,项目“正在知识和智能的金字塔上向上发展,从统计学到机器学习,从深度学习到人工智能”。“由于机器驱动的算法增强了人类的决策,因此人机团队在这一过程中至关重要。”

具体的分析开发需求正在集成到软件产品生命周期中。Fralick说:“我们打算让公司里的每个人都上一门分析入门课程。”。“数据科学工作对组织和我们的业务/数据战略的总体影响已经随着更高的数据量、客户期望和数据融合而凝结,以使我们的业务能够以数据和模型为驱动。”

在Ibotta,课程和合作

在过去的两年里,移动购物应用程序开发商Ibotta通过正式和非正式的培训,在组织内部建立了一个分析团队。

该团队开发了为期六周的SQL、Python和Spark课程,以及关于有效沟通分析结果的技巧和窍门、频率学家与贝叶斯统计的利弊以及利用TensorFlow构建神经网络等主题的简短入门培训课程。

数据分析和科学副总裁Laura Spencer表示:“此外,我们每两周举行一次头脑风暴会议,团队成员在会上讨论和构思各种分析和数据科学主题,以及如何在整个公司利用这些主题。”。

该公司还高度重视具有不同技能的分析师之间的合作项目,以鼓励分享技能、能力和限制。

Spencer说:“例如,我们最近与营销分析、机器学习和用户研究方面的专家进行了一次保留深度挖掘,为业务建立[推荐]。”。“我们还采取了一些举措,鼓励员工继续从外部学习,并将新的工具和方法带回团队。”

Ibotta在其总部附近主持并出席各种大数据和数据科学会议。Spencer说:“我们还赞助每一位数据科学家每年参加他们选择的会议,作为回报,他们会向组织的其他成员提供会议学习的培训。”。

在过去的几年里,Ibotta的分析团队已经发展到大约45人,包括数据工程、统计学和机器学习等技能。

本文地址
https://architect.pub
SEO Title
Developing data science skills in-house: Real-world lessons