跳转到主要内容
Chinese, Simplified

如今,数据科学家为王。 但从数据中提取真正的商业价值需要技术技能、数学知识、讲故事和直觉的独特结合。

数据科学家的需求量仍然很大,几乎每个行业的公司都希望从其新兴的信息资源中获得最大价值。

“随着组织开始充分利用其内部数据资产并检查数百个第三方数据源的集成,数据科学家的作用将继续扩大相关性,”咨询公司主管 Greg Boyd 说 甫瀚。

“在过去,负责数据的团队被下放到 IT 组织的后台,执行关键的数据库任务,以保持各种公司系统被提供数据‘燃料’,[这] 允许公司高管报告运营情况 活动并交付财务成果,”博伊德说。

这个角色很重要,但业务的后起之秀是那些精明的数据科学家,他们不仅能够使用复杂的统计和可视化技术处理大量数据,而且拥有敏锐的洞察力,他们可以从中获得前瞻性的见解 ,博伊德说。 这些见解有助于预测潜在结果并减轻对业务的潜在威胁。

那么,怎样才能成为数据科学高手呢? 根据 IT 领导者、行业分析师、数据科学家和其他人的说法,这里有一些重要的属性和技能。

批判性思维


数据科学家需要成为批判性思考者,能够在形成观点或做出判断之前对给定主题或问题的事实进行客观分析。

“他们需要了解业务问题或正在制定的决策,并能够‘建模’或‘抽象’对解决问题至关重要的内容,而不是无关紧要且可以忽略的内容,”全球人工智能和创新部门的 Anand Rao 说 咨询公司 PwC 的数据和分析主管。 “这项技能比其他任何东西都更能决定数据科学家的成功,”Rao 说。

Zeta Global 的首席信息官 Jeffry Nimeroff 补充说,数据科学家需要有经验,但也需要有能力保持信念。Zeta Global 提供基于云的营销平台。

“这种特质抓住了这样一种想法,即知道在任何领域工作时会发生什么,但也知道经验和直觉是不完美的,”Nimeroff 说。 “经验会带来好处,但如果我们过于自满,也并非没有风险。 这就是信念的悬念很重要的地方。”

Nimeroff 说,这不是用新手的大眼睛来看待事物,而是退后一步,能够从多个角度评估问题或情况。

编码


一流的数据科学家知道如何编写代码,并且能够轻松处理各种编程任务。

“数据科学的首选语言正在转向 Python,R 也有大量追随者,”Rao 说。 此外,还有许多其他语言在使用,例如 Scala、Clojure、Java 和 Octave。

“作为一名真正成功的数据科学家,编程技能需要包括计算方面——处理大量数据、处理实时数据、云计算、非结构化数据,以及统计方面——[和]工作 使用回归、优化、聚类、决策树、随机森林等统计模型,”Rao 说。

安全软件公司 McAfee 的首席数据科学家 Celeste Fralick 说,从 1990 年代后期开始的大数据的影响要求越来越多的数据科学家了解并能够使用 Python、C++ 或 Java 等语言进行编码。

如果数据科学家不懂如何编码,那么周围都是懂的人会很有帮助。 “将开发人员与数据科学家合作可以证明是非常富有成果的,”Fralick 说。

数学


对于不喜欢或不精通数学的人来说,数据科学可能不是一个好的职业选择。

“在我们与全球组织的合作中,我们与寻求开发复杂财务或运营模型的客户接洽,”博伊德说。 “为了使这些模型具有统计相关性,需要大量数据。 数据科学家的作用是利用他们在数学方面的深厚专业知识来开发可用于制定或转变关键业务战略的统计模型。”

数据科学家天才是擅长数学和统计学的人,同时能够与业务线高管密切合作,以提供再保证的方式传达复杂方程式“黑匣子”中实际发生的事情 博伊德说,企业可以信任结果和建议。

机器学习、深度学习、人工智能
Fralick 说,由于计算能力、连接性和收集的大量数据的增加,这些领域的行业发展非常迅速。 “数据科学家需要在研究中走在前沿,并了解何时应用何种技术,”她说。 “很多时候,数据科学家会应用一些‘性感’的新事物,而他们要解决的实际问题并不那么复杂。”

Fralick 说,数据科学家需要对要解决的问题有深刻的理解,而数据本身会说明需要什么。 “了解生态系统的计算成本、可解释性、延迟、带宽和其他系统边界条件——以及客户的成熟度——本身有助于数据科学家了解应用什么技术,”她说。 只要他们了解技术,情况就是如此。

同样有价值的是统计技能。 大多数雇主不考虑这些技能,Fralick 说,因为今天的自动化工具和开源软件很容易获得。 “然而,理解统计数据是理解这些工具和软件所做假设的关键能力,”她说。

数据存储提供商 Micron Technology 的首席信息官 Trevor Schulze 表示,仅了解机器学习算法的功能接口是不够的。 “要为工作选择合适的算法,成功的数据科学家需要了解方法中的统计数据和适当的数据准备技术,以最大限度地提高任何模型的整体性能,”他说。

舒尔茨说,计算机科学技能也很重要。 因为数据科学主要是在键盘上完成的,所以软件工程的扎实基础会很有帮助。

沟通


沟通技巧的重要性值得重复。 当今的技术几乎没有任何事情是在真空中进行的。 系统、应用程序、数据和人之间总是存在一些集成。 数据科学也不例外,能够使用数据与多个利益相关者进行交流是一个关键属性。

“通过数据‘讲故事’的能力将数学结果转化为可操作的洞察力或干预措施,”Rao 说。 “处于业务、技术和数据的交叉点,数据科学家需要善于向每个利益相关者讲述一个故事。”

这包括向业务主管传达数据的商业利益; 关于技术和计算资源; 关于数据质量、隐私和机密性方面的挑战; 以及组织感兴趣的其他领域。

Nimeroff 说,成为一名优秀的沟通者包括将具有挑战性的技术信息提炼成完整、准确且易于呈现的形式的能力。 “数据科学家必须记住,他们的执行产生的结果可以而且将会用于支持企业的定向行动,”他说。 “因此,能够确保观众理解并欣赏呈现给他们的一切——包括问题、数据、成功标准和结果——是最重要的。”

Schulze 说,一名优秀的数据科学家必须具备商业头脑和好奇心,才能充分采访业务利益相关者以了解问题并确定哪些数据可能相关。

此外,数据科学家需要能够向商业领袖解释算法。 Schulze 说:“交流算法如何得出预测结果是获得领导者对预测模型作为其业务流程一部分的信任的关键技能。”

数据架构


数据科学家必须了解从开始到建模再到业务决策的数据发生了什么。

“不了解架构会对样本量推断和假设产生严重影响,通常会导致不正确的结果和决策,”Fralick 说。

更糟糕的是,架构内的事情可能会发生变化。 Fralick 说,如果一开始不了解它对模型的影响,数据科学家可能最终会“在模型重做的风暴中或突然不准确的模型中不理解原因”。

Fralick 说,虽然 Hadoop 通过将代码交付给数据而不是相反来支持大数据,但理解数据流或数据管道的复杂性对于确保基于事实的良好决策至关重要。

风险分析、流程改进、系统工程


敏锐的数据科学家需要了解分析业务风险、改进流程以及系统工程工作原理的概念。

Fralick 说:“我从未认识过没有这些”技能的优秀数据科学家。 “他们齐头并进,都在内部专注于数据科学家,但在外部则专注于客户。”

Fralick 说,在内心深处,数据科学家应该记住头衔的后半部分——科学家——并遵循好的科学理论。

在模型开发开始时进行风险分析可以降低风险。 “从表面上看,这些都是数据科学家向客户询问他们试图解决的问题所需要的所有技能,”她说。

Fralick 说,将支出与流程改进联系起来,了解公司固有的风险和其他可能影响数据或模型结果的系统,可以提高客户对数据科学家工作的满意度。

解决问题和良好的商业直觉


Nimeroff 说,一般来说,伟大的数据科学家所表现出的特征与任何优秀的问题解决者所表现出的特征相同。 “他们从多个角度看世界,他们在拿出所有工具之前先了解自己应该做什么,他们以严谨和完整的方式工作,他们可以流畅地解释他们的结果 执行,”尼梅罗夫说。

在评估技术专业人员担任数据科学家等角色时,Nimeroff 会寻找这些特征。 “这种方法产生的成功远多于失败,而且还确保了潜在的优势最大化,因为批判性思维被带到了最前沿。”

寻找一个伟大的数据科学家需要找到一个技能有些矛盾的人:处理数据处理和创建有用模型的智能; 商业软件提供商 Paytronix Systems 的 Paytronix Data Insights 负责人 Lee Barnes 表示,以及对他们试图解决的业务问题、数据的结构和细微差别以及模型如何工作的直观理解。

“第一个最容易找到; 巴恩斯说,大多数拥有良好数学技能并拥有数学、统计学、工程学位或其他科学学科学位的人都可能拥有足够的智力来完成这项工作。 “第二个更难找到。 令人惊讶的是,我们采访的人中有多少人建立了复杂的模型,但当追问他们为什么认为该模型有效或为什么选择他们所采用的方法时,他们却没有一个好的答案。”

这些人很可能能够解释模型的准确性,“但如果不了解它为什么以及如何工作,就很难对他们的模型有足够的信心,”巴恩斯说。 “对自己所做的事情有更深刻理解和直觉的人是真正的数据科学奇才,很可能会在这个领域取得成功。”

原文地址
https://www.cio.com/article/228620/the-essential-skills-and-traits-of-an-expert-data-scientist.html
本文地址
Article

微信

知识星球

微信公众号

视频号