Sergey Nivens - Fotolia
用数据科学讲故事已经成为一种顶尖的分析技能
数据科学中的讲故事正在成为分析学中的一项关键技能。没有它,数据驱动的洞察力往往会枯萎。
在不太遥远的过去,对数据科学家的评估主要是基于他们发现、理解、管理和综合信息的能力。随着数据环境的持续增长和计算能力变得更加可访问,编码技能变得越来越重要。随着时间的推移,微妙的需求出现了,包括人工智能方法的专业知识、判断数据的真实性以及许多其他微妙的能力。
最近,随着许多组织开始意识到高级数据能力投资的回报在美国,通常最缺乏的是在数据说明和业务需求之间进行转换的能力。这种从数据和分析的语料库中理解并以一种与其他与数据和分析不密切相关的方式传达这种理解的能力有时被称为数据科学讲故事。
使音调
考虑一个典型的情况:试图进行一项投资。不管需要什么正式的流程,在一开始,通常会有一个对话——有时称为推介——一个或多个参与方试图提出价值主张,以投入资金和其他资源。很多次,在此之前,我们会询问有访问权限的人数据和分析技能建立一个支持论点。
对它们有一定的了解试图证明,数据科学家可以用现有数据构建模型来支持这一结论。他们可以使用优秀的工具来创建可视化,这有助于交付。团队完成分析,并按照要求将结果交付给最初的涉众。所有这些工作都是为了投球而做的。
但即使是这个简单的场景也包含了几个经典的场景数据讲故事挑战。
一开始,有一种被称为先天的结论,是在进行任何分析之前对结论的假设。数据科学家被要求得出一个预先确定的结论。分析练习独立于机会公式进行,然后让那些被要求创建支持论点的人参与。
在这个关键阶段,信息的丢失和错过了问一个有意义的问题的机会,往往会导致一开始认知偏见——来自一个人理解问题或机会的方式的偏见。
有了团队所达成的理解,分析就会继续使用现有的数据。没有提到手中的数据是否足够,甚至对分析工作是否具有代表性。仅仅因为数据可以立即获得就使用它,有时被称为方便抽样,往往会导致错误或不完整的结论。
最后,数据科学团队使用了可视化——考虑到当前可用工具的状态,让我们假设这些工具非常棒——以便将分析反馈给那些提出建议的人。任何关于分析的深入理解都将在演讲时丢失,或者最好的情况下是不存在的。即使假设存在一些关于涉众的问题和关注的争论,这些复杂的因素可能在最终的演示中被遗漏,至少是部分的。简化是高效决策的关键,但过度简化可能导致错误的决策。
因此,我们必须牢记关于数据科学故事叙述的三个有用的最佳实践:
- 让利益相关者参与分析性叙述的创建。这有助于减少信息丢失,确保清晰的理解减少了最终决策中潜在的关键细微差别。
- 仔细考虑数据和分析方法。这支持了经验的严谨性——例如,结果是否可复制——并防止了抽样和其他偏见。
- 以简化为目标,从而引导正确的决策。过于简化以至于忽略了可能改变决策的细节可能是一个关键的缺点。可视化应该用于讲述一个故事,但不是为了掩盖论证中的关键点——例如,做了什么假设,为什么数据是得出结论的正确数据,等等。
死亡的数据
当我们考虑哪些技能与企业未来的决策状态相关时,我们应该仔细考虑像联邦这样的重要趋势。
随着数据和分析在企业中越来越广泛地使用,很自然也会有更多的个人使用要求使用数据科学技能来支持他们的工作。就像演示软件出现时,非图形专业人员突然需要了解字体、图形表示和其他技能一样,许多工人可能还没有准备好迎接这种转变。从分析角度看,相当于“因展示而死亡”,可以变成“因数据而死亡”。
随着数据和分析的联合在企业中继续发展,领导者应该仔细考虑他们正在采取哪些步骤来确保员工武装起来正确的技能——例如,问题表述、理解偏见和基本前提——以及来自专门分析资源的正确支持。
强大的决策
另一个关键趋势是提出解决方案。作为人工智能和其他方法变得更加普遍很多时候,我们发现自己在一场关于工具或方法的对话中,在寻找可以应用的解决方案。我们经常会从“我们如何使用人工智能来理解客户评论?”或者,“我们如何使用可视化来展示我们的新产品如何更好地工作?”
当我们用一种工具或技术来领导时,我们必须非常小心——科学教我们用一个问题来领导。考虑一下,如果我们问,“我们是否能够访问有关Y的数据,这足以理解正在发生的事情?”或者,“我们可以用什么方法来分析这些数据?”或者,“我们需要多精确才能做出决定?”这类问题仍然会导致数据和分析,但它们更有可能导致对数据集、方法的有效选择,以及通过结论讲述故事的能力,从而推动强有力的决策。