Sergey Nivens - Fotolia
为企业提供6大数据最佳实践
这些最佳实践可以帮助企业将大数据战略放在正确的轨道上,以满足分析需求,并产生预期的业务效益。
在过去的十年里,大数据管理和分析工具已经成为各种行业中各种规模的公司的变革技术。例如,零售商现在可以很好地了解他们的整个供应链。制造商可以监控和管理他们工厂中数以千计的部件和机器的性能。营销人员可以分析每一个客户接触点,从网站访问到电话和购买。
然而,我仍然听到很多关于如何最好地利用大数据架构。我将描述你应该牢记的六大大数据最佳实践——如果你愿意,当投资大数据技术的更广泛的话题在你的组织中出现时,你可以提出六个讨论主题。这些都不是技术性的。记住,大数据是一种商业资产,而不仅仅是一种技术资源。让我们从这里开始。
1.关注业务需求,而不是技术
技术,尤指在…领域大数据分析,正以快速的步伐前进。数据管理和分析团队现在可以处理大量的数据和复杂的分析,而仅仅几年前,除了最先进的公司和政府机构,其他所有公司都无法做到这一点。我们可能会被技术本身冲昏头脑,假设如果存在一种新功能,那么使用它就一定有好处。
例如,许多企业告诉供应商和顾问他们想做的事情实时分析他们的数据。但如果我们深入研究这意味着什么,我们经常会发现两个完全不技术性的问题。
首先,数据的生成和收集要比许多业务用户能够理解或使用的详细程度要精细得多。其次,即使大数据系统能够在数据收集或变化时提供可操作的分析,企业也无法以这样的速度做出相关决策。一个结果是,业务主管和员工总是发现他们的行动落后于数据分析,这意味着在某种程度上,您花费了不必要的成本。
数据流和业务决策节奏之间的这种不匹配也会让用户感到压力和信息过载,从而妨碍他们做好工作。在处理大数据环境中的实时分析请求时,有必要问一下“正确时间分析”是否更适合业务节奏。
2.收集大量数据是一件好事,而不是一个问题
许多数据科学家和分析师抱怨自己被数据压得喘不过气来,并将大数据视为问题的一部分。当然,即使是经验丰富的分析专家,你也不应该用比他们能够接受和理解的更多的数据来淹没他们。
然而,并不是所有的数据都需要人工分析。机器学习算法和人工智能工具可以利用数据科学团队自己无法处理的大数据量。
此外,即使你决定不做实时分析,收集和存储这些数据仍然是有价值的流数据以备将来使用。随着时间的推移,数据科学家可能会在大量的历史数据中找到模式,这些数据可以用来检测潜在的商业问题或机会。然后,他们可以提供帮助改进业务决策的警报和通知。
只有我们允许,大数据的量才会压倒我们。你的大数据策略应该专注于有效地为商业决策提供最合适的分析,同时存储、治理和管理数据用例和分析场景你可能还不知道。
3.使用数据可视化来支持数据发现和分析
在处理大规模信息时,我们的视觉能力在理解所有信息方面是无与伦比的。即使是那些没有编写聚类算法的编码技能或没有描述它如何工作的能力的人,也可以很容易地在由聚类算法生成的图表中挑选出一组相近的数据点。而那些无法通过编程在一组大数据中找到离群值的人,会直接发现一些不符合他们所看到的视觉模式的值。与适当的数据可视化我们都是天生的数据分析师。
当然,并不是所有的可视化都简单易懂。但在处理大数据时,业务用户如何理解大数据,以及如何在决策中使用大数据,将更有效地使用设计良好的数据可视化表示和分析结果。这尤其适用于预测分析的应用在这里,即使未来趋势和概率的大图与业务目标高度相关,对数据细节的解释也可能非常技术性。
考虑到这种发现模式,您的大数据策略应该包括适当的数据可视化工具,以及针对分析师和业务用户的相关培训。
4.迭代构造大数据以匹配特定的应用
就其本质而言,大数据必须进行大规模管理,但你也应该认识到它的多样性。例如,客户支持电话的音频记录可能存储在一个大数据环境中,可能与产品图像、相关的社交媒体内容、各种类型的文档和更传统的数据(如交易和操作记录)一起存储。
因此,这些数据的使用也非常多样化。您根本不能预先计算出所有可能的用例和业务需求。同样,您也不能在单个项目中开发所有这些分析场景。随着时间的推移,随着分析团队的发展、业务需求的变化和技术的进步,您将发现大数据集的新用途。
数据湖和大数据平台(如Hadoop和Spark)的一个巨大优势是可以防未来:在第一次处理和存储数据时,不需要对数据进行结构化。相反,数据是可以的保留其原始格式然后根据需要对每个新的分析应用程序进行过滤、转换和组织。
这种迭代的方法应该是你关于大数据的长期战略思考的一个重要组成部分。记住:这是一场马拉松,不是短跑。
5.考虑使用云部署大数据系统
随着数据管理过程的增加,以及需要存储大量数据以备将来使用,您可能会担心保存这么多数据的成本。云服务可以真正帮助你,而不是成为你大数据战略的昂贵障碍。
首先,云平台供应商将数据存储作为一种商品来定价,这通常比购买自己的本地存储设备便宜得多。此外,他们还为您管理数据的安全性、可用性、备份和恢复、复制和归档。云中的大数据平台可能不仅具有更大的处理能力,而且还具有更好的工具和更有经验的人员来支持它,这是您的组织自己无法负担的。
6.为遵从性和可用性管理数据
在今天的监管环境下,实力很强数据治理不再是可选的:它必须成为你的大数据战略的首要考虑因素。无论您需要处理一般数据安全和隐私法律(如欧盟的GDPR),还是美国医疗保健信息的垂直法规(如HIPAA),法规遵从性都是良好管理您的数据的关键动机。
这听起来是消极的吗?数据治理真的只是为了确保我们不违反法律吗?事实上,治理良好的数据也是大数据分析应用程序更好的资源。这在一定程度上可以归结为信心的问题。如果在监管框架内仔细管理数据,数据科学家和分析师就可以更自由地探索和试验新的、可能具有创新性的使用场景。此外,公司通常发现,管理良好的数据——经过精心编录、描述、保护和部署——也更容易使用。
将这些大数据最佳实践付诸行动
如您所见,在考虑和制定大数据战略时,有许多相关问题需要解决。IT、数据管理和分析领导者需要与业务决策者进行这些对话——因为正如我们一再看到的,光靠技术是不够的。正如我上面所说,大数据是一种商业资产。没有以业务为中心的分析,它可能是一种浪费。