michelangelus——Fotolia
战胜大数据系统中预测分析的挑战
大数据和预测分析似乎是同义的,但理解每个学科的约束是从结合它们的项目中提取业务价值的关键。
近年来,大数据分析几乎成了预测分析。因此,越来越多的人认为,任何用于预测分析的系统都必须涉及大数据,而且任何大数据系统都肯定支持预测建模。
但在现实中,这两件事并不是一回事。而同时访问海量数据和数据类型可以显著增强开发良好的预测模型,分析经理和他们的团队需要考虑是什么让数据变得大,以及管理数据的挑战如何影响预测分析大数据环境。
,让我们检查一下预测分析过程本身。预测分析的流行概念包括一些统计分析或模式匹配,这些数据或模式匹配集成到业务应用程序中,以自动驱动操作决策和行动。但实现预测模型需要许多步骤,包括以下步骤:
- 数据准备将数据清理、转换和重组成适合于预测分析或机器学习算法的格式。这涉及到分析数据、寻找异常、确定应用什么类型的数据质量标准以及进行什么修正、设计适合于分析的数据模型以及执行使数据集保持一致所需的转换。
- 预测模型开发。在这种开发中,创建一个训练数据集,并经过选定的算法,从而产生若干个待测试的分析模型。这一步需要一个for拆分正在分析的数据分成不同的子集,包括训练集和一个或多个测试集。
- 测试,其中各种模型针对测试数据集运行,并对其性能进行测量和评估,以确定哪个模型产生最佳结果。
- 集成和实现,其中最精确的模型被合并到生产业务流程中,并实际运行以产生分析结果和建议行动。
- 调整所选的预测模型,以确保其持续有效性和准确性能,并根据重复分析进行相应的更新。
大数据带来了独特的挑战
接下来,让我们来看看在著名的背景下大数据的3v并考虑了在大数据环境中有效实施预测分析必须解决的一些具体挑战。
数据量。除了与管理大量数据有关的显而易见的考虑之外——摄取、暂存和防止数据延迟——您必须简化流程以支持分析流程的不同阶段。例如,您需要能够提取可以使用不同的候选算法快速分析的训练数据集,而且要能够充分反映整个数据集。
数据不同。业务越来越多地面临各种各样的数据输入,从传统的结构化数据到数量越来越多的非结构化数据类型。而且,随着越来越多的非结构化数据流成为业务流程不可或缺的一部分——例如,持续监控Twitter流以识别客户情绪——它们正变得越来越重要必要的数据来源预测模型。这意味着您必须拥有一组用于扫描、解析和上下文化非结构化数据的健壮流程,以便将其转换为可以作为分析算法的基础的数据集。
数据的速度。处理大量不同数据的复杂性由于这些数据流传输速度的加快而变得更加复杂。您不仅必须能够处理越来越快的输入数据提要,而且通常无法预测这些数据提要的结构或格式何时可能发生变化,这迫使几乎不断地需要进行数据分析和准备。
聪明地使用你的分析策略
在大数据系统中设计你的预测分析策略来解决这些挑战,这样你就可以成功地管理或巧妙地处理过程中的关键点。
例如,考虑将一个庞大的数据集浓缩成一个合理的训练数据集的挑战。在某些情况下,最好的方法是使用过滤器来减少数据集的大小,在随机选择训练集之前,可能会消除不属于常见用例的记录。在其他情况下,目标可能是增加大数据系统的计算资源,使分析算法能够处理更大的训练集,并消除过滤任何记录的需要。
另一个例子是,解决数据速度的挑战可能意味着扩大系统的规模流数据摄取功能这样每个数据都可以在预测模型中完全运行,或者减少模型的复杂性,以便它们可以执行得更快。
每一个选择都涉及到设计、工程、复杂性和成本方面的取舍。一组更精确的预测模型可能需要更多的处理和存储资源,但是分析的好处可能超过增加的成本。另外,您的组织可能能够从大数据应用程序的预测分析中获得所需信息,这些信息来自不需要处理强化的较简单的模型。
预测分析必须与大数据处理以产生分析经理——和企业高管——正在寻找的结果。要做到这一点,就必须找到平衡绩效和管理需求大数据与预测分析提供的机会。