肯烯醇 - Fotolia.
预测分析技术和流程如何工作
预测分析不再限于高技能的数据科学家。但其他用户需要在开始建造模型之前了解它涉及的内容。
准确预测客户行为、市场趋势和其他商业事件的能力一直被认为是……
继续阅读本文
享受本文以及所有内容,包括电子指南,新闻,提示等。
数据分析师的圣杯。但是,人们努力掌握那种隐喻格拉勒的社区已经显着增加。
二十年前,预测分析仅限于“算法”和其他熟练的分析师,他们对作为分析应用的基础的统计方法密切熟悉。今天,预测分析技术和工具已经成熟到其中预测模型可以轻松开发和部署在业务流程中 - 不仅由实际数据科学家。
增强的功能和更容易的访问使分析应用程序向所谓的“公民数据科学家”开放——业务分析师和拥有足够知识自己构建模型的用户。但要想成功,他们至少需要对过程和技术用于预测分析应用程序。
什么是预测分析
从根本上说,这预测分析的目标是分析历史或当前数据,以开发可用于预测未来行为,行为和结果的模型。统计技术通过使用高级算法应用于数据集来称量不同的变量,并评分特定事物将发生的可能性 - 例如,现有客户是否可能继续从公司购买产品。
围绕Hadoop和相关技术构建的大数据系统通常被用于燃料数据挖掘并预测分析努力。机器学习算法可以帮助自动化数据分析工作;在更大的规模上,深度学习工具使得使用神经网络可以在大规模体积的结构化或非结构化数据上进行预测分析。由此产生的预测模型可以是与操作应用程序集成为了影响业务决策,如果有效地完成,可以推动更高的收入和利润。
预测分析计划有两个支柱支持:一个定义良好的流程,它对数据分析师开发、测试和部署预测模型的方式进行标准化,以及一套用于分析工作的预测分析技术和工具。
在分析过程中发现优点
这预测分析过程应该体现什么可以被视为良性循环。确定业务问题,开发问题的候选解决方案并进行比较,以找到工作最好的解决方案,这些方案部署在操作环境中。然后度量业务改进,流程再次开始寻找下一个机会。
这一过程的实际例子还包括其他一些关键步骤。在确定了可能受到创建预测模型的积极影响的业务问题之后,分析人员必须确定要使用的数据。为此,它们需要考虑哪些数据集可能为计划的模型的发展提供信息,并评估所需数据的可用性和可获得性。
一旦收集要分析的数据,下一步就是为分析做准备。为此,分析师对数据进行标准化和清理,这是一项任务,包括输入缺失的值,消除预期不会对结果产生有益影响的异常值,以及组织数据以支持和简化分析阶段。
使用预测分析工具,a示例数据集然后通过一个或多个统计算法来创建用于测试的试验模型。在对样本数据进行“训练”后,将模型应用于完整的数据集,并评估哪些模型最适合数据,以及每种模型产生所需分析结果的程度。
最终任务是嵌入所选择的模型或模型 - 在业务应用程序和流程中,以支持决策和战略规划。然后是时候返回第一步并再次启动过程以获得新的分析工作。
算法燃料分析技术
统计分析和模型开发过程可能包括无数类型的算法采用各种分析方法。这些算法旨在在数据中隔离不同变量之间的依赖性,并确定在可以从依赖关系导出的预测中存在高度令人信心的概率。
然而,尽管有许多不同的算法可供使用,但通常应用的基本预测分析技术较少,包括以下内容:
- 描述。这种技术总结了过去发生的事情,并试图分析和描述它,以预测未来类似的事件。描述过去的行为,然后将预测模型应用到结果数据中,有助于构建改进操作的机会,并识别新的业务机会。
- 相关性。用户可以做的相关分析确定不同数据变量之间的关系和依赖关系,以预测它们将如何相互影响。相关性可以是正的,也可以是负的。确定一组变量之间没有相关性也有助于确定目标预测分析项目有意义的数据。
- 分割。这种技术是一种分析大型实体数据集合(如客户数据库)并将其组织成更小的组的方法。收集到同一子组中的所有实体都被确定在指定的特征上彼此相似,这有助于预测未来的行为或事件。
- 分类。将数据集中的不同实体划分到相关组的另一种方法是根据相关特征或行为将它们映射到预定义的类别中。生成的分类模型既可以用于对新记录进行分类,也可以用于对指定子组的数据进行预测建模。
- 回归。这种技术专门用于识别数据变量之间有意义的关系看着连接因变量和其他可能影响或不影响它的因素之间的关系。这些信息使分析师能够根据相关因素发生的情况,预测与因变量相关的未来发展。
- 协会。另一种突出显示数据元素之间关系的技术预测的目的是寻找展示亲和力的那些 - 例如,经常购买的产品。
当配备全面的算法和工具,各类数据分析师可以结合这些预测分析技术来开发各种各样的模型,然后测试,验证、比较和部署它们生成可操作的信息,帮助优化关键业务操作和指向新的商业策略。