Lassedesignen - Fotolia.
建立更好的预测分析应用程序的五个步骤
必须有效地计划和管理预测分析举措,以确保他们不会错过满足业务需求的标志。这是一种帮助将它们放在轨道上的方法。
作为现代分析工具赋予越来越多样化的数据分析师社区来实施预测模型,公民数据科学正在崛起。然而,预测分析的民主化的副产品是对哪些用于什么算法的困惑,以及特定类型的预测模型是否会比其他算法更好。
而可用的工具提供丰富的调色板分析方法当没有经验的用户考虑从哪里开始使用预测分析应用程序时,过多的选择可能会让他们陷入一种近乎紧张的状态。因此,设计一套流程和最佳实践这可以指导分析师将正确的方法、算法和模型与所面临的业务挑战相匹配。
以下是一些高层次的指导方针:
- 指定商业机会和目标,描述所需的分析结果,并为成功设定可衡量的目标。这也将有助于定义可以在以后使用的性能指标来评估不同的分析方法的工作方式。
- 确定可用于执行所需分析工作的方法。在某些情况下,考虑和最终使用多种方法可能有意义。
- 审查并选择算法的类型它可以用于实现所选的分析方法。
- 设计和建立预测模型基于选择的算法。确保可以将它们与之前定义的性能指标进行比较。
- 应用不同的型号,评估其性能,然后选择最能导致预期结果的型号。
通过分析更好的业务
这种预测分析应用程序的方法可以通过一个例子来说明。让我们考虑一个电子商务公司,它想通过增加对现有客户的销售来提高利润。目标可能是增加单个客户购买的物品数量和他们在购买交易中的平均花费。
实现这些目标的典型策略包括使用推荐引擎试图影响客户在购物时向他们的在线购物车添加物品。在线零售商可以将在线零售商融入其推荐引擎中有多种不同的分析方法,以将类似的客户分配给群组,因此发动机可以建议他们可能倾向于购买的产品。
例如,分类将客户的特征和行为映射到预定义类别。有各种分类算法,包括用于最近邻居,决策树,规则和贝叶斯分类的分类算法;许多分析工具让用户构建不同的分类模型,同时可以在开发预测分析应用程序的同时进行输出。
另外,集群使用机器学习算法根据一组参数(如年龄、收入等级和教育背景)计算相似度得分,将客户划分为不同的组。对于客户数据库,k-means聚类是常用的方法;它的工作原理是划分,算法首先为许多组选择虚拟中心点,然后将客户分配给中心点最近的组。
然后,该算法检查分配到不同组的客户是否足够相似,以便将其分组。一旦根据需要重新分配人员,小组的虚拟中心点将重新计算;这个过程会不断重复,直到不再需要进行任何更改为止,然后推荐引擎就可以投入使用了。
数据关联亲和性
关联规则挖掘是另一种分析方法,用于寻找不同数据属性之间的关系。做预测客户分析,它产生了支持市场篮子分析的规则,该分析旨在查找经常在网上购物车中共存的产品,以识别可以触发到购物者建议的购买模式。
让我们说一个协会规则表示客户在电子商务公司网站上购买美食咖啡和巧克力的70%的时间,他们还购买设计师纸甜点板。这提供了潜在的匹配,即如果客户将其中两个项目添加到购物车,则推荐引擎可以采取行动。
为了测试这些不同方法的有效性,该公司基于它们构建预测模型,并将模型集成到其运行运行的运行环境中。希望每个人都会促进额外的产品购买,可以在短时间内测量。产生收入最大增加的模型可以保留对于一般部署作为推荐引擎的一部分,以及继续开发和细化——或者多个模型。
使用此处概述的方法,组织中的数据分析师将提高对不同类型的机器学习算法的认识,并且还可以了解哪些是最适合特定的预测分析应用程序的工作。理想情况下,最终结果将增加灵活性评估分析需求并将正确的方法与新兴的业务需求和机会相匹配。