关联规则
关联规则是“if-then”语句,它有助于显示不同类型数据库中的大型数据集中数据项之间关系的概率。关联规则挖掘有许多应用,被广泛用于帮助发现销售关联事务数据或者在医疗数据中。
使用案例进行关联规则
在数据科学中,关联规则用于查找数据集之间的相关性和共同发生。它们理想地用于解释来自看似独立的信息存储库(例如关系数据库和事务数据库)中数据中的数据模式。使用关联规则的行为有时被称为“关联规则挖掘”或“挖掘协会”。
以下是关联规则的一些现实用例:
- 医学。医生可以使用关联规则来帮助诊断患者。在作出诊断时,有许多变量需要考虑,因为许多疾病都有相同的症状。通过使用关联规则和机器学习支持的数据分析,医生可以通过比较过去病例数据中的症状关系来确定给定疾病的条件概率。当做出新的诊断时,机器学习模型可以调整规则来反映更新的数据。
- 零售。零售商可以收集有关购买模式的数据,记录购买数据作为项目条形码被销售点系统扫描。机器学习模型可以寻找此数据的共同发生,以确定哪些产品最有可能一起购买。零售商可以调整营销和销售策略来利用此信息。
- 用户体验(UX)设计。开发人员可以收集消费者如何使用他们创建的网站的数据。然后,它们可以使用数据中的关联来优化网站用户界面 - 通过分析用户倾向于点击,例如,最大化它们与呼叫进行操作的可能性。
- 娱乐。像Netflix和Spotify这样的服务可以使用关联规则来为他们的内容推荐引擎加油。机器学习模型分析过去的用户行为数据,找出常见的模式,开发关联规则,并使用这些规则来推荐用户可能会参与的内容,或以一种可能将最有趣的内容放在给定用户首位的方式来组织内容。
关联规则的工作原理
关联规则挖掘在基本级别上涉及使用机器学习用于分析数据库中模式或共存的数据的模型。它识别频繁的“如果-那么”联想,而这些联想本身就是关联规则。
关联规则有两个部分:前件(if)和后件(then)。前件是在数据中找到的项。顺题是与先行词结合的项。
关联规则是通过搜索频繁的if-then模式和使用标准来创建的支持和信心找出最重要的关系。支持指示项目在数据中出现的频率。置信度表示发现if-then语句为真的次数。第三个度量,叫做电梯,可用于比较置信度与预期置信度,或者一个if-then语句预期为真的次数。
关联规则是从项集,由两个或两个以上的项目组成。如果规则是从分析所有可能的项目集建立起来的,那么可能会有太多的规则,以至于这些规则没有什么意义。因此,关联规则通常是由数据中良好表示的规则创建的。
关联规则有效性的度量
给定关联规则的强度由两个主要参数衡量:支持度和置信度。支持指的是给定规则在被挖掘的数据库中出现的频率。信心指的是一个给定的规则在实践中被证明是正确的次数。规则在数据集中可能显示出很强的相关性,因为它经常出现,但在应用时可能很少出现。这将是一个高支持、低信心的例子。
相反,规则可能在数据集中可能没有特别脱颖而出,但持续的分析表明它经常发生。这将是一个高信任和低支持的案例。使用这些措施有助于分析师与相关性分开的因果关系,并允许它们适当地重视给定规则。
第三个值参数,称为提升值,是置信度与支撑度的比值。如果提升值为负值,则数据点之间存在负相关关系。如果值为正,则有正相关,如果比值等于1,则没有相关。
关联规则算法
受欢迎的算法使用关联规则的方法包括AIS、SETM、Apriori和后者的变体。
AIS算法在扫描数据时生成并计算项目集。在事务数据中,AIS算法确定哪些大型项目集包含事务,并通过将事务数据中的其他项目扩展到大型项目集来创建新的候选项目集。
SETM算法在扫描数据库时也生成候选项集,但是该算法在扫描结束时对这些项集进行说明。新候选项集的生成方式与AIS算法相同,但生成事务的事务ID与候选项集一起按顺序保存数据结构。在传递的最后,通过聚合顺序结构来创建候选项集的支持计数。AIS和SETM算法的缺点是,每一个都可以生成和计数许多小的候选项集,根据Saed Sayad博士发表的材料,作者实时数据挖掘。
使用Apriori算法,仅使用前一遍的大项目集生成候选项目集。上一遍的大型项目集与它自身连接,以生成大小比它大1的所有项目集。然后删除包含较小子集的每个生成的项集。其余的项目集是候选项目集。Apriori算法认为一个频繁项集的任意子集也是一个频繁项集。根据Sayad的说法,通过这种方法,算法只搜索支持数大于最小支持数的项集,从而减少了候选项的数量。
关联规则在数据挖掘中的应用
在数据挖掘,关联规则对于分析和预测客户行为非常有用。他们发挥了重要的作用客户分析、菜篮子分析、产品聚类、目录设计及店铺布局。
程序员使用关联规则来构建能够进行机器学习的程序。机器学习是一种人工智能(人工智能)旨在构建能够在不明确编程的情况下变得更高效的能力。
数据挖掘中的关联规则示例
关联规则挖掘的一个经典例子是尿布和啤酒之间的关系。这个似乎是虚构的例子声称,去商店买尿布的男人也可能买啤酒。相关数据可能是这样的:
超市有200,000个客户交易。大约4,000个交易,或约占交易总数的2,000项交易包括购买尿布。大约5,500 oursersiage(2.75%)包括购买啤酒。其中大约3,500个交易,1.75%,包括购买尿布和啤酒。基于百分比,大量应该低得多。然而,约87.5%的尿布购买包括购买啤酒表明尿布和啤酒之间的联系。
历史
虽然关联规则背后的概念可以追溯到更早的时候,但关联规则挖掘是在20世纪90年代定义的,当时计算机科学家Rakesh Agrawal, Tomasz Imieliński和Arun Swami开发了一种基于算法的方法,使用销售点(POS)系统来发现商品之间的关系。将这种算法应用于超市,科学家们能够发现购买的不同商品之间的联系关联规则,并最终利用这些信息来预测不同产品一起购买的可能性。
对于零售商来说,关联规则挖掘提供了更好地了解客户购买行为的方法。由于其零售来源,关联规则采矿通常被称为市场购物篮分析。
自关联规则最初的用例出现以来,随着数据科学、人工智能和机器学习的进步——生成数据的设备越来越多——关联规则可以用于更广泛的用例。更多的数据正在生成,这意味着更多的关联规则应用。人工智能和机器学习允许对更大、更复杂的数据集进行分析,并挖掘关联规则。