文本挖掘(文本分析)
文本挖掘是挖掘和分析大量非结构化的文本数据通过软件辅助,可以识别数据中的概念,模式,主题,关键字和其他属性。它也被称为文本分析,尽管有些人之间的区别是两种术语;在该视图中,文本分析指的是使用文本挖掘技术进行排序的应用程序数据集。
随着技术的发展,文本挖掘对于数据科学家和其他用户来说变得更加实用大数据平台和深度学习可以的算法分析大规模集非结构化数据。
挖掘和分析文本有助于组织在公司文档、客户电子邮件、呼叫中心日志、逐字调查评论、社交网络帖子、医疗记录和其他基于文本的数据来源中发现潜在有价值的业务见解。文本挖掘能力也越来越多地被纳入人工智能聊天机器人和虚拟机构作为市场营销、销售和客户服务操作的一部分,公司将其部署为向客户提供自动响应。
文本挖掘的工作原理
文本挖掘在本质上与数据挖掘,但专注于文本而不是更具结构化的数据形式。然而,文本挖掘过程中的第一步之一是以某种方式组织和结构数据,因此可以进行定性和定量分析。
这样做通常涉及使用自然语言处理(NLP)技术,应用计算语言学解析和解释数据集的原则。
前期工作包括分类、聚类和标记文本;总结数据集;创建分类;并提取诸如单词频率和数据实体之间的关系等信息。然后运行分析模型来生成有助于推动业务战略和操作行动的结果。
在过去,NLP算法主要基于统计或基于规则的模型,这些模型提供了在数据集中寻找什么的方向。然而,在2010年代中期,深度学习模型以一种较少监督的方式出现,成为文本分析等的另一种方法先进的分析涉及大数据集的应用程序。深度学习使用神经网络使用迭代方法分析数据,比传统方法更灵活和直观机器学习支持。
因此,文本挖掘工具现在可以更好地揭示文本数据中潜在的相似性和关联,即使数据科学家在项目开始时并不清楚他们可能会发现什么。例如,不受监督的模型可以在没有分析师指导的情况下将文本文档或电子邮件中的数据组织成一组主题。
文本挖掘的应用
情感分析是一个广泛使用的文本挖掘应用程序,可以跟踪客户的情绪。也被称为意见挖掘情感分析从在线评论、社交网络、电子邮件、呼叫中心互动和其他数据来源中挖掘文本,以确定指向客户正面或负面情绪的共同线索。这些信息可以用于解决产品问题、改善客户服务和计划新的营销活动等。
其他常见的文本挖掘用途包括根据简历中的措辞筛选求职者、拦截垃圾邮件、对网站内容进行分类、标记可能存在欺诈的保险索赔、分析医疗症状描述以帮助诊断,以及作为电子发现过程的一部分检查公司文件。文本挖掘软件还提供类似于搜索引擎和企业搜索平台提供,但这通常只是较高级别的文本挖掘应用程序的元素,而不是本身的用途。
聊天机器人回答有关产品的问题,并处理基本的客户服务任务;他们通过自然语言理解(NLU)技术,它是NLP的一个子类,帮助机器人理解人类的语言和书面文本,以便它们能做出适当的反应。
自然语言生成(NLG)是另一种相关技术,它挖掘文档、图像和其他数据,然后自己创建文本。例如,NLG算法被用来为房地产清单和解释编写邻里关系的描述关键绩效指标追踪的商业智慧系统。
文本挖掘的好处
使用文本挖掘和分析来洞察客户的情绪可以帮助公司发现产品和业务问题,然后在它们成为影响销售的大问题之前解决它们。挖掘客户评论和交流中的文本还可以确定需要的新特性,以帮助加强产品提供。在每一种情况下,技术都提供了一个改善整体客户体验的机会,这将有望带来收入和利润的增加。
文本挖掘也可以帮助预测客户流失,使公司能够采取行动,以防止潜在的叛逃到商业对手,作为其营销和竞争的一部分客户关系管理项目。欺诈检测、风险管理、在线广告和web内容管理是其他可以受益于使用文本挖掘工具的功能。
在医疗保健领域,该技术可能能够根据患者所报告的症状,帮助诊断疾病和医疗状况。
文本挖掘的挑战和问题
文本挖掘具有挑战性,因为数据通常是模糊的、不一致的和矛盾的。由于差异导致的歧义使分析它的工作变得更加复杂语法还有语义学,俚语,讽刺,地方方言和特定于单个垂直行业的技术语言的使用。因此,在对文本数据集进行分类、标记和总结时,必须训练文本挖掘算法来解析此类歧义和不一致性。
此外,在许多文本挖掘应用中使用的深度学习模型需要大量的训练数据和处理能力,这使得它们的运行成本很高。数据集的固有偏差是另一个问题,如果数据科学家在模型开发过程中没有识别出偏差,深度学习工具可能产生有缺陷的结果。
还有很多文本挖掘软件可供选择。目前有数十种商业和开源技术可用,包括IBM、Oracle、SAS、SAP和Tibco等主要软件供应商提供的工具。