数据准备
数据准备是收集,组合,构建和组织数据的过程,以便在商业智能中使用它(双),分析和数据可视化应用程序。数据准备的组成部分包括数据预处理、分析、清理、验证和转换;它通常还涉及从不同的内部系统和外部来源收集数据。
数据准备工作是由信息技术(IT)、BI和数据管理团队完成的,因为他们将数据集加载到数据仓库,nosql数据库或数据湖存储库或开发新的分析应用程序时。此外,数据科学家,其他数据分析师和业务用户可以使用自助服务数据准备工具来收集和准备数据本身。
数据准备通常被非正式地称为数据准备。它也被称为数据争吵尽管有些从业者在较窄的意义上使用该术语,但是将数据作为整体数据准备过程的一部分称为清洁,结构化和转换数据,将其与数据预处理阶段区分开来。
准备资料的目的
数据准备的主要目的之一是确保准备用于数据处理和分析的原始数据是准确的和一致的,从而使结果BI和Analytics应用程序将是有效的。数据创建时通常会出现缺失值、不准确或其他错误。此外,单独的数据集通常具有需要协调的不同格式。校正数据错误,验证数据质量和加入数据集构成数据准备过程的大部分。
数据准备还涉及找到相关数据,包括在分析应用程序中,以确保他们提供分析师或商业用户正在寻求的信息。还可以丰富和优化数据,以使其更具信息性和有用 - 例如,通过混合内部和外部数据集,创建新数据字段,消除异常值,并寻址可能歪斜分析结果的不平衡数据集。
此外,BI和数据管理团队可以使用数据准备过程策划业务用户的数据集来分析。这样做有助于简化和指导自助服务BI业务分析师,高管和工人的应用。
数据准备过程中的步骤
准备数据的过程包括几个不同的步骤。不同的数据准备供应商和数据专业人员列出的步骤有所不同,但该过程通常涉及以下任务:
- 数据采集。相关数据是从操作系统、数据仓库和其他数据源收集的。在这个步骤中,BI团队的成员,其他数据专业人员和最终用户收集数据本身应确认数据是适合计划应用程序的目标。
- 数据发现和分析。下一步是研究收集的数据,以便更好地理解它包含什么,以及需要做什么来为它的预期用途做准备。数据概要分析有助于识别模式,不一致,异常,缺失数据和数据集中的其他属性以及问题所以可以解决问题。
- 数据清理。在此步骤中,校正所识别的数据错误以创建准备好处理和分析的完整和准确的数据集。例如,删除故障数据或固定数据,缺少缺失值,并且统一突出的条目。
- 数据结构化。此时,需要将数据结构化、建模和组织成统一的格式,以满足计划的分析使用的需求。
- 数据转换和富集。与结构化数据相关,通常必须转换为使其一致并将其转换为可用信息。数据丰富和优化进一步增强数据集,以产生所需的业务见解。
- 数据验证和发布。为了完成准备过程,自动化例程将针对数据运行以验证其一致性,完整性和准确性。然后将准备的数据存储在数据仓库或其他存储库中,并可供使用。
数据准备的好处
数据科学家经常抱怨,他们把大部分时间花在定位和清理数据上,而不是分析数据。建立一个有效的数据准备过程的一个大好处是,他们和其他终端用户可以花更少的时间寻找和结构化数据,而不是更多地关注数据挖掘和数据分析 - 提供业务价值的BI相关活动。例如,可以更快地进行数据准备,并且准备的数据可以自动馈送给用户进行重复分析。
管理良好的数据准备程序也有助于组织执行以下操作:
- 确保用于BI的数据,机器学习,预测分析和其他分析应用具有足够的质量水平,以产生可靠的结果;
- 避免重复准备可以在多种应用中使用的数据的努力;
- 以经济高效的方式准备分析数据;
- 识别和修复可能无法检测到的数据问题;
- 提出更明智的业务决策,因为高管可以访问更好的数据;和
- 从其BI和分析举措中获得更多的商业价值和更高的投资回报(ROI)。
有效的数据准备可以特别有益于具有数据湖泊的大数据环境,通常在围绕Hadoop.群集,常将储存大量结构化,半结构化和非结构化数据,通常以原始形式。在许多大数据应用中,数据准备基本上是一个自动任务:机器学习算法可以通过检查数据字段并自动填充空白值,修复错误或重命名字段以确保当数据集正在加入时保持一致性。
数据准备工具和市场
数据准备是一种耗时的任务,可以将熟练的BI,分析和数据管理从业者从更高的高价值工作中提取,特别是随着分析应用中使用的数据量继续增长。但是,各种软件供应商都引入了自助式数据准备工具自动化数据准备方法,使数据专业人员和业务用户以简化和交互式方式发现,访问,配置文件,清洁和转换数据。
数据收集和协调完成后,数据准备软件通过工作流运行文件,在此过程中对文件进行特定的操作。例如,此步骤可能涉及创建一个新字段,从已存在的字段中聚集计数,或应用一个统计公式,如线性或物流回归模型,到数据。经过工作流程后,将数据输出到最终文件中,该文件可以加载到要分析的数据仓库或其他数据存储中。
自助服务数据准备工具通常还具有图形用户界面(GUI),旨在简化数据准备过程中的各种步骤。
在2019年4月关于数据准备市场的报告中,咨询公司Gartner表示,可用的工具已经从基本的自助服务能力发展,以支持企业规模的BI和Analytics数据集的创建。但是,它警告说,市场“拥挤而且复杂”,其中选择从数据准备专家到将数据预备软件融入BI,数据科学或者的供应商数据集成平台。Gartner建议组织评估他们对其扩展和功能等功能的能力的工具,例如连接,机器学习自动化和数据编目。
专注于自助式数据准备的供应商包括Paxata和Trifacta。Alteryx,SAS,Tableau,TIBCO软件和其他BI和分析供应商也支持数据准备,以及各种数据集成和管理供应商,如Altair,Boomi,DataMeer,IBM,Infogix,Informatica,SAP,Talend和Tamr。