大数据分析
大数据分析通常是一个复杂的过程,它通过分析大数据来发现信息——比如隐藏的模式、相关性、市场趋势和客户偏好——从而帮助企业做出明智的商业决策。
从广义上说,数据分析技术和技术为组织提供了一种分析数据集和收集新信息的方法。商业智能(BI)查询回答有关业务操作和性能的基本问题。
大数据分析是一种高级分析,这涉及具有预测模型,统计算法,统计算法以及由分析系统提供的分析的元素的复杂应用。
为什么大数据分析很重要?
组织可以使用大数据分析系统和软件来制作可以改善与业务相关结果的数据驱动的决策。福利可能包括更有效的营销,新的收入机会,客户个性化和改善的运营效率。通过有效的策略,这些益处可以为竞争对手提供竞争优势。
大数据分析如何工作?
数据分析师,数据科学家预测建模师、统计学家和其他分析专业人员收集、处理、清理和分析日益增长的结构化交易数据,以及传统BI和分析程序没有使用的其他形式的数据。
以下是数据准备过程的四个步骤的概述:
- 数据专业人员收集来自各种不同来源的数据。通常,它是一个混合半结构化和非结构化数据。虽然每个组织将使用不同的数据流,但一些常见源包括:
- 互联网点击流数据;
- Web服务器日志;
- 云应用;
- 移动应用;
- 社交媒体内容;
- 来自客户电子邮件和调查反馈的文本;
- 手机记录;和
- 机器数据由传感器连接到物联网。
- 数据是加工过的。收集数据后并存储在一个数据之后数据仓库或数据湖,数据专业人员必须组织,配置和分区数据以用于分析查询。彻底的数据处理可以从分析查询中实现更高的性能。
- 数据是清洗质量。数据专业人员使用脚本工具或企业软件擦除数据。他们寻找任何错误或不一致,例如重复或格式错误,并组织和整理数据。
- 收集、处理和清理的数据为分析分析软件。这包括以下工具:
- 数据挖掘,通过数据集SIFT搜索模式和关系
- 预测性分析,建立模型来预测客户行为和其他未来发展
- 机器学习,利用算法来分析大型数据集
- 深度学习,这是机器学习的一个更高级的分支
- 文本挖掘和统计分析软件
- 人工智能(AI)
- 主流商业智能软件
- 数据可视化工具
关键的大数据分析技术和工具
许多不同类型的工具和技术用于支持大数据分析过程。用于启用大数据分析过程的通用技术和工具包括:
- Hadoop.那这是用于存储和处理大数据集的开源框架。Hadoop可以处理大量的结构化和非结构化数据。
- 预测分析硬件和软件,处理大量复杂数据,并使用机器学习和统计算法来预测未来的事件结果。组织使用预测分析工具进行欺诈检测,营销,风险评估和运营。
- 流分析用于过滤,聚合和分析可以存储在许多不同格式或平台的大数据的工具。
- 分布式存储通常在非关系数据库上复制的数据。这可以作为针对独立节点故障、丢失或损坏大数据或提供低延迟访问的措施。
- NoSQL.数据库,这是使用大组分布式数据时有用的非关系数据管理系统。它们不需要固定的模式,这使其成为原始和非结构化数据的理想选择。
- 一个数据湖是一个大型存储库,可在需要之前保存本机格式原始数据。数据湖泊使用平面架构。
- 一种数据仓库那这是一个存储库,存储由不同来源收集的大量数据。数据仓库通常使用预定义模式存储数据。
- 知识发现/大数据挖掘工具,使企业能够挖掘大量的结构化和非结构化大数据。
- 内存中的数据结构,它在系统内存资源中分发了大量数据。这有助于提供数据访问和处理的低延迟。
- 数据虚拟化,这使得数据访问能够无需技术限制。
- 数据集成软件,这使得大数据可以在不同的平台上流线化,包括Apache、Hadoop、MongoDB和Amazon EMR。
- 数据质量软件,清洁并丰富大数据集。
- 数据预处理软件,这为进一步分析准备了数据。格式化数据并清除非结构化数据。
- 火花,这是用于批处理和流数据处理的开源集群计算框架。
大数据分析应用程序通常包括来自内部系统和外部来源的数据,如由第三方信息服务提供商编制的天气数据或消费者人口统计数据。此外,流分析应用程序在大数据环境中越来越普遍,因为用户希望执行实时分析通过流处理引擎馈送到Hadoop系统的数据,例如火花,传递和风暴。
早期的大数据系统主要部署在房屋上,特别是在收集,组织和分析大量数据的大型组织中。但云平台供应商,如亚马逊Web服务(AWS)和Microsoft,使得更容易在云中设置和管理Hadoop集群。Hadoop供应商也是Cloudera-Hortonworks的同样的支持,它支持AWS和AWS上的大数据框架的分布微软Azure云。用户现在可以在云中启动集群,需要运行多久就运行多久,然后通过基于使用的定价将其离线,而不需要持续的软件许可。
大数据已经变得越来越有益供应链分析。大量供应链分析利用大数据和定量方法来增强供应链中的决策过程。具体而言,大量供应链分析扩展了数据集以增加超出企业资源规划中的传统内部数据的分析(ERP)和供应链管理(SCM)系统。此外,大型供应链分析在新的和现有数据源上实现了高效的统计方法。
大数据分析的用法和例子
以下是一些大数据分析如何用于帮助组织的示例:
- 客户获取和保留。消费者数据可以帮助公司的营销努力,这可以采取对提高客户满意度的趋势。例如,个性化引擎对于亚马逊,Netflix和Spotify可以提供改进的客户体验并创造客户忠诚度。
- 有针对性的广告。来自过去购买、互动模式和产品页面浏览历史等来源的个性化数据,可以帮助用户在个人层面和更大范围内产生引人注目的目标广告活动。
- 产品开发。大数据分析可以提供关于产品可行性、开发决策、进度度量的见解,并朝着适合企业客户的方向进行改进。
- 价格优化。零售商可以选择使用和模拟来自各种数据源的数据来最大化收入的定价模型。
- 供应链和渠道分析。预测分析模型可以帮助抢购抢购,B2B供应商网络,库存管理,路线优化以及潜在延误的通知。
- 风险管理。大数据分析可以从数据模式中识别有效风险管理策略的数据模式的新风险。
- 改进的决策。Insights业务用户从相关数据中提取相关数据可以帮助组织更快和更好的决策。
大数据分析的好处
使用大数据分析的好处包括:
- 快速分析来自不同来源的大量数据,以许多不同的格式和类型。
- 迅速做出更好的知情决策,以有效策略化,这可以有利和改善战略决策的供应链,运营和其他领域。
- 节省成本,这可能来自新的业务流程效率和优化。
- 更好地了解客户需求,行为和情绪,这可能导致更好的营销洞察力,并为产品开发提供信息。
- 改善,更好地了解风险管理从大样本数据中提取的策略。
大数据分析挑战
尽管使用大数据分析带来了广泛的好处,但它的使用也伴随着挑战:
- 数据的可访问性。随着数据量的增加,存储和处理变得更加复杂。大数据应妥善存储和维护,以确保经验不足的数据科学家和分析师可以使用。
- 数据质量维护。具有从各种来源和不同格式的高卷数据,数据质量管理大数据的维护需要大量的时间、精力和资源。
- 数据安全。大数据系统的复杂性提出了独特的安全挑战。在这种复杂的大数据生态系统中正确解决安全问题可能是一个复杂的事业。
- 选择正确的工具。从市场上提供的大量大数据分析工具和平台上选择可能会令人困惑,因此组织必须知道如何选择与用户需求和基础架构对齐的最佳工具。
- 潜在缺乏内部分析技能和招聘经验丰富的数据科学家和工程师的高成本,有些组织正在难以填补空白。
大数据分析的历史和增长
上世纪90年代中期,“大数据”一词首次被用来指不断增长的数据量。2001年,当时在咨询公司Meta Group Inc.担任分析师的道格•兰尼(Doug Laney)扩大了大数据的定义。这一扩大描述了日益增加的:
- 组织所存储和使用的数据量;
- 组织生成的各种数据;和
- 速度,即创建和更新数据的速度。
这三个因素被称为3V大数据。Gartner在2005年收购Meta Group并聘用Laney后,普及了这一概念。
其他大数据历史上的重大发展是Hadoop分布式处理框架的推出。Hadoop被推出为Apach.2006年的开源项目。这为构建在商用硬件之上的集群平台埋下了种子,该平台可以运行大数据应用程序。Hadoop框架作为软件工具被广泛用于管理大数据。
到2011年,大数据分析开始在组织和公众眼中举行坚定的持有,以及Hadoop和各种相关的大数据技术。
最初,随着Hadoop生态系统的形状并开始成熟,大数据应用主要由大型互联网和电子商务公司,如雅虎,谷歌和Facebook,以及分析和营销服务提供商。
最近,越来越多的用户将大数据分析视为一种关键技术驱动数字转换。用户包括零售商,金融服务公司,保险公司,医疗组织,制造商,能源公司等企业。