R编程语言
R的最初版本发布于1995年,它允许学术统计学家和其他具有复杂编程技能的人执行复杂的数据统计分析并将结果显示在众多可视图形中的任何一个。“R”这个名字来源于它的两位开发者罗斯·伊哈卡(Ross Ihaka)和罗伯特·基特(Robert Gentleman)名字的首字母,他们当时与奥克兰大学(University of Auckland)有联系。
R编程语言包括职能支持线性建模,非线性建模,古典统计,分类,群集等。由于其强大的功能,它在学术环境中受欢迎,事实是在源代码形式下免费下载的事实自由软件基础的GNU.通用公共许可证。它在上面编译和运行UNIX平台和其他系统,包括Linux,窗户和MacOS。
R语言的吸引力逐渐向学术界展开到商业环境中,尽可能多数据分析师谁在大学训练的训练训练,更喜欢继续使用它而不是拿起他们缺乏经验的新工具。
R软件环境
R语言编程环境围绕标准构建命令行界面。用户利用它来阅读数据并将其加载到Workspace,指定命令并接收结果。命令可以是简单数学运算符的任何内容,包括+, - ,*和/,对执行线性回归和其他高级计算的更复杂的函数。
用户也可以编写自己的函数。该环境允许用户组合单个操作,例如将单独的数据文件合并到单个文档中,提取单个变量并运行回归对得到的数据集,转换成一个可以反复使用的函数。
循环功能也在R编程环境中受欢迎。这些函数允许用户重复执行一些操作,例如从更大的数据集中拔出样本,因为用户想要指定。
R语言的优缺点
r编程语言的许多用户,如它可以自由下载,提供复杂的数据分析功能,并在线有一个有效的用户社区,在那里他们可以转向支持。
因为它已经存在了很多年,并且在其存在过程中一直很受欢迎,所以这种语言是相当成熟的。用户可以下载增强该语言基本功能的附加包。这些包使用户能够可视化数据,连接到外部数据库,地图数据地图数据,并执行高级统计功能。还有一个受欢迎的人用户界面叫做RStudio,它简化了R语言的编码。
R编程简介第1部分。
在应用于大数据集时,R语言被批评为提供缓慢的分析。这是因为语言利用单线程处理,这意味着基本的开源版本只能利用一个CPU一次。通过比较,现代大数据分析支持并行数据处理,同时利用服务器集群中的数十个cpu快速处理大量数据。
除了其单线程处理限制之外,R编程环境还是内存中的应用程序。所有数据对象都存储在机器中内存在给定的会话中。这可能会限制R一次能够处理的数据量。
R与大数据
这些限制已经减轻了R语言的适用性大数据的应用程序。许多企业用户利用R作为探索性和调查工具,而不是将r努力工作。数据科学家将使用R在样本数据上运行复杂分析,然后在识别数据中的有意义的相关性或群集之后,通过企业级工具将查找放入产品。
几家软件供应商已为其产品添加支持,允许R在现代大数据领域中获得更强的基础。包括IBM,Microsoft,Oracle,SAS研究所,Tibco和Tableau等供应商包括分析软件和R语言之间的一定程度的集成。还有流行开源大数据平台的R包,包括Hadoop.和火花。