I'm a DMer & MLer & NLPer & IRer
博文有原创,有转载。均为分享学习之用。P.S. 部分转载可能未注明出处。若有冒昧,请与我联系:(ILoveDataMining AT gmail DOT com) R语言基础入门
R语言基础入门之一:引言
1 什么是R语言
R语言是一个开源的数据分析环境,起初是由数位统计学家建立起来,以更好的进行统计计算和绘图,这篇wiki中包含了一些基本情况的介绍。由于R可以通过安装扩展包(Packages)而得到增强,所以其功能已经远远不限于统计分析,如果感兴趣的话可以到官方网站了解关于其功能的更多信息。
至于R语言名称的由来则是根据两位主要作者的首字母(Robert Gentleman and Ross Ihaka),但过于简短的关键词也造成在搜索引擎中很不容易找到相关的资料。不过这个专门的搜索网站可以帮到你。
2 为什么要学习R语言 可能你想说,“我已经学会了spss/sas/stata...,为什么还要去学习R呢?”如下几方面可能会吸引到你:
R是免费开源软件:现在很多学术期刊都对分析软件有版权要求,而免费的分析工具可以使你在这方面不会有什么担心。另一方面,如果学术界出现一种新的数据分析方法,那么要过很长一段时间才会出现在商业软件中。但开源软件的好处就在于,很快就会有人将这种方法编写成扩展包,或者你自己就可以做这件工作。
命令行工作方式:许多人喜欢类似SPSS菜单式的操作,这对于初学者来说很方便入门,但对于数据分析来说,命令行操作会更加的灵活,更容易进行编程和自动化处理。而且命令行操作会更容易耍酷,不是嘛,一般人看到你在狂敲一推代码后得到一个分析结果,对你投来的目光是会不一样的。
小巧而精悍:R语言的安装包更小,大约不到40M,相比其它几个大家伙它算是非常小巧精悍了。目前R语言非常受到专业人士欢迎,根据对数据挖掘大赛胜出者的调查可以发现,他们用的工具基本上都是R语言。此外,从最近几次R语言大会上可以了解到,咨询业、金融业、医药业都在大量的使用R语言,包括google/facebook的大公司都在用它。因此,学习R语言对你的职业发展一定是有帮助的。
3 R语言的下载和GUI界面
R语言安装包可以在官方网站下载,windows版可直接点击这个连接 在ubuntu下面安装R则更容易,在终端里头运行如下命令即可 sudo apt-get update
sudo apt-get install r-base
此外,学习R语言时强烈推荐安装Rstudio做为R的图形界面,关于Rstudio之前的博文有过简单介绍,点这里可能转到它的官方网站。
4 R语言的学习方法
学习R并不是一件非常轻松的事情,初学者需要记住的就是:
亲手键入代码并理解其意义
在笔记里记下一些重点或心得(个人推荐Evernote) 坚持练习,对手边的数据进行应用分析 理解背景知识,细节很重要。
5 哪里可以得到参考资料
1.官方网站 http://cran.csdb.cn/index.html (官方文献集中地) 2.统计之都论坛
3.人大经济论坛-R子论坛 (免费资料也不少)
4.http://library.nu/ 这是网上电子书最多的地方,其中有一个R语言专门书柜(也就是一个shelves)
5.关于R语言的教材小结
6.笔者在verycd上发的一个书单
7.一个国外著名的R语言群博 http://www.r-bloggers.com/ 8.展示R语言的各类绘图 http://addictedtor.free.fr/graphiques/
本人博客里也有一些关于R语言的资料:xccds1977.blogspot.com (需FQ) 如果有一些简单的入门问题,也可以在推特上follow me twitter: @xccds
6 本系列博文的目的
本系列入门的目的是为初学者提供最简洁清晰的资料,以迅速入门。所针对的读者人群是那些正在大学里学习初级统计学的同学。本系列计划包括内容有:基本命令,数据操作;描述统计和绘图;重要的R语言函数计算;统计推断和估计;非参数统计方法;方差分析;线性回归和一般线性模型。
R语言基础入门之二:数据导入和描述统计
1 数据导入
对初学者来讲,面对一片空白的命令行窗口,第一道真正的难关也许就是数据的导入。数据导入有很多途径,例如从网页抓取、公共数据源获得、文本文件导入。为了快速入门,建议初学者采取R语言协同Excel电子表格的方法。也就是先用较为熟悉的Excel读取和整理你要处理的数据,然后“粘贴”到R中。
例如我们先从这个地址下载iris.csv演示数据,在Excel中打开,框选所有的样本然后“复制”。在R语言中输入如下命令: data=read.table('clipboard',T)
这的里read.table是R读取外部数据的常用命令,T表示第一行是表头信息,整个数据存在名为data的变量中。另一种更方便的导入方法是利用Rstudio的功能,在workspace菜单选择“import dataset”也是一样的。
2 Dataframe操作
在数据导入R语言后,会以数据框(dataframe)的形式储存。dataframe是一种R的数据格式,可以将它想象成类似统计表格,每一行都代表一个样本点,而每一列则代表了样本的不同属性或特征。初学者需要掌握的基本操作方法就是dataframe的编辑、抽取和运算。
尽管建议初学者在Excel中就把数据处理好,但有时候还是需要在R中对数据进行编辑,下面的命令可以让你有机会修改数据并存入到新的变量newdata中: newdata=edit(data)
另一种情况就是我们可能只关注数据的一部分,例如从原数据中抽取第20到30号样本的Sepal.Width变量数据,因为Sepal.Width变量是第2个变量,所以此时键入下面的命令即可: newdata=data[20:30,2]
如果需要抽取所有数据的Sepal.Width变量,那么下面两个命令是等价的: newdata=data[,2]
newdata=data$Sepal.Width
第三种情况是需要对数据进行一些运算,例如需要将所有样本的Sepal.Width变量都放大10倍,我们先将原数据进行一个复制,再用$符号来提取运算对象即可: newdata=data
newdata$Sepal.Width=newdata$Sepal.Width*10 3 描述统计
描述统计是一种从大量数据中压缩提取信息的工具,最常用的就是summary命令,运行summary(data)得到结果如下:对于数值变量计算了五个分位点和均值,对于分类变量则计算了频数。
也可以单独计算Sepal.Width变量的平均值和标准差 mean(data$Sepal.Width) sd(data$Sepal.Width)
计算分类数据Species变量的频数表和条形图 table(data$Species)
barplot(table(data$Species))
对于一元数值数据,绘制直方图和箱线图观察其分布是常用的方法: hist(data$Sepal.Width) boxplot(data$Sepal.Width)
对于二元数值数据,则可以通过散点图来观察规律 plot(data$Sepal.Width,Sepal.Length)
如果需要保存绘图结果,建议使用Rstudio中的plot菜单命令,选择save plot as image
R语言基础入门之三:常用统计函数运算
在R语言中经常会用到函数,例如上节中讲到的求样本统计量就需要均值函数(mean)和标准差函数(sd)。对于二元数值数据还用到协方差(cov),对于二元分类数据则可以用交叉联列表函数(table)。下文讲述在初级统计学中最常用到的三类函数。
一、数据汇总函数