R语言初步
1
第一节 基本知识
一、界面介绍
R语言是一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R语言最早由新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发,所以命名为R语言。
R语言是免费下载的,可以在网站Http:\\\\cran.r-project.org/中找到适合自己的镜像网站,下载R语言安装包和其他文件。
R的界面大致如下图所示,包括菜单、快捷键、命令窗口和图形输出窗口。
R主要通过在命令窗口中输入命令来进行操作,菜单能够提供的功能很少,因此学习R需要记住一些常用的命令,更多的命令则需要常备一份命令手册,以便查询。
R的命令窗口中有一个红色的“>”符号,操作命令即写在这个符号的后面,完成一条命令后,用回车结束。
用getwd()可以知道R的工作路径,也就是操作过程中的数据、文件等所存储的目录。一般默认的目录为用户的Document目录。为了避免大量的文件混淆,可以专门为R的操作设定一个工作目录。
假定在C盘上建立一个名叫“R”的目录,用以下命令进行设定:setwd(\,如图:
在这里注意一下,当引用一个路径时,R中需要用到双斜线来表示路径引用,如上文中的c:\\\\R,这是R的一个特殊情况。
再比如以下操作:
1
参考薛毅,陈立萍(2014):R语言实用教程,清华大学出版社
1
>x1<-c(10,12,14,16,18) >y1<-c(2.5,2.6,3.1,4.6,3.8) >plot(x1,y1)
注意几点:
(1)式子中的“<-”表示赋值,也就是把右边的数值赋予左边的变量名。
(2)R语言中对于字母的大小写非常敏感,变量名可以用大写也可以用小写,但用大写字母命名的变量如果改用小写来调用,会无法识别。
(3)如果觉得命令窗口上的内容太多,可以用Ctrl-L来清屏幕。
(4)如果要重新调用此前用过的命令,可以用上箭头回溯此前的命令,也可以用history()来查看历史记录。
(5)命令窗口中的命令行如果太长需要分行,回车后前面会出现一个红色的+号,可以在这后面继续写命令。但如果是在脚本程序中分行,则不需要写这个+号。
二、R的工作空间
启动R之后,即开启了一个特定的工作空间。在这个工作空间中创建的变量会保存下来,在后续的操作中可以反复使用。因此,在使用R时,需要知道自己在工作空间中创建了哪些变量,这些变量分别代表了哪些含义。
比如在上一小节的例子中,我们建立了两个向量x1和y1,那么这两个向量会一直存在于工作空间中。在命令行中直接输入向量名,可以显示出其内容。
> x1
[1] 10 12 14 16 18
如果想知道工作空间中有哪些变量存在,可以用ls()函数。如下图2
这里显示出这么多变量的原因是此前做过一个演示操作,遗留下许多过程变量。如果想知道某个变量的内容,可以直接输入这个变量的名称,再回车。
2
2
用rm(x1)可以删除变量x1。用下列命令可以删除所有的变量:
> rm(list=ls(all=TRUE))3
退出R使用q()命令,这时系统会询问是否保存工作空间,可以在对话框中选择“是”或者“否”。也可以在q()命令中进行设定,如:
>q(save=\
如果保存了工作空间,则在指定的工作目录下会出现一个工作空间文件。下一次启动R的时候,可以直接双击这个工作空间文件,这样在启动R的同时,也会载入相应的工作空间,继续此前的工作。
用load(\也可以实现同样的功能。
三、加载程序包
R软件安装后,仅包括了基本程序包,能够实现一些常规的统计分析。如果要做一些特殊的分析,则需要加载新的程序包。
比如说,线性判别分析需要用到的lda()函数来自于程序包MASS,用下列方式加载:
>library(\
有些程序包来自于其他的软件库,需要选择软件库,然后再选择“安装程序包”,这个可以通过界面上的“程序包”菜单里的选项来完成。在此前,需要先设定CRAN镜像,可以在连网的前提下选择一个中国的镜像站点。
在联网的条件下,通过help(\命令可以帮助信息,如果不清楚某个命令的参数该如何设定等等,可以边看帮助文件边操作。
第二节 数据管理
一、变量
1. 变量类型
R中的变量包括:
数值型(numeric),其中又包括整型、单精度型、双精度型三类; 逻辑型(logical),取值只能是TRUE或者FLASE,也可以简写为T或者F; 字符型(character),是夹在单引号或者双引号中间的字符串; 复数型(complex),用a+bi的形式来显示; > sqrt(-1+0i) [1] 0+1i
原始型(raw),是指用二进制方式保存的数据。
2. 变量形式
(1)单一变量:就是存在单一值的变量。
3
请自己分析一下这条命令的结构,借以了解R语言的特色
3