好文档 - 专业文书写作范文服务资料分享网站

数据挖掘r语言总结报告

天下 分享 时间: 加入收藏 我要投稿 点赞

成绩: 总 结 报 告

课程名称: 数据挖掘R语言 任课教师: 姓 名:

专 业: 计算机科学与技术 班 级: 学 号:

计算机科学与技术学院

2018 年 6 月 19 日

一、数据预处理

针对不同分析目标,选择合适的字段,并将字段值处理成适于分析的形式。必要时还需对原数据集进行统计变换后形成易于分析的形式。

注:文档可能无法思考全面,请浏览后下载,供参考。

为每条数据添加字段:所属地区。根据下图中划分的美国四大地区,将每条数据中表示的案件发生地在该字段上划分为东北部、中西部、南部和西部四个值。 首先导入数据:

gundata<-read.csv(\= \FALSE,header = TRUE,quote=””)

然后将需要的字段取出来,在这里取出了一下几个字段: 标号 1 2 3 4 6 7 15 17 字段名 incident_id date state city_or_county n_killed n_injured latitude longitude 含义 犯罪记录id 犯罪日期 犯罪案件所在的州 犯罪案件所在的市 死亡人数 受伤人数 犯案位置的纬度 犯案位置的经度 数据类型 numeric dateTime string string numeric numeric numeric numeric =

gundata[,c(\n_injured\se_district\ gd <-

subset(gundata,select=c(incident_id,date,state,city_or_county,n_killed,

n_injured,congressional_district,latitude,longitude,state_house_district,state_senate_district))

然后根据州字段将所有数据划分为四个地区 阿拉巴马州 Alabama 阿拉斯加州 Alaska 亚利桑那州 Arizona 阿肯色州 Arkansas

加利福尼亚州 California 科罗拉多州 Colorado 哥伦比亚特区Columbia 康涅狄格州 Connecticut 特拉华州 Delaware 佛罗里达州 Florida 佐治亚州 Georgia 夏威夷州 Hawaii 爱达荷州 Idaho 伊利诺州 Illinois 印弟安纳州 Indiana 爱荷华州 Iowa 堪萨斯州 Kansas 肯塔基州 Kentucky

路易斯安那州 Louisiana 缅因州 Maine

注:文档可能无法思考全面,请浏览后下载,供参考。

马里兰州 Maryland

麻塞诸塞州 Massachusetts 密歇根州 Michigan 明尼苏达州 Minnesota 密西西比州 Mississippi 密苏里州 Missour 蒙大拿州 Montana

内布拉斯加州 Nebraska 内华达州 Nevada

新罕布希尔州 New Hampshire 新泽西州 New Jersey 新墨西哥州 New Mexico 纽约州 New York

北卡罗来纳州 North Carolina 北达科他州 North Dakota 俄亥俄州 Ohio

奥克拉荷马州 Oklahoma 俄勒冈州 Oregon

宾西法尼亚州 Pennsyivania 罗德岛州 Rhode Island

南卡罗来纳州 South Carolina 南达科他州 South Dakota 田纳西州 Tennessee 德克萨斯州 Texas 犹他州 Utah

佛蒙特州 Vermont 弗吉尼亚州 Virgina 华盛顿州 Washington

西佛吉尼亚州 West Virginia 威斯康辛州 Wisconsin 怀俄明州 Wyoming

东北部

Maine,New Hampshire,Vermont,Massachusetts,Rhode Island,Connecticut,New York,Pennsyivania,New Jersey 中西部

Wisconsin,Michigan,Illinois,Ohio,Indiana,Missour,North Dakota,South Dakota,Nebraska,Kansas,Minnesota,Iowa 南部

Delaware,Maryland,District of Columbia,Virgina,West Virginia,North Carolina,South

Carolina,Georgia,Florida,Kentucky,Tennessee,Mississippi,Alabama,Oklahoma,Texas,Arkansas,Louisiana 西部

注:文档可能无法思考全面,请浏览后下载,供参考。

Iowa,Montana,Wyoming,Nevada,Utah,Colorado,New

Mexico,Arizona,Alaska,Washington,Oregon,California,Hawaii

for (i in 1:length(gd[,1])){ if (gd[i,3]==\Hampshire\e Island\York\ {

gd[i,9]=\东北部\ }

else if

(gd[i,3]==\==\Dakota\

Dakota\[i,3]==\ {

gd[i,9]=\中西部\ }

else if

(gd[i,3]==\of Columbia\Virginia\Carolina\Carolina\d[i,3]==\==\\

{gd[i,9]=\南部\ else

if(gd[i,3]==\vada\

Mexico\[i,3]==\ {gd[i,9]=\西部\

然后用fix(gd)将第九列的字段修改为part:

注:文档可能无法思考全面,请浏览后下载,供参考。

最后处理完的数据为以下格式:

最后将数据存储下来,备用:write.csv(gd,\FALSE) .

保存的数据格式如下:

注:文档可能无法思考全面,请浏览后下载,供参考。

数据挖掘r语言总结报告

成绩:总结报告课程名称:数据挖掘R语言任课教师:姓名:专业:
推荐度:
点击下载文档文档为doc格式
993g89yul22cg5h8ins237lyd0yjij015un
领取福利

微信扫码领取福利

微信扫码分享