《统计与数据分析》数据分析实验作业(I)
数据来源于大肠杆菌Escherichia coli K-12 MG1655注释的4289个编码蛋白基因的长度l(单位:核苷酸,NT)及其GC含量r(%)。其中,第1列为基因序号,第2列为基因的长度l(单位:核苷酸,NT),第3列为基因的GC含量r(%)。试针对这一组数据完成下列数据分析工作:
一. 将全部4289个基因视为总体Y,请完成如下工作:
1. 严格按照要求(注意:软件自动生成的结果视为无效作业),分别画出基因长度l和基因GC含量r的频数直方图,以及由此相应的频率直方图和频率箱线图,并对这两类数据的异常值进行分析;
2. 分别求出基因长度l和基因GC含量r的均值、标准差、极差、中位数、众数、变异系数,并在k≤10范围内依次检验Chebyshev定理(请报告整数k=2~10的每一取值的检验结果);
3. 基于总体Y,考察l与GC含量r比值l/r,请设计抽样对l/r进行比值估计与单随机变量估计的抽样效率的比较分析,并以合适的图示表示比较结果;
要求:
(1)本次数据分析以实验报告形式打印、装订提交,请在第一页注明学号、姓名;
(2)对于每一问题,都必须首先详尽地写出分析过程,然后以合适的图表形式并以文字清楚地报告结果。不得以程序源代码或伪代码代替分析过程的报告,否则以零分计;任何报告不清楚者,直接以零分计; (3)请保证独立完成本作业,鼓励自行编程完成上述数据分析,也可使用相关软件(不限); (4)本作业占课程总成绩6%。
《统计与数据分析》数据分析实验作业(I)
《统计与数据分析》数据分析实验作业(I)数据来源于大肠杆菌EscherichiacoliK-12MG1655注释的4289个编码蛋白基因的长度l(单位:核苷酸,NT)及其GC含量r(%)。其中,第1列为基因序号,第2列为基因的长度l(单位:核苷酸,NT),第3列为基因的GC含量r(%)。试针对这一组数据完成下列数据分析工作:
推荐度:
点击下载文档文档为doc格式