好文档 - 专业文书写作范文服务资料分享网站

统计学第3章 数据的图表展示 2

天下 分享 时间: 加入收藏 我要投稿 点赞

第3章 数据的图表展示

主要内容 分类数据 顺序数据 数值型 数据 频数分布表、条形图饼图 累积频数分布表、累积频数分布图 未分组 茎叶图、箱线图 分组 直方图 时间序列 线图 多变量 散点图、气泡图、雷达图 注:低层次数据的整理方式适用于高层次的数据,但反之不可! 了解数据预处理的过程

掌握各种类型数据相应的图标展示方法

重点掌握:频数分布表、条形图、饼图

数值型数据的分组频数分布表、

直方图、茎叶图、箱线图、线图

要求能够手工编制条 茎叶图、箱线图 3.1 数据的预处理

数据的审核、筛选、排序等 3.2 品质数据的整理与展示 3.2.1 分类数据的整理与图示

1 频数与频数分布

西安交通大学管理学院学风调查自己时间频数分布表 自习时间 0-4 5-8 9-12 13以上 合计 频数 14 34 35 15 98 比例 0.14 0.35 0.36 0.15 1 百分比% 14 35 36 15 100 频数:落在某个特定类别或组中的数据个数

1

频数分布:把各个类别及落在其中的相应频数全部列出,并用表格的形式表现出来

比例、百分比——反应样本(总体)的结构/构成。 比率:是样本或总体中各个不同类别数值之间的比值。

上例:

(0-4)小时:(5-8)小时:(9-12)小时:(13以上)小时

=14:35:36:15 2 分类数据的图示 (1) 条形图

频数13以上9-12频数5-80-4010203040自习时间的条形图

条形图:用宽度相同的条形的高度或长度按来表示数据多少的图形 可以横置——条形图 或纵置——柱形图

频数4035302520频数1510500-45-89-1213以上

2

对比条形图

不同品牌电脑的销售量数据 电脑品牌 一季度 联想 256 宏基 285 康柏 247 戴尔 563 二季度 468 397 328 688 (2)饼图

频数13以上15%0-414%0-45-89-1213以上9-1236%5-835%

饼图:用圆形及圆内扇形的角度表示数值大小的图形,主要用于表示一个总体/样本各组成部分的数据占全部数据的比例。 研究结构性问题 (3) 环形图

3

3.2.2 顺序数据的整理与图示

1 累积频数和累积频率 某社会收入分配状况 级别 占人口百分比 占收入百分比 1 20 6 2 20 12 3 20 17 4 20 24 5 20 41 向上累积 级占人口百分占收入百分占人口百分比累占收入百分比累别 比 比 积 积 1 20 6 20 6 2 20 12 40 18 3 20 17 60 35 4 20 24 80 59 5 20 41 100 100 累积频数:是将各有序类别或组的频数逐级累加起来得到的频数。 向上累积:从变量值小的方向向变量值大的方向累加。 向下累积: 向下累积 级占人口百分占收入百分占人口百分比累占收入百分比累别 比 比 积 积

4

1 20 6 100 100 2 20 12 80 94 3 20 17 60 82 4 20 24 40 65 5 20 41 20 41 累积频率或累积百分比:将各有序类别或组的频率或百分比逐级累加起来。 2 顺序数据的图示 累积频数分布图

120100100比分百80口人6059积累403520180612345级别

向上累积

120100100分比948082口百6065累积人404120012345级别

向下累积

5

3.3 数值型数据的整理与展示 3.3.1 数据分组

例:某电脑公司某4个月每天的销售数据(单位:台), 234 143 187 161 150 228 153 166 154 174 156 159 198 160 152 161 162 163 196 164 226 165 187 141 214 149 178 223 218 179 215 180 175 155 167 168 211 168 170 180 171 233 172 210 172 194 173 196 174 165 175 233 175 190 207 183 225 178 234 153 179 144 179 188 172 181 182 182 177 184 185 186 186 178 187 237 187 205 188 177 189 209 189 190 175 191 173 194 189 195 195 163 196 176 196 160 197 197 174 198 200 201 202 158 203 188 206 171 208 192 210 168 211 172 213 203 165 196 172 176 某电脑公司销售量的频数分布 按销售量分组(台) 140~150 150~160 160~170 170~180 180~190 190~200 200~210 210~220 220~230 230~240 频数(天) 4 9 16 27 20 17 10 8 4 5 频率(%) 3.33 7.50 13.33 22.50 16.67 14.17 8.33 6.67 3.33 4.17 合计 120 100 数据分组:将原始数据按照某种标准划分成不同的组别。 目的:观察数据的分布特征 方式:

单变量分组:适用于离散变量且变量值较少的情况。 组距分组:适用于连续变量或变量值较多的情况。

组距分组的方法:将全部变量值依次划分为若干个区间,并将这一区间的变量

6

作为一组。

下限:一个组的最小值 上限:一个组的最大值 编制分组频数分布表的步骤: 第1步:确定组数K

通常

实际:根据数据的多少、特点及分析的要求来确定 第2步:确定各组的组距

组距:一个组的上限与下限的差

通常 组距=(最大值-最小值)/组数 组距一般取5或10的倍数 第一组的下限<最小值、

最后一组的上限>最大值

第3步:根据分组整理成频数分布表 某电脑公司销售量的频数分布 按销售量分组(台) 140~150 150~160 160~170 170~180 180~190 190~200 200~210 210~220 220~230 230~240 频数(天) 4 9 16 27 20 17 10 8 4 5 频率(%) 3.33 7.50 13.33 22.50 16.67 14.17 8.33 6.67 3.33 4.17 100 5?K?15 合计 120 说明: ?150应该算在哪一组 一般方法:

“不重不漏”原则:“上组限不在内”“组上限不在内” 断点/小数点 按销售量分组(台) 140~149 150~159 160~169 170~179 180~189

频数(天) 4 9 16 27 20 频率(%) 3.33 7.50 13.33 22.50 16.67 7

190~199 17 14.17 200~209 10 8.33 210~219 8 6.67 220~229 4 3.33 230~239 5 4.17 合计 120 100 ? 由于极大值或极小值造成的空白组情况 按销售量分组(台) 频数(天) 110~120 1 120~130 0 130~140 0 140~150 4 150~160 9 160~170 16 170~180 27 180~190 20 190~200 17 200~210 10 210~220 8 220~230 4 230~240 5 240~250 0 250~260 0 260~270 0 270~280 1 合计 122 解决方法:开口组 按销售量分组(台) 频数(天) 150以下 5 150~160 9 160~170 16 170~180 27 180~190 20 190~200 17 200~210 10 210~220 8

8

220~230 230以上 4 6 合计 122 @ 并非所有的分组都是等距分组,可以根据情况选择不等距分组 我国5次人口普查居民年龄构成 各年龄组人口 (%) 1953 1964 1982 1990 0-14岁 36.28 40.69 33.59 27.69 15-64岁 59.31 55.75 61.50 66.74 65岁及以上 4.41 3.56 4.91 5.57 资料来源:中国统计年鉴2008 注:组距分组掩盖了各组内数据的分布状况

解决方法:

用组中值作为该组数据的一个代表值

2000 22.89 70.15 6.96 下限值?上限值组中值?

2暗含的假设:数据在组内称均匀分布或在组中值两侧称对称分布。 3.3.2 数值型数据的图示

1未分组数据:茎叶图和箱线图 (1)茎叶图

茎叶图:是反映原始数据分布的图形,由“茎”与“叶”两部分构成,每一部分均由数字组成。 树茎 14 15 16 17 18 19 20 21 22 树叶 1349 023345689 0011233455567888 001123344455556677888999 00122345667777888999 00124455666667788 0123356789 00113458 3568 数据个数 4 9 16 27 20 17 10 8 4 5 23 33447 某电脑公司销售数据的茎叶图

9

是一种非常方便的手工汇总数据的方法 (2)箱线图

是由一组数据的最大值、最小值、中位数和两个四分位数这五个特征值绘制而成的图形。

最小值下四分位数中位数上四分位数最大值

简单的箱线图

四分位数与中位数

将数据按大小排列成数列以后,从下向上数第25%的数据所在位置的值称为下四分位数,用

QL表示;处于中间位置的值称为中位数,用QM或Me表示;从

下向上数第75%的数据所在位置的值称为上四分位数,用求解:

第1步:要确定四分位数的位置,

QU表示。

QL的位置=n?1

42(n?1)QM的位置=

4

3?n?1?QU的位置=

4第2步,确定分位数具体的数值

如果位置是整数,四分位数就是该位置对应的值; 如果是在0.5的位置上,则取该位置两侧值的平均数;

如果是在0.25或0.75的位置上,则四分位数等于该位置下侧值加上按比例分摊位置两侧数值的差值。 例:(1)数列2、4、6、8、10、12、14

10

解:

n?7

QL的位置=n?1?7?1?2,则QL?4

44QM2(n?1)2(7?1)??4,则QM的位置=

44?8

3?n?1?3??7?1???6,则QU?12 QU的位置=

44(2)数列2、4、6、8、10、12、14、16 解:

n?8

QL的位置=n?1?8?1?2.25,则QL?4+0.25(6-4)=4.5

442(n?1)2(8?1)??4.5,则QMQM的位置=

44?8+0.5(10-8)=9

QU3?n?1?3??8?1???6.75,则QU?12+0.75(14-12)=13.5 的位置=

449虽然不是数列中的数据,但它恰好把数列分为两半。 例:请计算所示电脑销售数据的四分位差 树茎 14 15 16 17 18 19 20 21 22 23

树叶 1349 023345689 0011233455567888 001123344455556677888999 00122345667777888999 00124455666667788 0123356789 00113458 3568 33447 数据个数 4 9 16 27 20 17 10 8 4 5 11

某电脑公司销售数据的茎叶图 解:

n?120

Qn?1L的位置=

4?120?14?30.25,

QL?170?0.25?(170?170)?170

QM2(n?1)的位置=

4?2(120?1)4?60.5, QM?182?0.5?(182?182)?182Q3?n?1?U的位置=

4?3??120?1?4?90.75, QU?197?0.75(197?197)?197

1411701821972371401501601701801902002102202302402分组数据:直方图

直方图:用矩形的宽度和高度来表示频数分布的图形

12

频数天30Mean =184.57Std. Dev. =21.681N =12025直方图与条形图的区别:

@条形图是用条形的长度/高度表示各类别频数的多少,宽度(显示类别)是固定的。

直方图是用面积表示各组频数的多少。矩形的高度表示频数、宽度表示各组的组距,长宽均有意义。

@直方图的各矩形通常是连续排列 条形图分开排列。

3 时间序列数据:线图

主要用于反映现象随时间变化的特征。 年 份 城镇居民家庭人均可支配收入 农村居民家庭人均纯收入 1991 1700.6 708.6 1992 1993 1994 1995 1996 1997 1998 1999

()20151050140150160170180190200210220230240销售台数

2026.6 2577.4 3496.2 4283.0 4838.9 5160.3 5425.1 5854.0 784.0 921.6 1221.0 1577.7 1926.1 2090.1 2162.0 2210.3 13

2000 6280.0 2253.4 2366.4 2475.6 2622.2 2936.4 3254.9 3587.0 4140.4 2001 6859.6 2002 7702.8 2003 8472.2 2004 9421.6 2005 10493.0 2006 11759.5 2007 13785.8 资料来源:中国统计年鉴2008 人均12000.0收入10000.0元(lue14000.0城镇居民农村居民城镇居民农村居民8000.06000.04000.02000.00.01991199219931994199519961997199819992000200120022003200420052006200714

年份4 多变量数据的图示 (1) 散点图

黑龙江省1991-2007年能源消费与经济增长、工业废水排放情况 时间 能源消费总量万吨标准GDP(亿元) 工业废水排放量(万吨)

1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 900008000070000600005000040000300002000010000013煤 5656.4 5531.2 5078.3 5745.1 6261.3 6270.5 6635.5 6702.1 6390.0 5663.1 5830.8 6204.2 6309.8 7515.0 7619.6 7657.3 7957.9 822.3 959.7 1198.4 1604.9 1991.4 2370.5 2667.5 2774.4 2866.3 3151.4 3390.1 3637.2 4057.4 4750.6 5511.5 6201.4 7065.0 80343 77421 74093 71252 69389 68691 65038 60750 53736 52644 49444 47983 50286 45190 45158 44801 38388 能源消费总量万吨标准煤GDP(亿元)工业废水排放量(万吨)57911131517

15

能源消费总量万吨标准煤80007500散点图是用二维坐标展示两个变量之间关系的一种图形。它是用坐标横轴代表变量x,纵轴代表变量y,每组数据(xi,数据在坐标系中形成的n个点称为散点,由坐标系及其散点形成的二维数据图形称为散点图。

(2) 气泡图:用于展示三个变量之间的关系。与散点图类似,将一个变量放

在横轴,另一个变量在纵轴,而第三个变量则用气泡的大小表示。 小麦产量与降雨量、温度的数据 温度(。C) 6 8 10 13 14 16 21 降雨量(mm) 25 40 58 68 110 98 120 产量(kg/hm2) 2250 3450 4500 5750 5800 7500 8250 (70006500)60005500500002000400060008000GDP(亿元)

yi)在坐标系中用一个点表示,n组

16

1401201005800750057508250降雨量8060402000510温度

450034502250152025 (3)雷达图

是显示多个变量的常用图示方法,也称为蜘蛛图。

绘制方法:

设有n组样本,每个样本测得P个变量 第1步:做一个圆

第2步:将这个圆P等分,得到P条射线,每条代表一个变量,作为这个变量的坐标轴

第3步:每个变量值的大小由圆心到射线上的点的距离表示 第4步:将同一个样本的值在P个坐标上的点连线 城镇居民家庭平均每百户年底耐用消费品拥有量(部分) 项 目 摩托车 (辆) 洗衣机 (台) 电冰箱 (台) 彩色电视机 (台) 照相机 (架) 空调器 (台) 淋浴热水器 (台) 家用电脑 (台) 资料来源:中国统计年鉴2008 1999 15.12 91.44 77.74 111.57 38.11 24.48 45.49 5.91 2007 24.81 96.77 95.03 137.79 45.06 95.08 79.52 53.77 17

摩托车 (辆)140120家用电脑 (台)10080604020淋浴热水器 (台)0电冰箱 (台)洗衣机 (台)空调器 (台)彩色电视机 (台)照相机 (架)19992007

18

统计学第3章 数据的图表展示 2

第3章数据的图表展示主要内容分类数据顺序数据数值型数据频数分布表、条形图饼图累积频数分布表、累积频数分布图未分组茎叶图、箱线图分组直方图时间序列线图多变量散点图、气泡图、雷达图注:低层次数据的整理方式适用于高层次的数据,但反之不可!了解数据预处理的过程掌握各种类型数据相应的图标展示方法重点掌握:频数分布表、条形
推荐度:
点击下载文档文档为doc格式
30vko9ief58xzkp047nr
领取福利

微信扫码领取福利

微信扫码分享