第一章 导论
1.1.1
(1)数值型变量。 (2)分类变量。 (3)离散型变量。 (4)顺序变量。 (5)分类变量。 1.2
(1)总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集合。 (2)参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均收入。 1.3
(1)总体是所有IT从业者的集合。 (2)数值型变量。 (3)分类变量。 (4)截面数据。 1.4
(1)总体是所有在网上购物的消费者的集合。 (2)分类变量。
(3)参数是所有在网上购物者的月平均花费。 (4)参数
(5)推断统计方法。
第二章数据的搜集
1.什么是二手资料?使用二手资料需要注意些什么?
与研究内容有关的原始信息已经存在,是由别人调查和实验得来的,并会被我们利用的资料称为“二手资料”。 使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手资料时,要注明数据来源。
2.比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
概率抽样是指抽样时按一定概率以随机原则抽取样本。每个单位被抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和成本都比较高。如果调查的目的在于掌握和研究总体的数量特征,得到总体参数的置信区间,就使用概率抽样。
非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。非概率抽样操作简单、实效快、成本低,而且对于抽样中的专业技术要求不是很高。它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。非概率抽样也适合市场调查中的概念测试。
3.调查中搜集数据的方法主要有自填式、面方式、电话式,除此之外,还有那些搜集数据的方法?
实验式、观察式等。
4. 自填式、面方式、电话式调查个有什么利弊?
自填式优点:调查组织者管理容易,成本低,可以进行较大规模调查,对被调查者可以刻选择方便时间答卷,减少回答敏感问题的压力。缺点:返回率低,调查时间长,在数据搜集过程中遇到问题不能及时调整。
面谈式优点:回答率高,数据质量高,在数据搜集过程中遇到问题可以及时调整可以充分发挥调查员的作用。缺点:成本比较高,对调查过程的质量控制有一定难度。对于敏感问题,被访者会有压力。
电话式优点:速度快,对调查员比较安全,对访问过程的控制比较容易,缺点:实施地区有限,调查时间不宜过长,问卷要简单,被访者不愿回答时,不宜劝服。
5.请举出(或设计)几个实验数据的例子。
不同饲料对牲畜增重有无影响,新旧技术的机器对组装同一产品所需时间的影响。 6.你认为应当如何控制调查中的回答误差?
对于理解误差,要注意表述中的措辞,学习一定的心里学知识。对于记忆误差,尽量缩短所涉及问题的时间范围。对于有意识误差,调查人员要想法打消被调查者得思想顾虑,调查人员要遵守职业道德,为被调查者保密,尽量避免敏感问题。
7.怎样减少无回答?请通过一个例子,说明你所考虑到的减少无回答的具体措施。 对于随机误差,可以通过增加样本容量来控制。对于系统误差,做好预防,在调查前做好各方面的准备工作,尽量把无回答率降到最低程度。无回答出现后,分析武回答产生的原因,采取补救措施。比如要收回一百份,就要做好一百二十份或一百三十份问卷的准备,当被调查者不愿意回答时,可以通过一定的方法劝服被访者,还可以通过馈赠小礼品等的方式提高回收率。
第三章 数据的图表搜集
一、思考题
3.1数据的预处理包括哪些内容? 答:审核、筛选、排序等。
3.2分类数据和顺序数据的整理和显示方法各有哪些?
答:分类数据在整理时候先列出所分的类别,计算各组的频数、频率,得到频数分布表,
如果是两个或两个以上变量可以制作交叉表。对于分类数据可以绘制条形图、帕累托图、饼图、环形图等。根据不同的资料或者目的选择不同的图。
对于顺序数据,可以计算各种的频数、频率,以及累计频数、累计频率。可根据需要绘制条形图、饼图、环形图等。
3.3数值型数据的分组方法有哪些?简述组距分组的步骤。
答:单变量值分组和组距分组。其中组距分组:第一步,确定组数,组数多少由数据的多少和特点等决定,一般5~15组;第二步,确定各组组距,宜取5或10的倍数;第三步,根据分组整理出频数分布表,注意遵循“不重不漏”和“上限不在内”的原则。
3.4直方图和条形图有何区别?
答:1,条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,高度与宽度都有意义;2直方图各矩形连续排列,条形图分开排列;3条形图主要展示分类数据,直方图主要展示数值型数据。
3.5绘制线图应注意问题?
答:时间在横轴,观测值绘在纵轴。一般是长宽比例10:7的长方形,纵轴下端一般从0开始,数据与0距离过大的话用折断符号折断。
3.6饼图和环形图的不同?
答:饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的数据系列,其图形中间有个“空洞”,每个样本或总体的数据系类为一个环。
3.7茎叶图比直方图的优势,他们各自的应用场合?
答:茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。
3.8鉴别图标优劣的准则? 答:P65明确有答案,我就不写了。 3.9制作统计表应注意的问题?
答:1,合理安排统计表结构;2表头一般包括表号,总标题和表中数据的单位等内容;3表中的上下两条横线一般用粗线,中间的其他用细线,两端开口,数字右对齐,不要有空白格;4在使用统计表时,必要时可在下方加注释,注明数据来源。
二、练习题 3.1答:
(1)表中数据属于顺序数据。 (2)用Excel制作一张频数分布表。
服务等级 好 较好 家庭数目(个) 14 21
一般 较差 差 32 18 15 (3)绘制一张条形图,反映评价等级的分布。
家庭数目(个)403020100好较好一般服务等级的条形图较差差服务等级
(4)绘制评价等级的帕累托图。
4030频率150.000.00P.00%0.00%一般较好较差差好其他20100售后服务等级的帕累托图
92 118 120 112
95 142 136 146
127 135 117 113
104 125 108 126
3.2 某行业管理局所属40个企业2002年的产品销售收入数据如下: 152 105 117 97 要求:
(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。 1、确定组数:K?1?2、确定组距:
组距=( 最大值 - 最小值)÷ 组数=(152-87)÷6=10.83,取10
124 119 108 88
129 114 105 123
116 115 110 115
100 87 107 119
103 103 137 138
lg?40?lg(n)1.60206?1??1??6.32,取k=6 lg(2)lg20.30103
3、分组频数表 销售收入 80 – 90 90 – 100 100- 110 110 – 120 120 – 130 130 – 140 140 – 150 150以上 合计 频数 2 3 9 12 7 4 2 1 40 频率% 5 7.5 22.5 30 17.5 10 5.0 2.5 100.0 向上累计频数 2 5 14 26 33 37 39 40 — 向上累计频率% 5 12.5 35 65 82.5 92.5 97.5 100 — (2)按规定,销售收入在125万元以上为先进企业,115~125万元为良好企业,105~115 万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。
先进企业 良好企业 一般企业 落后企业 合计 频数 10 12 9 9 40 频率% 25 30 22.5 22.5 100 向上累计频数 10 22 31 40 — 向上累计频率% 25 55 77.5 100 — 3.3 某百货公司连续40天的商品销售额如下:
单位:万元
41 46 35 42
25 36 28 36
29 45 46 37
47 37 34 37
38 37 30 49
34 36 37 39
30 45 44 42
38 43 26 32
43 33 38 36
40 44 44 35
要求:根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。 答 :1、确定组数:
lg?40?lg(n)1.60206K?1??1??1??6.32,取k=6
lg(2)lg20.301032、确定组距:
组距=( 最大值 - 最小值)÷ 组数=(49-25)÷6=4,取5 3、分组频数表(根据实际资料,调整成分5个组)