好文档 - 专业文书写作范文服务资料分享网站

资料的审核与整理

天下 分享 时间: 加入收藏 我要投稿 点赞

主要内容

第一节 资料的审核与整理

一、资料的审核

资料的审核是资料处理的第一步工作。资料的审核工作包含两方面的内容:一是检查出问卷资料中的问题;二是重新向被调查者核实。另一种做法是,先将资料全部收回,然后再集中时间进行审核。 二、资料的编码

编码就是用阿拉伯数字来代替问卷中每一个问题的回答,或者说是将问卷中的答案转换成数字的过程。要给不同的问题分配合适的栏码,即指定该问题的编码值在整个数据文件中所处的位置。编码手册,编码手册是研究者将编码的项目和问题一一列出,逐一规定它们的代码、宽度、栏码简要名称、答案赋值方式及其他特殊规定等等。

第二节 文字资料的整理

社会调查中的文字资料有两大类,即实地观察、访问的记录和搜集的各种历史文献。整理文字资料的一般程序是:审查,分类,汇编。 一、审查

所谓审查,就是通过仔细推究和详尽考察,来判断、确定文字资料的真实性和合格性。 文字资料的真实性审查也称可靠性审查,它包括两个方面:一是文字资料本身的真实性审查,二是文字资料内容的可靠性审查。

文字资料本身的真实性审查,是指通过细究和考察以判明调查所得的文献资料、观察和访问记录等文字资料本身的真伪。

它一般采用两种方法:

①外观审查,即从作者、编者、出版者、版本、印刷技术、纸张等外在情况来判断文献的真伪。②内涵审查,即从文献的内容,使用的词汇、概念,写作的技巧和风格等内在情况来判断文献的真伪。

观察和访问记录等文字资料的真实性审查,还可从记录的时间、地点、内容、语言、字迹和所使用的墨水等情况来判断其真伪。实践证明,那些内容贫乏、时间重叠或不填时间、语言雷同、字迹和墨水相同的记录,则可能是观察员、访问员伪造的记录。

文字资料内容的可靠性审查,是指通过细究和考察以判明文字资料的内容是否真实地反映了调查对象的客观情况。

它一般采用三种方法:

①根据以往实践经验来判断资料的可靠性,如果发现资料中有明显违反实践经验的东西,那么就应该重新调查或核实。

②根据资料的内在逻辑来检验资料的可靠性,如果发现资料内容有逻辑矛盾,或者违背事物发展的客观逻辑,那么就应该对这些资料重新核实或做补充调查。

③根据资料的来源来判断资料的可靠性。一般地说,当事人反映的情况比局外人反映的情况可靠性大一些,多数人反映的情况比少数人反映的情况可靠性大一些,有文字记录的情况比在人群中口耳相传的情况可靠性大一些,多种来源互相印证的情况比单一来源反映的情况可靠性大一些,引用率高的文献比引用率低的文献可靠性大一些。 文字资料的合格性审查,主要是审查文字资料是否符合原设计要求。如果对调查对象的选择违背了设计要求,调查指标的解释和操作定义的使用发生了错误,有关数据的计算公式不正确、计量单位不统一,或者对询问问题的回答不完整、不符合要求,甚至答非所问,以及记录的字迹无法辨认等等,都应该列入不合格的调查资料。

对不真实或不合格的调查资料,一般都应该进行补充调查,使之成为真实的、合格的调查资料;在无法进行补充调查时,就应该坚决剔除,弃之不用,以免影响整个调查资料的真实性和科学性。

二、分类

文字资料的分类,就是根据文字资料的性质、内容或特征,将相异的资料区别开来,将相同或相近的资料合为一类的过程。

文字资料的分类有两种方法,即前分类和后分类。

前分类,就是在设计调查提纲和表格时,就按照事物或现象的类别设计调查指标,然后再按分类指标调查资料、整理资料。这样,分类工作在调查前就安排好了。如有结构观察的卡片、标准化访问的记录等大都采取前分类方法。

后分类,是指在调查资料搜集起来之后,再根据资料的性质、内容或特征将它们分别集合成类。如文献调查的资料。

分类是否正确,关键在于如何确定分类标准。 正确确定分类标准的四条原则:

①科学性原则,即分类标准必须符合科学原理。 ②客观性原则,即分类标准必须符合客观实际。

③互斥性原则,即分类后的各种类别必须互相排斥,每一条资料只能归于某一类,而不能既属于这一类别、又属于那一类别。

④完整性原则,即分类后的各种类别必须完整,每一条资料都应该有所归属,而不应该有任何遗漏。

分类的意义在于:

①它是认识社会现象的初步成果。

②它是揭示事物内部结构的前提。要揭示事物的内部结构,必须首先将事物区分为不同的组成部分,分类就是根据一定标准把事物区分为不同的组成部分,因而它就成为揭示事物内部结构的必要前提。

③它是研究不同类别事物之间关系的基础。 三、汇编

汇编,就是按照调查的目的和要求,对分类后的资料进行汇总和编辑,使之成为反映调查对象总体情况的系统、完整、集中、简明的材料。

对分类资料进行汇编,首先,应根据调查的目的、要求和调查对象的具体情况,确定合理的逻辑结构,使汇编后的资料既能反映调查对象总体的真实情况,又能说明调查所要说明的问题;其次,要对分类资料进行初步加工。例如,给各种资料加上标题,重要的部分标上各种符号,对各种资料按照一定逻辑结构编上序号等等。

资料汇编的基本要求是:

一要完整和系统。所有可用的资料都要汇编到一起,大类小类要层次分明,井井有条,能系统、完整地反映调查对象总体的全貌。

二要简明和集中。要用尽可能简短、明了的文字,集中地说明调查对象总体的具体情况,并注明资料的来源和出处。如有必要,还可对资料的价值和作用等作些简短述评,以供进一步研究参考。

第三节 数字资料的整理

数字资料的整理,一般要经过检验、分组、汇总、制作统计表或统计图等四个步骤。 一、检验

检验,就是检查、验证各种数字资料是否完整和正确。 数字资料的完整性检查,主要包括两个方面:

①检查应该调查的单位和每个单位应该填报的表格是否齐全,有没有漏单位或漏表格现象;

②检查每张调查表格的填写是否完整,有没有缺报的指标或漏填的内容。

数字资料的正确性检验,就是看数字资料的内容是否符合实际,计算是否正确。数字资料的正确性检验,一般采用三种方法:

(1)经验判断,就是根据已有经验来判断数字资料是否真实、正确。如已知某单位比较

落后,而数字资料却超过了先进单位,那么,对这些数字资料就应该进一步调查核实。反之,也应该如此。

(2)逻辑检验,就是从数据的逻辑关系来检验数字资料是否正确、是否符合实际。正确的数据应该是符合逻辑的,而不符合逻辑的数据则可能是不正确的。比如,收入与支出。 (3)计算审核,就是通过各种数学运算来审核数据资料有无差错。比如,各分组数字之和是否等于总数,各部分占总体的比例相加是否等于百分之百。

通过检验发现的各种问题,或表格不齐,或答案不全,或数字不真,或计算错误等等,都应及时查明原因,并采取相应措施予以补充或更正。对于一切无法补充或更正的数字资料,都应该作为无效资料剔除不计,以免影响整个数字资料的真实性和准确性。

二、分组

分组,就是按照一定标志,把调查的数字资料划分为不同的组成部分。分组的目的在于,反映各组事物的数量特征,考察总体内部各组事物的构成状况,研究总体各个组成部分的相互关系等等。

分组的一般步骤是:选择分组标志,确定分组界限,编制变量数列。 (一)选择分组标志

分组标志,就是分组的标准或依据。常用的分组标志有四种,即质量标志、数量标志、空间标志和时间标志。

(1)质量标志,就是按事物的性质或类别分组。例如,人口可按性别分为男人和女人,可按民族分为汉族和少数民族;按质量标志分组,可以把不同性质或类别的事物区别开来,有利于认识不同质的事物的数量特征,有利于对不同质的事物进行对比研究。

(2)数量标志,就是按事物的发展规模、水平、速度、比例等数量特征分组。按数量标志分组,可以把不同发展规模、水平、速度、比例的事物区别开来,有利于从数量上准确认识客观事物,有利于对不同数量特征事物之间的关系进行分析和研究。

(3)空间标志,就是按事物的地理位置、区域范围等空间特性分组。按空间标志分组,可以把不同地域的事物区别开来,有利于了解事物的空间分布状况,有利于对不同地理位置、区域范围内的事物进行对比研究。

(4)时间标志,就是按事物的持续性和先后顺序分组。按时间标志分组,可把不同时点或时期的事物区别开来,有利于认识事物在不同时点或时期的变化,有利于揭示事物不断运动、变化、发展的趋势。

上述四种标志是最基本的分组标志。在这四种标志基础上,可以用两个或两个以上的标志组合成多种多样的复合标志。例如,20世纪90年代中国有关部门规定,特大型工业企业的标准是:钢铁联合企业,①年产钢150万吨及以上;②生产性固定资产原值10亿元及以上。随着科学技术的进步和经济社会的发展,这些复合标志中质量标志和数量标志的具体内

容是不断变化发展的,但是,任何复合标志都离不开上述四种基本标志,都是在这些基本标志的基础上组合而成的。

选择分组标志,是数字资料分组中的关键问题。因为,分组标志的选择是否正确,直接关系到分组的科学性,关系到分组结果能否正确反映调查对象的总体情况。因此,在实际工作中,一定要根据调查的目的和要求,以科学理论为指导,实事求是地慎重选择分组标志。

(二)确定分组界限

分组界限,是指划分组与组之间的间隔限度。确定分组界限,包括组数、组距、组限、组中值的确定和计算等内容。

(1)组数,就是组的数量。组数的确定,应从实际出发。

当数量标志变动范围很小,而且标志值项数不多时,可直接将每个标志值确定为一组。这时,组数等于数量标志值的项数。例如,调查农村7~12岁学龄儿童入学率,就可将每一岁的儿童确定为一组。

当数量标志变动范围很大,而且标志值项数又很多时,就可将邻近的几个标志值合为一组,以减少组的数量。例如,调查人口的年龄结构,就可将邻近的5个年龄合为一组,这样可大大减少组数。对标志值项数较多的数字资料分组,以分成5~7组为宜,组数应尽可能是奇数,而避免是偶数。

(2)组距,就是各组中最大数值与最小数值之间的距离。

确定组距后,应编制组距数列。编制的组距数列,各组组距相等的,叫等组距数列;各组组距不相等的,叫不等组距数列。

确定组距数列时,究竟采用等组距数列还是不等组距数列,应从实际情况出发。如编制等组距数列,应先确定组数,再用全部变量的最大值与最小值之间的差距即全距除以组数,就可得出组距的大小。

如编制不等组距数列,就应根据研究任务的实际需要来确定组距。例如,从21世纪初中国农村实际情况出发,对农民中的贫困户、温饱户、小康户、宽裕户和富裕户分组时,一般是按不等组距数列确定组距:年人均纯收入1000元以下的为贫困户;1000~2000元的为温饱户;2000~4000元的为小康户;4000~8000元的为宽裕户;8000元以上的为富裕户。

(3)组限,就是组距两端数值的限度。一般将每组的起点数值(最小数值)称为下限,终点数值(最大数值)称为上限。

组限有两种表现形,一种是封闭式组限,即在变量数列中最小组的下限值和最大组的上限值都是确定的;一种是开口式组限,即在变量数列中最小组的下限值或最大组的上限值是不确定的。

划分组限后,如果某一数值正好与某一组组限的起点值或终点值相同,就应该遵循统计学中的“上限不在内”的原则,将某一数值划归属于下限的那一组。

4gluf8woam06i7k4fy1y
领取福利

微信扫码领取福利

微信扫码分享