一. 统计学中数据类型
在统计学中,统计数据主要可分为四种类型,分别是定类数据,定序数据,定距数据,定比变量。
1.定类数据(Nominal):名义级数据,数据的最低级,表示个体在属性上的特征或类别上的不同变量,仅仅是一种标志,没有序次关系。例如, ”性别“,”男“编码为1,”女“编码为2。
2.定序数据(Ordinal):数据的中间级,用数字表示个体在某个有序状态中所处的位置,不能做四则运算。例如,“受教育程度”,文盲半文盲=1,小学=2,初中=3,高中=4,大学=5,硕士研究生=6,博士及其以上=7。
3.定距数据(Interval):具有间距特征的变量,有单位,没有绝对零点,可以做加减运算,不能做乘除运算。例如,温度。
4.定比变量(Ratio):数据的最高级,既有测量单位,也有绝对零点,例如职工人数,身高。
一般来说,数据的等级越高,应用范围越广泛,等级越低,应用范围越受限。 不同测度级别的数据,应用范围不同。
等级高的数据,可以兼有等级低的数据的功能,而等级低的数据,不能兼有等级高的数据的功能。
二. 李克特量表
李克特量表又称分项评分量表,时由美国社会心理学家Rensis A.Likert于1932年提出
的。李克特量表的度量级别,通常是5级,在应用中7级,9级均可,但通常不少于5级,不高于9级。 三. 归一化
? 在统计学中,归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是
统计的概率分布,归一化在-1--+1之间是统计的坐标分布。 即该函数在(-∞,+∞)的积分为1 线性函数转换如下
y=(x-MinValue)/(MaxValue-MinValue)
说明:x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值。
(x-min)/(max-min)
这样所有的数据都归一化为0到1之间的数了 ? ?
归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。归一化是为了加快训练网络的收敛性,可以不进行归一化处理
归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在-1--+1之间是统计的坐标分布。归一化有同一、统一和合一的意思。无论是为了建模还是为了计算,首先基本度量单位要同一,神经网络是以样本在事件中的统计分别几率来进行训练(概率计算)和预测的,归一化是同一在0-1之间的统计概率分布;SVM是以降维后线性划分距离来分类和仿真的,因此时空降维归一化是统一在-1--+1之间的统计坐标分布。
归一化是因为sigmoid函数的取值是0到1之间的,网络最后一个节点的输出也是如此,所以经常要对样本的输出归一化处理。所以这样做分类的问题时用[0.9 0.1 0.1]就要比用要好。
但是归一化处理并不总是合适的,根据输出值的分布情况,标准化等其它统计变换方法有时可能更好。
主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内。
? 归一化方法(Normalization Method)
1。把数变为(0,1)之间的小数 主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内。 2 。把有量纲表达式变为无量纲表达式归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。比如,复数阻抗可以归一化书写:Z = R + jωL = R(1 + jωL/R) ,复数部分变成了纯数量了,没有量纲。
? 标准化方法(Normalization Method)
数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。由于信用指标体系的各个指标度量单位是不同的,为了能够将指标参与评价计算,需要对指标进行规范化处理,通过函数变换将其数值映射到某个数值区间。 关于神经网络(matlab)归一化的整理 关于神经网络归一化方法的整理
由于采集的各数据单位不一致,因而须对数据进行[-1,1]归一化处理,归一化方法主?
? ?
?
? ? ?
? ? ? ? ? ? ?
要有如下几种,供大家参考:(by james) 1、线性函数转换,表达式如下:
y=(x-MinValue)/(MaxValue-MinValue)
说明:x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值。
2、对数函数转换,表达式如下: y=log10(x)
说明:以10为底的对数函数转换。 3、反余切函数转换,表达式如下: y=atan(x)*2/PI
归一化是为了加快训练网络的收敛性,可以不进行归一化处理
归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在-1~+1之间是统计的坐标分布。归一化有同一、统一和合一的意思。无论是为了建模还是为了计算,首先基本度量单位要同一,神经网络是以样本在事件中的统计分别几率来进行训练(概率计算)和预测的,归一化是统一在0-1之间的统计概率分布;
当所有样本的输入信号都为正值时,与第一隐含层神经元相连的权值只能同时增加或减小,从而导致学习速度很慢。为了避免出现这种情况,加快网络学习速度,可以对输入信号进行归一化,使得所有样本的输入信号其均值接近于0或与其均方差相比很小。
归一化是因为sigmoid函数的取值是0到1之间的,网络最后一个节点的输出也是如此,所以经常要对样本的输出归一化处理。所以这样做分类的问题时用[0.9 0.1 0.1]就要比用[1 0 0]要好。
但是归一化处理并不总是合适的,根据输出值的分布情况,标准化等其它统计变换方法有时可能更好。
? MATLAB归一化方法
你在所有的数据中找出最大的那个数max 可以用matlab的max函数
在所有的数据中找出最小的那个数min 可以用matlab的min函数
? 如果是Origin,那么选中要归一化的数据列,点击右键,在弹出的对话框中选
择 Normalize
? 在excel表格中如何对数据进行归一化处理
比如对A1到A10中的是个数进行归一化处理,就是分别计算每个数占这是个数这和的百分比,可以用公式计算,不是很难,例如:在单元格B1中输入“=A1/sum($A$1:$A$10)\点击B1右下角的黑十字下拉到B10放开鼠标,b列的结果就是你要的归一化结果。数据多的话只需改动公式中sum函数的引用位置,如A列有100个数,B1中改为”=A1/sum($A$1:$A$100)“
四.利用SPSS检验是否符合正态分布
正态分布也叫常态分布,在我们后面说的很多东西都需要数据呈正态分布。下面的图就是正态分布曲线,中间隆起,对称向两边下降。
下面我们来看一组数据,并检验“期初平均分” 数据是否呈正态分布(此数据已在SPSS里输入好)
在SPSS里执行“分析—>描述统计—>频数统计表”(菜单见下图,英文版的可以找到相应位置),然后弹出左边的对话框,变量选择左边的“期初平均分”,再点下面的“图表”按钮,弹出图中右边的对话框,选择“直方图”,并选中“包括正态曲线”