统计 Flashcards
什么是平均数
1、定义:是一种最普遍的几种量数,一般用字母M表示,如果平均数是由X变量计算的,即为X拔。
2、计算:公式: Σxi/N,一组数据中,每个数据与平均数之差(离差或离均差)的总和等于零,即平均数意味着重心.
3、性质:一组数据中,每一个数加上一个常数c,所得的平均数为原来的平均数加常数c;每一个常数乘以一个常数c,所得的平均数为原来的平均数乘以常数c
4、优点:
反应灵敏;全部数据参与计算,计算严密简单,简明易懂,适合进一步代数运算;较少受抽样变动的影响 ,平均数的波动通常小于其他量数的波动,通常是最可靠、最正确的量数,代表性好
5、缺点:
易受极端数据影响;有模糊数据不能使用
什么是中数
1、定义: 又称中位数,是一种位置量数,符号是Md,是一组数据按顺序排列后为位于中间位置的数,即在这组数据中,有一半的数据比他他,有一半的数据比他小。
2、计算:一组数据中,数据个数为奇数时,第(n+1)/2个数即为中数;数据个数为偶数时,位于中间两个数的平均数即为中数;有重复数据时,且重复数据位于数列中间时,用画图法。
3、优点:计算简单;不受极端值影响,能在有模糊数据下使用;可在顺序型数据时使用;偏态分布中代表性最好
4、缺点:代表性比平均数低,不灵敏,需要排序,不稳定,不能代数运算
什么是众数
一、定义:又称为范数,符号为Mo.在次数分布中出现次数最多的那个变量,可能不止一个(表现为多峰) 二:优缺点: 1、优点:能在数据不同质的情况下使用,能避免极端值的干扰。 2、缺点:既不稳定也不灵敏,代表性差,不能进一步代数运算。 三、众数的计算: 1、观察法 2、用次数分组表计算:数据整理成次数分布表后,观察次数最多的那个分组区间的组中值即为众数。当分布数列中各变量值的频率相等时,该数列没有众数。 这种方法求得的众数受分组的影响。 3、皮尔逊经验公式:M0=3Md-2M 四、众数的适用范围: 当需要快速、粗略的找出一组数据的代表值时; 当数据不同质时,众数可作为典型情况的代表; 当出现两个极端数据时(也可用中数); 可以粗略估计次数分布形态(用平均数与众数之差看是否偏态,注意:中数不能粗略估计一组数据的形态)
组中值
1、组中值=(精确上限+精确下限)÷2
2、组中值=精确下线+组距的二分之一
2、仅存在于组距数列分组数列中,近似平均数。
图解并说明平均数、中数、众数三者的关系(记忆)
1、正态分布中,三者相等。
2、正偏态(右偏态)分布中,平均数大于中数大于众数;
3、负偏题分布中,平均数小于中数小于众数
样本方差与总体方差的区别和联系(理解、记忆)
1、计算方法:总体方差是数据个数或总频数去除离差平方和;样本方差是用样本数据个数或总频数减一,再去除离差平方和
2、表示方法:样本方差是统计量,用s²表示;总体方差是总体参数,用σ²表示;
3、联系:当N很大时,s²与σ²相差很小,s²是σ²的无偏估计。
方差和标准差的性质(理解、记忆)
一、方差:
1、方差的定义:又称均方,样本方差用S2表示,总体方差用 表示。方差表示一组数据离散程度(或称各种变异总和)。
2、计算:方差即将每一个原始数据与平均数之差,即离均差的平方相加,得到离均差的平方和,再除以总个数,得到的即为方差。公式:s2=∑(x-x拔)/N,
2、性质:具有可加性和可分解性。如:方差分析就是利用方差的这个特点。
二、标准差:
1、标准差定义:同方差一样是最常用、且是表示一组数据离散程度的最好指标,是一种差异量数。样本方差用s表示,总体方差用 表示,
2、计算:是一组数据方差的平方根。
2、性质:每一个观测值都加上一个常数c后,得到的标准差等于原来的标准差;每一个观测值都乘以一个相同的常数c,得到的标准差等于原标准差乘以这个常数。标准差不可以进行代数计算。
变异系数
1、定义:又称差异系数,是一种相对差异量。用CV表示。 2、计算:cv=s/x拔*100%,s表示样本标准差,x拔表示样本的平均数。 3、适用条件: 1)、两个或两个以上特质不同的样本; 2)、两个或两个以上特质相同的样本,但样本间水平差异较大。 3)、测量数据必须等距,运用差异系数比较更有意义(典型如考试分数);测量工具具备绝对零点,运用差异系数比较的效果更好;由于尚无有效的检验方法,目前不能进行推断统计
方差和标准差的意义(优点)(记忆,简答题)
1、方差和标准差是表示一组数据离散程度最好的指标,是统计描述和统计推断分析中最常用的差异量数。
2、优点:所有数据参与,反应灵敏,计算严谨,适合代数运算,受抽样变动影响小,意义简单明了。
标准分数(Z分数)的性质(记忆,简答题)
一、定义:标准分数是一种相对位置量数,以标准差为单位,表示一个原始分数在团体中的相对位置。也叫Z分数。表示原始分数在平均数以上或以下几个标准差的位置,用其值正负号表示(是等距数据,可加减)。
标准差:标准差是一组数值自平均值分散开来的程度的一种测量观念,较大的标准差代表大部分的数值与其平均数之间差异较大,较小的标准差代表这些数值较接近平均数。
二、计算公式:(x-x拔)/s
三、性质:
1、Z分数无实际单位,以平均数为参照点,以标准差为单位的一个相对量;
2、Z分数可正可负,之和为零;
3、Z分数均值为零,标准差为1。标准分数的分布是一个标准正态分布。
标准分数的应用(在哪些情况下可以用到标准分数)(简答题,注意答卷格式)
一、标准分数的定义
二、标准分数的意义
三、标准分数的计算公式
四、标准分数的应用:
1、比较几个分属性质不同的观察值在各自数据分布中相对位置的高低,如比较某学生在班里语文成绩和数学成绩那个更好。
2、计算不同质的观测值的总和或平均数,以表示在团体中的相对位置,如计算某学生语数外综合成绩在班级里的总排名。
3、表示标准测验的分数。若标准分数中有小数、负数等不易被人接受的问题,可通过Z’=aZ+b的线性公式转换成新的分数,如韦氏成人智力量表。
相关系数的意义(理解,计算和选择题)
1、什么叫相关:相关,即两类现象在发展变化的方向和大小方面存在一定的联系,但既不是因果关系,也不是共变关系。用r表示。
2、方向:同增共减:r为+,一致;r为-,你增加我减,不一致
3、大小:r的绝对值,绝对值大关系密切,绝对值小关系不密切
4、用散点图表示:完全正相关、正相关、零相关、完全负相关、负相关
积差相关(皮尔逊相关)(记忆,简答或选择)
1、积差相关:统计学家皮尔逊提出,亦称皮尔逊相关2、计算公式:
3、适用条件为:
1)、成对:2列数据成对出现,即每个个体都有两种不同的观测值,且每对数据相互独立;
2)、正态:两列变量各自总体的分布均为正态,至少接近正态;
3)、连续:两个相关的变量均为连续变量,即两列数据都是测量数据(3.4水平数据);
4)、线性:两列变量之间的关系为线性
4、测量学意义:重测信度、复本信度,以及非0.1计分的项目区分度的估计
等级相关的适用条件(斯皮尔曼等级相关)(理解、记忆)
等级相关的一种,适用于: 1、2列数据,总体非正态,对总体分布不做要求,为非参数的相关方法; 2、数据类型:顺序型数据,等级变量 3、线性:两列变量具有线性关系。 4、计算公式牢记
肯德尔等级相关(肯德尔W和谐系数)(理解、记忆)
包括肯德尔W系数和肯德尔U系数,测量意义是评分者信度。 一、肯德尔W系数,即肯德尔和谐系数, 1,测量方法:直接等级评定 ,K个评为对N件事物进行,得到K列从1到N的等级变量资料。 2,原理:评价者就评价的一致性,除以最大变异可能性。 3,计算公式牢记
二、肯德尔U系数:
1.评价方法:评价者采用对偶比较的方法,将N件事物两两配对,然后对每一对中两事物进行比较,择优选择,优者记1,非优者记0,最后整理成相对应的评价结果。
2.计算公式再认
3. 1)同一评价者无相同等级评定时,W的计算公式:
(1)式中:N—被评的对象数; K—评分者人数或评分所依据的标准数;
S—每个被评对象所评等级之和Ri与所有这些和的平均数的离差平方和,即
当评分者意见完全一致时,S取得最大值可见,和谐系数是实际求得的S与其最大可能取值的比值,故0≤W≤1。
点二列相关(题总相关)(理解、记忆)
1、量测意义:区分度
2、两列数据,一列为等距、正态变量;另一列为离散型二分变量(真正分类,真正称名,如总分vs第五题对错)
3、计算公式再认 rpb
二列相关
1、一列变量是正态、等距变量,另一列由正态等距被人为的分成两类(如语文成绩vs作文成绩好、坏)
2、计算公式再认 rb
品质相关(其中φ相关)(理解、记忆)
品质相关包括 φ相关,四分相关,列联表相关。其中φ相关:
1、两个变量都是真正的二分变量(如吸烟者、不吸烟者,癌症、不得癌症)
2、计算公式牢记
3. Φ相关系数的大小,表示两因素之间的关联程度。当Φ值小于0.3时,表示相关较弱;当Φ 值大于0.6时,表示相关较强
统计图表的几种类型(分组次数分布表,直方图)
由分组次数分布表推直方图
1、分组次数分布表,适合数据个数和分布范围都比较大的时候用,先把所有数据划分若干区间,再将数值划分到相应区域的组别内,分别统计各个组别中包括的数据个数。缺陷:存在“归组效应”:由于原始数据丢失,区间数据之和的计算方法为组中值乘以区间次数,因此会与实际有偏差
2、直方图(次数分布图的一种):描述分组的连续性数据;矩形面积表示数据多少;曲线下面积是人数或概率(概率为1);坐标上的标尺,分点意义为另一个刻度值;各个方块之间紧密相连,没有间隙。
没画矩形为组织图。
统计图表的几种类型(累加次数分布表,累加次数分布图)
由累加次数分布表推累加次数分布图
1、累加次数分布表:各组次数由下而上,或由上而下加在一起,最后一组的累加次数等于总次数
2、累加次数分布图:根据累加次数分布表绘制而成,分为累加直方图、和累加曲线图。
统计图表的几种类型(简单次数分布表,条形图)
三、由简单次数分布表推条形图
1、简单次数分布表:使用数据个数和分布范围较小。
2、条形图:用于描述离散型数据,称名数据,用直条长短表示数量大小和差异;坐标上的标尺,分点意义为分类;直条与直条之间的间隔大小没有任何关系,不代表任何意义。
散点图
用圆点多少和疏密表示两个变量间的相关关系
标准分数的优点(简答题,牢记)
1、可比性:不同性质的分数,转换为标准分数,即可在同一背景下比较;
2、可加性:不同性质的原始数据,具有相同的参照点,可相加;
3、明确性:知道了标准分数,利用分布函数(差z分数表)即可知道其百分等级;
4、稳定性:转换成标准分数后,规定了标准差为1,保证了不同性质的分数在总分中权重一样。
简述统计量和参数之间的区别和联系
一、定义
1、总体的特征称为参数,又称总体参数,是描述一个总体情况的统计指标;常见的有u,σ等
2、样本特征值叫做统计量,又称特征值,是描述一个样本情况的统计指标,常见的有X拔、s等
二 、联系:
通过样本统计量通过推断统计来预测得出总体参数。
1、当总体大小已知并与实验观察的总次数相同时,他们是同一统计指标。
2、当总体无限时,统计量和总体参数不同,统计量可在某种程度上作为总体参数的估计值,为总体参数做出预测和估计。
三、区别(表示方法):
1、参数用希腊字母表示(如:)u表示集中趋势,σ表示离中趋势,样本统计量表示样本的趋势,如用英文字母表示(如:)x拔表示集中趋势,s表示离中趋势,