欢迎来到优发表网,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

购物车(0)

期刊大全 杂志订阅 SCI期刊 期刊投稿 出版社 公文范文 精品范文

统计学归因分析(合集7篇)

时间:2024-03-07 15:41:53
统计学归因分析

统计学归因分析第1篇

关键词:数学建模 经济变量 回归统计 预测研究

回归分析是一种确定两种或者两种以上变数间相互依赖的定量关系的统计分析方法,回归分析按照自变量的多少,可以分为一元回归分析和多元回归分析。随着回归分析的发展,统计学家们建立了多种回归模型进行统计分析,数学建模和预测参数成为了回归分析研究的主要内容。

回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型。回归分析按照自变量的多少可在表1中体现出来。

在我们研究产品价格和其他因素对于销量影响程度的时候,我们可以应用到回归分析的相关理论,如表2。

利用数学建模回归分析可以解释如下问题:价格、广告、促销等各种因素之间的关系是怎样的。价格是怎样做到影响销量的?如果价格和广告支出同时变化一定量的值。那么销量预期又是多少。

在这个实例中,销售额属于因变量、价格、广告、促销等属于自变量。在回归分析应用中,一般会采用与方法相适应的固定步骤,首先,要根据自变量和因变量的因果关系来确定回归模型;然后,根据认真观测数据,评价回归函数的实时数据,并且估计该回归函数的相关参数;最后,还要检验该估计数学的准确性。

一、绘制并观测散点图

要根据散点图来判断,假设是否存在线性关系,例如以上广告与销售额的关系,我们通过绘制散点图,并且观测,最终得到这样一个结论,二者之间的呈一元一次的函数关系趋势,而且呈正相关形态。此时,我们就要考虑建立回归模型,根据散点图判断,我们建立的是一元一次方程模型。

二、建立数学模型,预测回归函数

1.一元线性回归分析

一元线性回归的标准式为:Y=a+bx+ε,这里X是自变量,Y是因变量,ε是随机误差。

以我们上面举过的广告费和销售额为例,我们在估计因变量Y(销售额)的值,所以做出建立如下函数:回归函数y’=a+bx

在这个函数中y’作为y的估算值,a当自变量为零时,因变量的值,b是函数的系数、直线的斜率。运用数学知识我们可以知道,我们要计算出a和b的值,才能确定回归方程,我们可以用最小二乘法确定参数a、b。最小二乘法是最重要的统计估计方法之一,观察值与估计值的偏差平方后,较大的偏差权重加大,从而避免了正负偏差相互抵消。

Σ(y-yc)=最小值,设Q=Σ(y-yc)2=最小值yc=a+bx代入上式,得:Q=Σ(y-a-bx)2=最小值偏导数得

Σy=na+bΣx

Σxy=aΣx+bΣx2

经过整理和计算最终会得到a和b。

a、b确定后,回归直线方程yc=a+bx,在确定x值后,就可以继续推算y的值,然后根据资料代入各相关值,就可以得到最终的a和b值,确定回归方程模型。

2.多元线性回归分析

在现实中往往一个因变量受多个自变量的影响。如果只用一个自变量来进行回归分析,分析的结果就存在问题;如果将影响因变量的多个因素结合在一起进行分析,则更能提示现象内在的规律,统计中,将涉及两个及以上的自变量的线性回归分析,称为多元线性回归分析。

多元线性回归分析研究因变量和多个自变量的线性关系,这种线性关系也可用数学模型来表示。记因变量为y,因变量y与自变量x1,x2,x3,…,xn之间存在线性关系,可用多元线性回归方程来表示这种关系。设多元线性回归方程为:yc=a+b1x1+b2x2+b3x3+…+bnxn,式中a,b1,b2,b3,…bn为线性回归方程的参数,要解出多元线性回归方程,同样也必须要首先确定这些参数,参数的求解是通过多元线性方程组来进行的。由于二元线性回归方程是最典型的多元线性回归方程,通过观察求解二元线性回归方程参数的过程,就可了解其他类型的多元线性回归方程参数,本文采取二元线性回归方程为例,了解其他的多元线性回归方程参数的求解方法。

设有二元线性回归方程:Yc=a+b1x1+b2x2

要确定该回归方程,必须要先求解a,b1,b2三个参数。同样要用最小二乘法求解得如下方程:

Σy=na+b1Σx1+b2Σx2

Σx1y=aΣx1+b1Σx12+b2Σb1x1

Σx2y=aΣx2+b1Σx1x2+b2Σx2

利用该方程组可以确定a,b1,b2三个参数的值,此时既可以确定Yc=a+b1x1+b2x2,具体方法和一元线性回归相同,代入相关资料,给出自变量的值,就可以得到估算值。以广告和促销为例,广告、销售额之间存在着关系,销售额、广告费是自变量,利润额是因变量。可以带入上式。

三、估算标准差

在确定回归模型之后,我们还需要做以下程序,包括对回归模型的检验和确定等。线性回归方程模型建立的一个重要作用就是,能够根据自变量的已知值来推算因变量的可能值。这个可能值包罗万象,既可以称作称估计值,也可以称作理论值、平均值,它和真正的实际值可能一致,也可能不一致。在这种情况下就产生了估计值的代表性问题。推算后,如果yc与y值一致时,就表明推断结构准确;如果yc与y值不一致时表明推断结构有所误差。可以明显地得出这样结论,将一系列yc值与y值加以比较,就可以发现其中存在着一系列离差,有的是正差,有的是负差。一般来说,回归方程的代表性如何,都是通过估计标准误差指标的计算来加以检验。估计标准误是用来说明回归方程代表性大小的统计分析指标,其计算原理与标准差基本上相同。通常是代入公式,并且进行计算,同样要提取大量的资料。

但是,回归分析只能判断和证明变量的关系,并不是证明因果关系的一种方法,所以主要的工作是对历史数据和大量资料的搜集和观测,只有做好了这项工作,才能保证预测的准确性。回归分析中的因果关系通常只是一个假设,即研究者的猜测。因而,始终必须检验此类假设的可信性,对此需要统计学以外的知识,即理论和逻辑思考,或者进行实验。

四、结论

回归分析的统计预测是在为因变量和自变量收集历史数据,虽然因变量和自变量有所区别,但是必须看到,这只是统计研究的一种预测和假设。需要用理论分析和逻辑推导去验证。由于篇幅有限,在此没有给出具体实例,来说明数学建模经济变量线性回归统计预测的统计方法。不过,这种在实际中适当运用数学建模的理论,做好经济变量的统计预测方法,在经济变量的线性回归统计中有着重要的应用。

参考文献:

[1]张玲.基于数学建模基础上的经济变量线性回归统计预测分析[J].统计与咨询,2010,(1).

统计学归因分析第2篇

[关键词]社会科学 统计方法 应用问题

社会科学的实证研究在应用统计学时,统计分析是其关键环节,资料性质分析、资料类型的判断、统计方法的选择等各个环节都应把握好,否则,其分析结果将是没有意义的。本文拟通过对社会科学实证研究论文中应用统计分析方法出现的问题,从描述性分析、定量资料的统计分析、定性资料的统计分析、相关与回归分析等方面进行解析。

一、描述性分析问题

在社会科学实证研究中,一般首先要对社会调查数据进行描述性统计分析,以发现其内在的规律性,再选择进一步的分析方法。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布形态以及一些基本的统计图形。

描述性统计分析虽然较为简单,但如果对某个事件或某种现象的描述不清楚或存在偏差,那么其后的所有分析都将值得怀疑,而描述的偏差可能会引起公众或学术界对某些社会现象的误解,甚至误导政府决策。

1.均值的误用

均值是用于描述样本集中趋势的最常用指标,但应注意,对于正态或近似正态的对称分布样本,它是较好的指标,一般与离散趋势指标中的标准差一起描述数据资料(即形式);而对于偏态分布的样本,则常用中位数来描述集中趋势,一般与离散趋势指标中的四分位数间距一起描述数据资料(即形式),究其原因是均值容易受到极端值的影响。

对于两个分布完全不同的样本,可能会得到相同的均值,因此均值在某种程度上抹杀了样本内部的差异,而往往这种内部差异正是需要进行深入研究或应当引起人们注意的。为了弥补均值的这种缺陷,一般在报告均值的同时,也应该报告标准差,或用直方图或散点图的形式描述分布,以展示群体内部的差异。

2.绝对数的误用

因为社会调查研究比较容易得到大容量的样本,所以对任何小概率事件,用绝对数报告都会出现较大的数字,单纯对绝对数的强调往往会产生误解。比较合理的方式一般是在报告某事件绝对数的同时,给出该事件的发生率或占研究样本的比例。

3.相对数的误用

相对数常用于描述定性资料的内部构成情况或相对比值或某现象的发生强度,一般有比与率两种形式。虽然比与率的计算形式是相同的,即两个绝对数之商乘以100%,但它们的含义是不同的。率用于反映某种事物或现象发生的强度,而比则用于反映部分与整体或某一部分与另一部分之间的关系。当数据的比较基础相差悬殊,用绝对数表述没有可比性时,就要借助于相对数。

应用相对数也容易出现一些问题,如:百分比与百分率的混用;当分母很小时,只计算百分比或百分率,而没有报告样本量;当比较两个或多个总体率时,没有考虑到各总体对应的内部构成情况是否一致,而直接比较等。

例如在报告流动人口犯罪问题时,给人的印象往往是流动人口犯罪率高于常住人口,其实是忽视了流动人口的年龄和性别构成与常住人口完全不同,且青年男性是犯罪率较高的人群,这样对两个不同群体的比较往往会导致错误的结论。

二、定量资料的统计分析问题

定量资料的统计分析是指所观测的结果变量是定量的,而且希望考察定性的影响因素取不同水平时,定量观测结果的均值之间的差别是否有统计学意义。定量资料的统计分析在统计学应用中占有很大的比重,出现的误用也比较多。

正确选择定量资料统计分析方法的关键有两点:一是正确判断统计研究设计的类型;再是检验定量资料是否满足“独立性、正态性及方差齐性”的前提条件[1]。前者要求使用者对统计研究设计的类型较为熟悉,后者则需要进行预分析,可适当借助于统计分析软件。根据前提条件是否满足来决定用参数假设检验或方差分析,还是用非参数检验方法,进而根据对统计研究设计类型的判断,确定采用具体的统计分析方法。

对定量资料作统计分析时,常犯的错误有:

1.不管统计研究设计类型,盲目套用t检验或单因素方差分析;

2.不验证“独立性、正态性及方差齐性”前提条件,而直接应用参数检验法;

3.将多因素设计定量资料人为拆成多个成组设计定量资料,采用t检验法;

4.将多因素设计定量资料用单因素多水平方差分析解决,或用一元分析替代多元分析等。

三、定性资料的统计分析问题

定性资料的统计分析是指观测结果为定性变量的统计处理问题。定性资料的统计分析在社会科学研究中的应用也是很广泛的,通常根据影响观测结果的原因变量性质分为三种情况:

1.原因变量都为定性变量,此类资料就是通常理解的定性资料。常用的统计分析方法有:检验、秩和检验或Ridit分析、Spearman秩相关分析、线性趋势检验、一致性检验(也称Kappa检验)、加权检验、对数线性模型等。

2.原因变量中既有定性变量,又有定量变量。这类资料的统计分析通常有两种处理方法:一是结合专业知识先将定量的原因变量离散化,使其转化为定性变量,然后采用上面3.1的统计方法处理;二是先对定性的原因变量,采用哑变量技术进行处理,转化为多个二值变量,赋予0或1值,然后采用Logistic回归分析方法或多值有序变量Logistic回归分析处理。

3.原因变量全部为定量变量。这类资料的分析可以直接采用Logistic回归分析方法或多值有序变量Logistic回归分析处理。

定性资料的最常用表达形式是列联表,列联表有多种类型,如横断面设计的四格(或称2x2)列联表、队列研究设计的四格列联表、配对研究设计的四格列联表、双向无序的R×C列联表、单向有序的R×C列联表、高维列联表等,不同类型所用统计方法也不同,所以处理这类资料的关键是分辨出列联表的类型,从而选择相应统计分析方法。

在社会科学研究中,定性资料的统计分析常犯的错误主要就是列联表的误判,从而错误的选用统计方法。

四、相关与回归分析问题

相关分析是研究变量之间的相互关系,常局限于统计描述,较难从数量角度对变量之间的联系进行深入研究;回归分析则是研究变量之间的依赖关系,可实现对自变量进行控制,对因变量进行预测,及对随机变化趋势进行适当修匀。

相关分析可用于对定类、定序、定距及定比等尺度的各类资料进行定量描述,但各类资料的计算公式是不同的,所以应用时,需要判明资料的类型;而回归分析则要根据因变量性质的不同,选用不同的回归分析方法,一般可分为两类:一是因变量为连续型变量,具体的,当为非时间性的连续型变量时,可用线性回归分析、多项式回归分析、非线性回归分析等;当为时间变量时,可用COX半参数回归分析、指数分布回归分析及威布尔回归分析等;当为随时间变化的连续型变量时,则需要利用时间序列分析。二是因变量为离散型变量,需要利用Logistic回归分析、对数线性模型分析及多项Logit模型分析等。

在社会科学研究中,相关与回归分析的应用非常广泛。但应用时也经常出现一些错误:

1.没有结合问题的专业背景和实际意义,就进行相关与回归分析。其结果有时可能是莫名奇妙的,可能出现所谓的虚假相关。

2.对于较简单的线性相关与回归分析,不注意应用条件,盲目套用。一般地,Pearson相关分析要求两变量都是随机变量,且都服从或近似服从正态分布,若不满足条件,应采用其它相关分析法,如Spearman相关分析等。而线性回归分析则要求因变量必须是随机变量,且服从或近似服从正态分布,在回归分析前,先要进行统计检验,证实两变量的显著相关性,再进一步进行回归分析才有意义。

3.只求得相关系数或回归方程,而不进行参数假设检验就下统计分析结论。因为相关系数或回归方程都是由样本数据求得的,是否具有统计学意义,必须通过其相关参数的假设检验来判定。

4.多元回归分析策略的错误。在社会科学实证研究中,对多元回归分析的应用,不少人采取的策略是先用单变量分析,得到有统计学意义的多个变量,再将它们引入回归方程进行多变量分析,用逐步回归法进行筛选,从中选出有统计学意义的变量,这种分析策略是不正确的。因为自变量之间可能存在不同程度的交互作用,在单变量分析中无统计学意义的变量并非在多元回归分析中也没有意义。正确的处理方法应该是先综合分析各种变量之间的作用、实际意义及关系,有些可作为控制变量(如性别、年龄等),将经过初步筛选的所有变量代入回归方程进行分析,再采用逐步回归方法,必要时可多用几种筛选变量的方法,同时要注意自变量间的交互作用,进行综合分析,这样才能得到较为可靠的结果。

参考文献:

[1]王在翔:社会统计理论与实践[M].青岛:中国海洋大学出版社,2008

[2]胡良平等.医学统计学基础与典型错误辨析[M].北京:军事医学科学出版社,2003.148-239

[3]柯文泉:统计方法应用中应注意的几个问题[J].时代经贸,2008,6(96):83-86

统计学归因分析第3篇

关键词:沈阳市;GDP;多元回归模型;影响因素

一、引言

近年来,沈阳市GDP的增长势头明显,城市在国家战略中的地位越来越突出,并且城市公共环境也得到了明显的改善,人民生活水平普遍得到了提升。沈阳市GDP的增长,反映出这个城市经济发展良好,人民收入增加、消费能力增强和经济市场的活跃。在20世纪末21世纪初,振兴老工业基地战略的实施给沈阳市的经济发展带来莫大的契机。在经济发展的同时我们也应该看到其中隐含的诸如经济结构失衡、经济增长动力不足、创新增长机制落后等问题。因此,本文对沈阳市GDP进行多元回归模型进行深入分析。

二、多元回归模型的建立及数据的统计整合

1.多元回归模型及回归方程的建立

人们在现实中往往会遇到对某个因变量的统计分析,由于现实因素的复杂性,导致该因变量的自变量往往有多个。为了研究多个自变量对于因变量的影响及其影响程度的大小,我们将k个自变量X1,X2,X3,...,Xk与因变量y之间的关系表示为多元线性回归模型

(1)式(1)中,因变量y由其估计值和残差组成,其中估计值是由自变量决定的,残差则与自变量无关,但是对于当前的多元回归模型是否成立等非常重要。式(1)中b0为常数项,bi为偏回归系数。具体分析中根据多元回归分析模型的相关理论,同时结合沈阳市GDP发展的实际情况,本文选取固定资产投资、第一产业、工业、建筑业、交通运输仓储及邮政业、批发和零售业、金融业、房地产业和消费总额九项参数进行分析。

2.SPSS简介

SPSS是国际上最有影响的统计分析软件,包含了几乎所有的统计分析功能,其基本功能有数据管理、统计分析等,界面友好、操作简单、针对性强等特点。本文主要用到的是线性回归分析模块,通过自变量、因变量等因素的选取,从而进行沈阳市GDP数据的多元回归模型的分析。

3.数据的来源及统计整合

本文的数据包括沈阳2006年到2013年共八年时间内的GDP相关数据,数据来源于各年的《沈阳统计年鉴》,保证数据的准确性和丰富性。表1为2006年到2013年沈阳GDP相关数据统计表。

表1 2006年-2013年沈阳GDP相关数据统计表(百亿元)

三、多元回归分析及结果检验

在建立沈阳市GDP影响因素分析回归方程中,采用固定资产投资、第一产业、工业、建筑业、交通运输仓储及邮政业、批发和零售业、金融业、房地产业和消费总额九项数据为沈阳市GDP的影响因素,建立多元回归模型。

在具体的回归分析中根据多元回归模型理论估计出回归系数b0,b1,b2,...,bk,从而确定沈阳市GDP分析的多元回归方程。在实际操作中,利用SPSS软件辅助求解,表2为回归模型系数统计分析表:

表2 回归模型系数统计分析表

通过表2的分析结果我们可以看出,t列是上述GDP影响因素的回归系数t检验的统计量,Sig列则记录了相应的显著性值。从表2中看出固定资产投资、第一产业、工业、建筑业、交通运输仓储及邮政业、金融业、房地产业和消费总额八项参数的显著性都小于0.1,并且常数项的显著性同样也小于0.1。因此,我们可以仅仅考虑y和X1、X2、X3、X4、X5、X7、X8、X9之间的关系而忽略X6变量。表3为回归模型简约化回归系数统计分析表。

表3 回归模型简约化回归系数统计分析表

因此我们得出因变量GDP与多个自变量,即多个影响因素的回归方程为:

y=-24.001+0.016X1+1.866X2+1.19X3+3.645X4+4.892X5+0.395 X7-0.573X8-0.076X9

从上述回归方程我们可以看出,沈阳市GDP与固定资产投资、第一产业、工业、建筑业、交通运输仓储及邮政业、金融业等成正比,同房地产业和消费总额成反比。从各影响因素的系数中可以对比得出,交通运输、仓储及邮政业对GDP的影响最大,建筑业次之,固定资产投资对GDP的影响最小,而房地产业则对GDP具有负影响。

四、Y语

本文通过对沈阳市GDP增长的多个因素进行多元回归分析,发现沈阳市的交通运输、仓储及邮政业对经济的影响最大3,这说明沈阳市的第三产业发展迅速。在今后的发展中沈阳市应该继续优化产业结构,调整经济策略,从根本上刺激经济的稳步增长。同时也有利于公共环境的改善和人均收入的提升,进一步增强人们的幸福感和归属感。

参考文献:

[1]李丽敏.吉林省GDP增长的影响因素分析[J].河北农业科学,2010,14(09),111-113.

[2]毕建武.基于SPSS多元回归分析的回采工作面瓦斯涌出量预测[J].安全与环境学报,2010,13(05),183-186.

统计学归因分析第4篇

概率统计学近年来发展迅速,在各个领域的应用向深度和广度两个方向扩展。同时商业化统计软件如SAS、S+及SPSS广泛应用,给数理统计的教学提出了挑战和新的要求,对此应该在教学中有所反应和体现。

1.1数理统计基本概念和基础理论的学习

对统计思维的培养很大程度上依赖于对基本概念与原理的准确把握。虽然不同统计模型的具体方法不同,但均由样本容量确定、随机抽样、参数估计、假设检验、统计推断、统计预测、模型验证等一系列环节构成。由样本、统计量、抽样分布、置信区间、弃真概率α、取伪概率β、检验效力(powerofatest)、P值等概念所表达的统计思想在不同统计模型中是完全一致的,因而在条件允许时,应该用统计模拟方法进行直观化教学,以加强对概念和基本原理的把握。

1.2统计模拟方法辅助教学

随机模拟试验可以加强学生对统计基本概念和理论的理解,及分析问题、解决问题的能力[1]。例如,对显著性水平为α置信区间的正确理解应该为:(1)由两个随机变量(上下限)所确定的一个随机区间;(2)在同等条件下无限多次反复抽取相同容量的样本时,随机区间包含未知总体参数的概率为1-α。对此抽象概念的直观教学,可以用统计软件如S+简单完成。对于其他概念,如抽样分布、假设检验中弃真和取伪错误概率、检验效力、线性回归模型参数估计量的抽样分布、预测误差分解、离差平方和分解等,均可利用统计模拟进行直观化教学。另外,统计模拟还可以取代部分定理和结论的证明,通过模拟试验进行经验性验证。

1.3理论和实验技能的同步提高

首先应加强实验环节,使学生掌握一种常用统计软件的基本使用方法。SAS由于数据结构简单、功能强大、运算速度快而应成为首选。另外,S+具有强大的、可编辑的图形功能和易于编程特点,可用于统计模拟。共享统计软件R有与S+几乎完全一致的语法,为S+的使用提供了方便。虽然学生可以用统计软件快速完成统计运算,但由于理论知识的不足而无法正确地提取和解释软件输出结果。对这个问题的解决可以一方面保证一定的实验学时,加强对统计结果的分析能力。另一方面,通过课堂讲解、课后作业和统计模拟实验的形式加强理论学习。加强理论学习的观点,在学时压缩的前提下与一些学者的观点相左[2]。我们认为统计软件的使用,一方面减轻了时间负荷使学生有更多时间用于理论学习,另一方面也对理论水平提出更高的要求,即要求学生能够理解和利用软件分析结果。在有限学时内,加强理论学习的核心在于精讲式和概论式教学的有机结合。

1.4精讲式和与概论式教学的相互结合

数理统计的内容极其广泛,不加选择的教学使学生难以抓住重点。应在数学基础允许的前提下,重点地讲解核心内容。例如单一正态总体统计分析虽然简单,但涉及了所有核心统计概念,应作为重点内容讲解。根据统计模型间的区别与联系,应注意将核心结论自然地扩展到相近或相似的统计方法中去。如简单线性回归向多元线性回归、协方差分析、方差分析乃至非线性回归的自然扩展。与精讲相对应的,可以进行一定学时的概论式教学,对专业领域内的常用分析方法进行一般性介绍,并以典型案例分析的形式拓宽学生的眼界,做到点面结合。

1.5典型案例分析

典型案例分析指对科技论文中常用统计方法的剖析和讲解。典型案例分析可以使:(1)学生体会到统计方法在实际科研和生产中的应用,培育学习兴趣;(2)实际案例基本上包含了统计分析的各个方面和环节,可以使学生直观地体会统计分析的内涵。对典型案例的进行详略得当、点面结合的分析,可以使学生建立统计分析的系统观念;(3)通过案例分析使学生能够学习科学研究的内涵与方法,并融会贯通地掌握统计分析在本专业的应用。概论性地介绍一些统计方法在专业领域的应用,不必苛求对统计方法和理论的深刻理解,仅要求学生体会具体案例中随机抽样、参数估计、假设检验、统计推断、统计预测、验证模型等环节所体现的统计思维方法,及对具体案例和所用统计方法的感性认识。同时,应该抽出一定的学时(如2学时)对高级统计分析方法进行概论式介绍。

1.6自学能力和学习兴趣的培养及考核方式

授人以鱼,不如授人以渔。课堂教学永远无法包含将来所需要的全部知识,因而培养学生的自学能力和激励学习兴趣应成为教学指南。典型案例分析、模拟研究项目、统计模拟验证、课堂讨论、概论式介绍应用现状和前景都是激发学习兴趣的有效手段。课后作业是督促学习、培养自学能力和检验学习效果的主要手段。精心设计的作业,不仅可以帮助学生及时地理解和消化课堂所学知识,而且是培养自学能力的主要途径。可以将简单的理论证明和一部分教学内容以作业形式让学生通过自学完成,逐渐培养自学能力。平时作业成绩、分段考核成绩、实验成绩、课程设计应在总评成绩中占50%左右的比例,这样不仅可以保证以上教学环节的实施并达到预期效果,还可以减轻期末考试时的学习压力。考试可以采取分段多次考核的方法,以2~3次为宜。这样教师和学生都能及时发现教与学中的问题并及时加以调整,减轻终考压力,以免一次考试决定成绩和突击学习应考的现象。

2教学内容和教学结构的思考

虽然数理统计内容庞大,但在本科阶段所涉及的教学内容均为基础统计方法。对生物学而言主要包括与正态分布相关的统计模型,如单一正态总体的统计模型、线型回归、协方差分析、方差分析和非线性回归分析等,及与二项分布和泊松分布相关的统计模型,如二项分布的统计分析、逻辑斯第回归以及关联表等。根据以上内容的区别与联系,我们考虑按照如下顺序实施教学。

2.1单一正态总体的统计模型

指的是对一个正态总体的统计分析,包括参数点估计、区间估计、假设检验、两个正态总体参数的对比分析等。虽然在概率论教学中有所涉及,但强化这部分内容的教学对建立统计思维方式有极其重要的意义。通过这部分内容的学习,应该使学生准确把握样本、统计量、抽样分布、置信区间、假设检验中弃真概率α、取伪概率β、检验效力、P值等重要概念,为后续学习奠定基础。在实际应用中,对数据进行正态性检验是不可或缺的,需要增加QQ图的原理与应用教学内容,即可以使学生了解这一简单而广泛应用的图形判别法,又可以强调在统计分析中必须对模型所依赖的假设进行验证的统计思想。

2.2线性回归线型

简单线性回归的参数估计、参数估计量的抽样分布以及参数假设检验等内容的推导证明仅涉及二元函数极值、数学期望和方差的基本性质、以及简单的代数运算,因而在学时允许时应尽量加以证明,使学生知其然知其所以然。应介绍用图示法判断线性回归模型的IID假设是否满足。由于对非IID数据的广义线性回归方法已经成熟,故无需对非IID模型的传统矫正方法多做介绍。对于线性回归中的统计预测,应着重使学生掌握预测误差的来源,即参数估计量和模型内在随机误差项两个因素对预测的影响。多元线性回归在基础统计学中占有核心地位,是衔接回归分析和方差分析的纽带。由于多元线性回归的推导涉及随机向量和随机矩阵,而不宜进行详细的推导。可以首先将简单线性回归主要结论用矩阵表示出来,并推广到多元线性回归。在多元回归阶段应强调:(1)应客观地评述预测变量数目对确定系数R2的影响作用,避免在模型评价时对R2的过度依赖;(2)应使学生理解回归模型中的方差分析是对多个参数同时为0的假设进行检验,以便于和以后试验设计与分析的学习衔接起来;(3)离差平方和的分解的意义及参数子集的F检验;(4)对拟合残差的图形分析法,使学生能够对IID的假设满足与否进行判断;(5)回归分析和相关分析的区别与联系。

2.3协方差和方差分析

通过对多元线性回归模型引入离散型的回归变量而介绍协方差分析方法,使学生学会如何构造虚拟变量,并通过虚拟变量将离散型的回归变量加入到回归模型的方法。虚拟变量的理解和使用,对逻辑斯第回归、方差分析、非线性回归的假设检验的学习非常有帮助。在理解协方差分析和多元线性回归的关系后,自然而然地将多元回归过过渡到方差分析,即全部回归变量均为离散型的多元线性回归模型即方差分析模型。可通过对虚拟变量加以限置的方法(使数据矩阵满秩),用多元回归方法进行方差分析。由于方差分析数据矩阵的特殊性,可以方便地推导出单因素和双因素方差分析的公式。通过以上学习,应该使学生建立回归分析、协方差分析和方差分析属于同一类模型的概念。

2.4非线性回归

可以简单介绍如何用泰勒多项式对非线性函数线性化后,通过多元线性回归和迭代方法估计参数。由大样本理论,参数的区间估计、假设检验和统计推断等均与多元线性回归相同。

统计学归因分析第5篇

【关键词】概率统计 经济问题 市场分析

伴随数学分析方法不断的丰富,使得经济问题的研究方式亦逐渐多样化。概率统计在经济学中作为一种行之有效的分析工具,为我国经济预测以及决策等提供数据证明,对于管理水平的提升和经济效益增加具有重大的意义。下面笔者着重从回归分析法和随机抽样法的概率统计模型中探析相应的经济问题。

一、回归分析法

(一)回归分析法原理分析

回归分析法是一种较为常见的数学分析方法。在实际中多数日常市场经济现象都可以通过回归分析法来解释。回归分析法运作的原理是通过回归多元方程分析经济问题中的自变量与因变量间的关系,从而建立预测模型。在当今高速发达的实际市场经济活动中,某一经济现象的产生以及变化都是众多因素共同作用而形成,绝不只受一种因素的影响,那么经济现象与促使其形成的多种因素也就是一个因变量和几个解释变量间存在相互依存的主要和次要的关系。例如在城市房价上涨的现象上,其将受到房子供求关系、国家相关政策、物价水平、城市人口数量、城市消费水平等因素的影响,在这个实例中城市房价上涨与其上涨的各种因素之间就存在主次关系,像房屋的供求关系与国家宏观调控虽主次难分,或者像物价水平看似其的影响微不足道,但不容忽视其作用。因而在分析这一问题时可通过回归分析法来处理。下面结合实例主要介绍多元回归分析预测法的应用。

(二)实际事例分析

本文将通过采用某市统计局公布的2000~2006年年货运量数据及与之相关的一些经济指标数据进行定量分析,如表1。

(1)从上述表1可知,该市年货运总量与相关因子之间的关系需建立一个多元回归模型。设因变量y与变量x1,x2….xn存在线性关系,则多元线性回归模型的一般表现形式为:

y=β0+β1X1+β2X2+β3X3+…+βnXn+μi (i=1,2,3…n) (1)

其中,k为解释变量的数目,β0为待定系数,βi(i=1,2…n)称为偏回归系数,则方程(1)称为m元线性总体回归方程。

根据表1数据,我们将年货运总量设为因变量y,其他4个经营指标作为影响因素设为解释变量x1,x2,x3,x4,分别代表“年生产总值”、“社会消费品零售总额”、“固定资产总投资额”、“运输、邮电部门固定资产投资额”,进行多元线性回归分析。

(2)建立多元回归方程,常用最小二乘估计法求解待定系数β0和偏回归系数β1,β2…βn。即回归方程式:

l11β1+l12β2+…+l1mβm=l1yl21β1+l22β2+…+l2mβm=l2y……lm1β1+lm2β2+…+lmmβm=lmy (2)

得出β0和βi(i=1,2,3,4)的值。最终结果如下:β0=4026.614;β1=17.40676;β2=0.125370;β4=0.022603代入方程(1),最后得出回归方程为:

Y=4026.614+17.40676x1+0.125370x2+0.018223x3+0.022603x4 (3)

二、随机抽样法

(一)随机抽样法的原理

随机抽样法是概率统计模型又一较为常用用于经济现象分析的方法。市场调查是企业通过收集以及分析有关市场经济的相关信息,为市场预测及决策提供信息依据的营销活动。在日常的市场调查中,可以采用随机抽样的调查方法,并利用数理统计的相关知识,对市场进行科学的调查研究。市场经济是由很多的消费者组成,不而消费者存在很多的区别,如消费欲望、拥有的资源、存在的地理位置、购买态度和习惯等。所以在进行市场调研时,需细化市场。例如在调研现代社会的产品需求时,由于消费者年龄的差异,导致对产品追求完全不同。因此,分层抽样法在市场调研中是最为常见的方法。分层抽样法就是将总体的个抽样单位按总体的特征分划分不同的层,在来推断总体目标量。

(二)实际事例分析

为了调研某奶制品企业的需求量,抽样单位按照居民户进行,通过细化当地市场,结合当地居民的收入水平,将市场划分为4层,在划分的4层当中,我们随机抽样10户,通过调查统计结果如表2。

通过查阅相关政府机关统计资料,该地区奶制品年消费的标准差为1000元,根据调研要求误差控制在100元以内,置信水平在95%以上,则样本量为:

通过对现有资料的分析,企业决定根据实际情况采用分层抽样方法进行计算。根据经济收入水平将居民户划分为3层,样本容量与总体的个数比为185,,从中抽取一个容量为385的样本。该3个层中,由于不同经济收入的居民户数分别为445、945和535。因此3个层中抽取的居民分别为445/5、945/5、535/5,换算为户则分别为89户、189户、107户。

统计学归因分析第6篇

关键词:多元统计;人口研究;统计模型

中图分类号:G30-03 文献标识码:A 文章编号:1001-828X(2015)005-0000-01

随着统计学和统计软件的发展,统计分析技术被越来越多地应用于实际生活。我国作为一个人口大国,了解我国的人口状况是关系国计民生的一项重大工作。所以,研究多元统计分析技术在人口研究中的应用有着深远的意义。

一、应用于人口研究的多元统计方法

作为一门专业课程,多元统计分析提出了大量的统计方法。如多元线性回归分析、logistic回归分析以及因子分析和聚类分析等。

1.多元线性回归分析在人口研究中的应用

多元线性回归模型主要用于研究一种变量受多种因素影响时的状况。而在人口研究中,多元线性回归模型主要用于人口老龄化以及城乡收入水平的影响因素等问题。例如利用多元线性回归模型研究人口老龄化问题的分析步骤如下:

(1)通过分析与人口老龄化有关的变量,我们确定人均国内生产总值、养老保险人数,失业人口人数、人口密度和政府医疗支出作为老龄化问题的影响因素(依次用X1、X2、X3、X4、X5来表示),并通过抽样调查或查阅年鉴的方法获得回归分析所需的数据,采用多元线性回归的方法进行定量分析。

(2)建立多元线性回归模型:Y=A+b1X1+b2X2+b3X3+b4X4+b5X5+e.其中b1、b2、b3、b4、b5为回归系数,A为常数项,e为残差。利用SPSS进行逐步法分析确定系数及常数项。

(3)对各变量进行显著性检验,确定模型并结合实际意义进行分析。

2.logistic回归分析在人口研究中的应用

logistic回归分析的用途主要包括三个:一是寻找特殊因素因素;二是预测;三是判别,例如预测某一个体属于某一情形的概率。logistic回归分析在人口研究中主要用于人口预测。

3.因子分析和聚类分析在人口研究中的应用

因子分析是指从影响研究变量的众多影响因子中提取出公共因子的统计方法。因子分析能够将具有相同本质的影响因子归入同一个公共因子,从而减少研究变量的数目。聚类分析则根据研究对象的特征,对研究对象进行分类,从而达到减少研究对象的目的。因子分析和聚类分析主要用于研究人口迁移影响因素、人口发展水平等问题。

二、多元统计分析技术在人口研究中的应用现状

在20世纪80年代,我国的人口研究中很少使用多元统计分析技术。进入90年代后,随着各种多元统计分析方法的引入和统计分析软件的使用,统计分析技术在人口研究中得到了广泛的应用。多元统计分析技术能够定量分析经济因素、社会因素和人口因素之间的关系,从而更好地解释人口现象。

1.我国人口研究中多元统计分析的特点

我国人口研究问题中多元统计分析技术的应用呈现出多样化的特点,主要表现在统计方法的多样性和统计分析内容的多样性。前面提到的多元线性回归方法、logistic回归分析方法以及聚类分析等多元统计分析方法在我国人口研究中都有应用。统计分析内容更是涉及生殖健康、居住类型以及人均收入水平等生活的各个方面。

2.我国人口研究中多元统计分析数据特点

我国在人口研究中的多元统计分析数据主要来源于抽样调查和典型调查等,统计分析的单位主要是以个人和家庭等个体单位为主。在数据类型方面,我国人口问题研究中的多元分析数据以横截面数据为主,时间序列数据极少用到。

三、我国人口研究中多元统计分析技术存在的主要问题

由于多元统计分析技术在我国人口研究中的应用时间比较短,很多人口研究人员对多元统计分析技术也没有经过系统的学习,在实际应用中难免会出现一些问题。

1.人口研究中多元统计分析方法使用错误

统计方法主要由研究目的和研究数据决定。但在实际应用中,由于研究人员难以正确区分各个统计方法,从而出现随意选择的现象。通过查阅用多元统计方法研究人口问题的相关文献我们发现,在进行人口问题研究时使用最多的就是多元线性回归模型。虽然多元线性回归模型具有易于理解和分析简便的特点,但它主要是研究一个目标受多个因素影响时的情形。很多文献没有注意到这个问题,从而错误地使用了该方法。

2.多元统计分析中缺乏评价和检验

评价和检验是多元统计分析的一个重要内容,因为很多统计方法只有结合实际,才能更好地确定自己的模型建立是否恰当,才能更好地解释模型中各个变量的实际意义。但在人口研究的实际应用中,很多研究人员只是注重对统计结果的分析,而忽略了模型的检验和评价。

对模型的评价主要是指模型对观测数据的拟合程度,每一种多元统计方法都有相应的模型评价方法和指标。对模型的检验主要是指显著性检验,从而判断该模型中各变量之间的关系是否存在。因此,模型评价和检验是多元统计分析不可分割的一部分,读者也只有通过这些内容才能更好地理解人口研究报告中所描述的现象。然而通过统计可以发现,很多有关人口研究的统计报告都缺乏模型评价和检验者方面的内容。

四、结束语

多元统计分析中的很多方法都适用于人口研究。近年来,随着统计学科和计算机技术的发展,多元统计分析技术在人口研究中也得到了广泛的应用。我国人口研究对多元统计分析技术的应用呈现出多样化的特点,多元统计分析的数据来源以抽样调查和横截面数据为主。但由于我国人口研究中多元统计分析技术的引入比较晚,在实际应用中仍存在较多的问题需要改善。

参考文献:

[1]刘金塘,伍小兰.多元统计分析技术在人口研究中的应用[J].人口研究,2005,26(2):1-6.

统计学归因分析第7篇

关键词: SPSS 统计学教学 回归分析

SPSS是目前世界上应用最为广泛的专业统计软件之一,被广泛应用于心理辅导、教育问题研究、市场调查、财务规划等各个领域,和SAS并称为当今最权威的两大统计软件。

一、SPSS软件的特点

1.操作简单

SPSS最大的特点就是操作界面极为友好,输出结果直观漂亮。SPSS使用Windows的窗口方式展示各种管理与分析数据方法的功能,使用对话框展示各种功能的选择项,因此只要掌握一定的Windows操作技能,了解统计分析基本原理,就可以使用其为特定的工作服务。

2.无需编程

SPSS软件具有第四代语言的特点,只需要告诉系统要做什么,不需要告诉怎样做。只要了解统计分析的基本原理,不需要通晓统计方法的各种算法,就可以得到需要的统计分析结果。对于常见的统计方法,SPSS的命令语句、子命令及选择项的选择绝大部分是由“对话框”操作完成的。因此,用户无需记忆大量的命令、过程、选择项。

3.功能强大

SPSS具有完整的数据输入、编辑、统计分析、报表、图形制作等各种功能。SPSS软件提供了从简单的统计描述到复杂的多因素统计分析方法,比如数据的探索性分析、统计描述和列联表分析等。

4.具有方便的数据接口

SPSS采用类似Excel表格的方式输入和管理数据,数据接口比较通用,可以方便地从其他数据库中读入数据。

5.具有灵活的功能模块组合

SPSS软件分为若干个功能模块,用户可以根据自己的需要和计算机的实际配置情况灵活选择。

二、SPSS应用于统计教学的必要性和可行性

在传统的统计学教学中,统计公式的计算与手工绘图的精确度是统计学教学效果的两大制约因素,不利于学生加深对统计理论方法的理解,不利于培养学生运用统计方法分析和解决实际问题的能力。学过统计学课程的学生,一般具备必要的统计学基础理论知识,但是往往缺动手能力,所以掌握一两种统计软件是十分有必要的。过于专业与复杂的统计分析软件,如SAS、MATLAB等对他们来说并不太合适。而简单易操作的SPSS可以让他们掌握一种统计软件,在将来的工作和学习中立于不败之地。当涉及分析具体问题时,可以结合统计专业知识,很好地把握统计方法的假设条件和适用范围,从而找到有效的解决实际问题的方法。所以系统地学习并灵活运用SPSS是非常有必要的。

统计方法的实际应用离不开现代化的信息处理技术。统计软件SPSS的应用,使得数据处理、显示、分析与推理变得快速简单,使得统计的功能得以充分发挥。SPSS软件操作易学易用,甚至可以在几个小时之内就学会使用SPSS。此外,计算机进入课堂的目的是辅助教学,因此计算机软件只能是配角,决不能让它成为课程的主角,SPSS软件可以达到这个目的。同时功能强大的SPSS提供了10个模块的所有主要功能,有大量的概率统计函数可以直接用来进行计算,不需要编程就可以在该软件相应模块上实现繁杂的计算过程与查表工作。SPSS软件提供了十分全面的统计图种类,可快速简单地做出非常精美的统计图,可以节省大量的时间和精力。用SPSS作图比老师在黑板上画图要形象得多,比事先制作好的多媒体课件更灵活生动,化抽象为直观,可以帮助学生理解和学习。

三、在统计学教学中应用SPSS的内容

1.SPSS的基本操作

本模块的目的是使学生了解SPSS软件的基本功能及相关的基本操作。内容包括SPSS软件的启动和退出、数据的输入与保存、数据文件的管理与调用,等等。

2.统计调查模块

本模块的目的是让学生理解调查方案的设计与数据的采集。可以让学生先设计好调查问卷,借助互联网或者直接调查搜集数据。并对这些调查问卷进行适当的编码,直接输入SPSS中的电子表格,调用SPSS的菜单FILE下的OPEN功能,选择DBASE数据格式打开该文件,然后另存为SPSS的SAV格式文件,便完成了数据的输入过程。

3.描述统计模块

本模块的目的是使学生掌握利用SPSS的描述统计模块对数据进行频数分析与基本统计量的描述,培养学生利用统计图、统计表及描述统计指标分析和认识现象。这部分内容通过SPSS中的DescriptivesStatistics菜单和Graphs菜单,分别完成频数分布表的绘制与条形图、线图、直方图等各种统计图表的绘制。

4.推断统计模块

本模块的目的是让学生掌握参数估计、假设检验与方差分析等内容。我们可以利用SPSS软件提供的T检验、非参数检验、方差分析等完成这部分的教学内容。

5.回归分析模块

本模块的目的是培养学生建立模型、分析模型与解释模型的能力,并让他们在实际分析中正确使用。学生通过学习SPSS中包括线性回归、曲线拟合、逻辑回归分析等多种回归方法,学会利用回归分析解决现实世界中的一些实际问题。

6.时间序列分析与预测模块

本模块是管理统计和商务统计的主要内容,通过大量的数据分析,学生可以进一步理解现象的动态变化,从而认识长期趋势、季节变动与周期变动的形态及其发展变化规律,掌握统计预测的基本方法。这部分内容可以采用SPSS中的回归分析建立回归方程,再计算预测值。学生还可以绘制出时间序列图,可以更清晰地看出动态变化规律。

下面就以在回归分析教学中的应用为例说明SPSS在统计学教学中的应用。

四、SPSS在回归分析教学中的应用

在统计学课程的教学过程中,主要介绍最基本的线性回归分析方法。回归分析方法的核心思想是最小二乘法。学生在掌握基本原理的情况下,利用SPSS软件进行各种回归分析,以达到简化计算过程的目的,充分将统计模型应用到社会实践当中。

1.一元线性回归模型

对于一个自变量的线性回归分析在SPSS软件中的应用,举一个简单的例子加以说明。在研究我国人均消费水平的问题中,把全国人均消费金额记为y;把全国人均国民收入记为x。根据1981至1993年这13年的样本数据(x■,y■),i=1,2,…,13,建立回归模型。

我们在进行回归分析之前,先绘制出人均国民收入与人均消费金额的散点图,发现其具有近似于线性上升的趋势。于是,在SPSS软件的主菜单Analyze里选择子菜单Regression中的Linear,会弹出线性回归对话框,我们把人均国民收入移至自变量(Independent)栏中,把人均消费金额移至因变量(Dependent)栏中。在该对话框中含有四个子对话框,即Statistics,Save,Plot,Option。在Statistics子对话框中包含对回归系数、残差检验、模型的确定系数、偏相关及共线性诊断等选项。除了系统默认的设置以外,往往还会选择输出确定系数的平方、D-W残差检验和置信区间。在Save子对话框中包含预测值、置信度待定的预测区间及对残差的各种输出结果等。对于一般的一元线性回归分析可以选用系统的默认设置。选择完成设置后,点击OK即可。SPSS可以将回归结果列于输出窗口(Output),另外,可以将回归结果保存到数据表中。

确定系数的平方为:D-W检验值为0.682,F值为4235.224,通过显著性检验,表明x与y之间存在显著的线性关系。确定系数的平方数值高达0.997非常接近于1,说明该回归直线和样本观测值的拟合优度很好。

利用SPSS输出的各项指标估计未知参数值,并且进行回归方程的显著性检验,然后对回归方程进行预测及应用。

2.多元线性回归模型

3.可化为线性回归的曲线回归

在实际问题中,有许多回归模型的因变量y和自变量x之间并不是线性关系,但可以通过变量代换转化成对自变量的线性关系。在SPSS主菜单Analyze的Regression中选择曲线估计(Curve Estimation),把相应的因变量y与自变量x移入Dependent栏中的Independent栏,根据绘制的散点图选用不同的曲线。在Curve Estimation对话框中有11种曲线估计,其中可以转化成线性形式的函数有如下几种:线性(Linear),复合型(Compound),增长型(Growth),对数型(Logarithmic),S型,指数型(Exponential),双曲线(Inverse),Power,罗吉斯特(Logistic)。在Save子对话框中,可以保存置信度为95%的置信区间及预测值。同时,能够输出模型的预测曲线。然后和一元线性回归一样进行回归模型的各种分析即可。

总之,结合SPSS开展统计学教学,顺应了统计学发展的趋势及社会对统计人才的能力要求,能有效激发学生学习的积极性,切实提高学生应用统计方法解决实际问题的能力,强化统计学课程的教学效果。

参考文献:

[1]张克俭.SPSS软件在高职统计学教学中的应用[J].天津市经理学院学报,2010(2).

[2]苏玉霞.SPSS软件在统计学教学中的应用[J].电脑知识与技术,2010(31).

[3]喻平.SPSS在统计学教学中的应用[J].中国商家(上半月),2010(3).