多变量回归分析中的各个变量:都需要区分自变量与因变量。基本简介:多变量分析为统计方法的一种,包含了许多的方法,最基本的为单变量,再延伸出来的多变量分析。统计资料中有多个变量(或称因素、指标)同时存在时的统计分析,是统计学的重要分支,是单变量统计的发展。统计学中的多变量统计分析起源于医学和心理学。回归分析:当多个变量x1,x2,…,xm(称为回归变量或自变量、独立变量)同时影响某个指标 y(称为因变量或依赖变量)时,可进行回归分析,回归分析的第一个任务就是求回归变量对指标 y的影响的统计规律性(也称回归关系);第二个任务是寻找众多的回归变量中哪一些能对指标 y产生影响(常称为因素分析或变量的筛选);第三个任务(也称相关分析)是在固定(或称消除)其他变量的影响后,考察每一个回归变量对指标 y的相关程度(称为偏相关系数)。上述三个任务常是相互联系,可以同时完成。回归变量x1,x2,…,xm与因变量y之间最常见的统计关系有两大类型:线性模型和非线性模型。线性模型中假定y 的主要部分(记为),可由x1,x2,xm线性表示为其中b0,b1,b2,…,bm是未知常数,需用样本去估计,ε 是用取代y后的误差。这是最常用的模型,称为多重线性回归或多元线性回归。用样本估计线性回归模型中未知常数的方法也很多,经典的方法为最小二乘法,它的理论较为完善,此法较适用于回归变量之间的相关性不很大时。其他求未知常数b0,b1,b2,…,bm的方法还有岭回归、特征根回归、主成分回归等,它们常用于回归变量之间相关性很大时。非线性回归模型中y的主要部分与x1,x2,…,xm的关系为非线性函数:其中┃ 的形式已知,未知常数 α1,α2;…用样本去估计。医学中最常见的非线性回归是logistic回归,它常用于疾病对照研究以及生长发育问题中。在前述的炊事员高血压病调查中,使用线性模型和最小二乘法求出未知常数,再用逐步回归选取变量,可求得15个变量中有 7个变量对炊事员舒张压有显著的影响,它们按偏相关系数大小排列为:年龄 (0.297),体胖程度 (0.253),肾炎史(0.162),性别(0.117),工作类别(0.081),高血压家族史(0.061),嗜咸程度(0.052)。从相关性大小看,体胖对舒张压的影响与年龄的影响大体相当。另外还可看出:工种,家族史和嗜咸对舒张压虽有影响,但影响甚小。