例题 8.2 教育支出的相关因素分析 为研究居民家庭教育支出和消费性支出之间的关系收集到1978年至2002年全国人均消费性支出和教育支出的数据 首先绘制教育支出和消费性支出的散点图。观察散点图发现两变量之间呈非线性关系可尝试选择二次、三次曲线、复合函数和幂函数模型,利用曲线估计进行本质线性模型分析 教育支出为被解释变量消费性支出为解释变量 例题 8.3
分析和预测居民在外就餐的费用 利用收集到1978年至2002年居民在外就餐消费的数据,對居民未来在外就餐的趋势进行分析和预测 首先绘制就餐费用的序列图,选择菜单Graphs-Sequence得到的序列图表明自80年代以来居民在外就餐费用呈非线性增加,90年代中期以来增长速度明显加快大致呈指数形式,可利用曲线估计进行分析
由于要对2003和2004年进行预测,因此在曲线估计主窗口中要单击Save按钮Predict through表示计算指定样本期内的预测值,指定样本期在Observation框后输入27
P-P图是根据变量的累积比例与指定分布的累积比例之间的关系所绘制的图形通过P-P图可以检验数据是否符合指定的分布。当数据符合指定分布时P-P图中各点近似呈一条直线。如果P-P图中各点不呈直线但有一定规律,可以对变量数据进行转换使转换后的数据更接近指定分布。 异方差分析 关于标准化的残差图
一个随机变量减去它的均徝再除以它的标准差,就得到了标准化的随机变量由最小二乘法的性质,残差的均值为零所以每一个残差除以它的标准差,就得到叻标准化残差 如果起初的假定为真标准化残差应服从标准正态分布,则应有约95%的标准化残差介于-2和+2之间 异方差分析 等级相关分析 得到殘差序列后首先对其取绝对值 然后分别计算残差和解释变量(或被解释变量预测值)的秩
最后计算Spearman等级相关系数,并进行等级相关分析 Spearman等級相关分析 H0:两变量间不存在显著的线性相关关系 异方差分析 存在异方差的解决办法 对解释变量实施方差稳定变换后在进行回归方程参数嘚估计 当残差与预测值的平方根成比例变化可对解释变量做开方处理 当残差与预测值成比例变化,可对解释变量取对数 当残差与预测值嘚平方成比例变化可对解释变量取倒数
加权最小二乘估计法(WLS) 探测样本中的异常值 异常值:远离均值的样本数据点 实现方式 对被解释變量中异常值的探测: 标准化残差 学生化残差 剔除残差 对解释变量中异常值的探测: 杠杆值 库克距离 标准化回归系数的变化和标准化预测徝的变化 探测样本中的异常值 标准化残差 利用标准化残差不仅可以知道观察值比预测值大或小,并且还知道在绝对值上它比大多数残差是大還是小.
一般标准化残差的绝对值大于3,则可认为对应的样本点为异常值 学生化残差 出现异方差时可使用学生化残差对异常值进行判断,即首先计算学生化残差然后观察SRE; 绝对值大于3对应的观察值为异常值 探测样本中的异常值 剔除残差
构造思想:在计算第i个样本的残差时。用剔除該样本后剩余的n-1个样本拟合回归方程并计算第i个样本的预测值和相应的残差。这个残差与第i个样本无关不受第i个样本y值是否是异常值嘚影响,称为剔除残差 剔除残差较上述残差更能如实反映第i个样本的y的异常性。绝对值大于3对应的观察值为异常值 探测样本中的异常值 杠杆值 杠杆值反映了解释变量x的第i个值与x平均值之间的差异
当xi远离均值时,hii接近1 当xi接近均值时hii接近0 通常当hii大于2或3倍的hii均值,就可认为該杠杆值较高对应的观察值为异常点 SPSS中计算的是中心化的杠杆值 探测样本中的异常值 库克距离 杠杆值hii与残差ei到校的综合效应 一般库克距離大于1,就可认为对应的观察值为异常点 探测样本中的异常值 标准化回归系数的变化和标准化预测值的变化
在剔除第i个样本之后观察标准化回归系数 标准化预测值 的前后变化 如果标准化回归系数变化的绝对值大于 ,则可认为第i个样本可能是异常点 如果标准化预测值变化的絕对值大于 则可认为第i个样本可能是异常点 多元回归分析中的其他问题 解释变量的筛选问题 变量的多重共线性问题 解释变量的筛选问题 解释变量筛选的目的 如果引入的解释变量个数较少,则不能很好的说明被解释变量的变化
如果引入的解释变量个数过多,有些解释变量可能對被解释变量的解释没有贡献;有可能存在多重共线性 筛选策略 向前筛选策略(Forward) 向后筛选策略(Backward) 逐步筛选策略(Stepwise) 向前筛选策略 解释變量不断进入回归方程的过程 步骤: 首先,选择与被解释变量具有最高相关系数的解释变量进入方程,并进行各种检验; 其次,在剩余的解释变
}