上一页|下一页

“线性回归”任务

关于“线性回归”任务

“线性回归”任务拟合线性模型,以预测源自一个或多个连续预测变量或分类预测变量的单个连续因变量。此任务生成用于解释结果的相关统计量和图形。
注: 您必须使用 SAS/STAT 运行该任务。

示例:根据学生的身高预测体重

在该示例中,您希望使用回归分析确定在知道儿童身高的情况下预测儿童体重的准确性。
要创建此示例,请执行以下操作:
  1. 任务部分中,展开统计分析文件夹,并双击线性回归。此时将打开“线性回归”任务的用户界面。
  2. 数据选项卡中,选择 SASHELP.CLASS 数据集。
  3. 向下列角色分配列:
    角色
    列名
    因变量
    Weight
    分类变量
    Sex
    连续变量
    Age
    Height
  4. 点击模型选项卡并创建以下模型:
    1. 选择 Height 变量,然后按 Ctrl 键并选择 Age 变量。点击添加
    2. 选择 Height 变量,然后按 Ctrl 键并选择 Sex 变量。点击交叉
    在模型生成器中创建此示例的模型
  5. 要运行任务,点击 提交 SAS 代码
以下是结果的部分内容:
示例:线性回归表式结果
体重的预测值-观测值图形
示例:线性回归中的体重拟合诊断

向角色分配数据

要运行线性回归任务,您必须将列分配至因变量角色,并将一列分配至分类变量角色或连续变量角色。
角色
说明
角色
因变量
指定用作回归分析的因变量的数值变量。您必须向此角色分配数值变量。
分类变量
指定通过设计矩阵编码进入回归模型的分类变量。
效应参数化
编码
指定分类变量的参数化方法。设计矩阵列根据选定编码模式从分类变量中创建。
可以从以下编码模式中进行选择:
  • 效应编码可指定效应编码。
  • GLM 编码可指定小于满秩的引用单元格编码。此为默认编码模式。
  • 引用编码可指定引用单元格编码。
缺失值处理
如果满足以下任一条件,则观测会从分析中排除:
  • 如果模型中的任何变量包含缺失值
  • 如果任何分类变量包含缺失值(无论模型中是否使用分类变量)
连续变量
指定回归模型的数值协变量(回归变量)。
其他角色
频数计数
列出其值代表观测频数的数值型变量。如果向此角色分配一个变量,则任务将假设每个观测代表 n 个观测,其中 n 表示频数变量值。如果 n 不是整数,则 SAS 会将其截断。如果 n 小于 1 或缺失,则系统会从分析中排除观测。频数变量的总和代表总观测数。
权重
指定用作对数据执行权重分析所需的权重的变量。
分析分组依据
指定创建每组观测的单独分析。

生成模型

生成模型的要求

要指定效应,您必须向分类变量连续变量角色分配至少一列。可选择变量组合以创建交叉、嵌套、析因或多项式效应。也可指定是否在模型中包括截距。
要创建模型,请使用模型选项卡上的模型生成器。

创建主效应

  1. 变量框中选择变量名称。
  2. 点击添加将变量添加到模型效应框中。

创建交叉效应(交互)

  1. 变量框中选择两个或更多变量。要选择多个变量,请按 Ctrl。
  2. 点击交叉

创建嵌套效应

嵌套效应通过在一个主效应或交叉效应后跟随一个包含在括号中的分类变量或分类变量列表来指定。主效应或交叉效应嵌套在括号中列出的效应内。以下是嵌套效应的示例:B(A)、C(B*A)、D*E(C*B*A)。在此示例中,B(A) 读作“A 嵌套在 B 中”。
  1. 模型效应框中,选择相应的效应名称。
  2. 点击嵌套。此时,系统会打开嵌套窗口。
  3. 选择要在嵌套效应中使用的变量。点击外部之内嵌套,指定如何创建嵌套效应。
    注: 只有选择分类变量时,才可以使用外部之内嵌套按钮。
  4. 点击添加

创建完全析因模型

  1. 变量框中选择两个或更多变量。
  2. 点击完全析因
例如,如果选择 Height、Weight 和 Age 变量,然后点击完全析因,系统将创建下列模型效应:Age、Height、Weight、Age*Height、Age*Weight、Height*、Weight 和 Age*Height*Weight。

创建 N 因子析因

  1. 变量框中选择两个或更多变量。
  2. 点击 N 因子析因将这些效应添加到模型效应框中。
例如,如果选择 Height、Weight 和 Age 变量,然后指定 N 值为 2,则点击 N 因子析因时,系统将创建下列模型效应:Age、Height、Weight、Age*Height、Age*Weight 和 Height*Weight。若为 N 设置的值大于该模型中变量的数量,则 N 有效地设置为变量的数量。

创建 N 阶多项式效应

  1. 变量框中选择一个变量。
  2. 通过调整 N 字段中的数字,指定较高次数的交叉项。
  3. 点击多项式阶数 = N,将多项式效应添加到模型效应框中。
例如,如果选择 Age 和 Height 变量,然后在 N 字段中指定 3,则当您点击多项式阶数 = N 时,系统会创建以下模型效应:Age、Age*Age、Age*Age*Age、Height、Height*Height 和 Height*Height*Height。

设置模型选项

选项名称
说明
方法
置信水平
指定用于置信区间构造的显著性水平。
统计量
您可以选择在结果中包括默认统计量或其他统计量。
参数估计
标准化回归系数
显示标准化回归系数。标准化回归系数通过将参数估计除以因变量样本标准差与回归变量样本标准差的比率计算得出。
估计的置信限
显示参数估计的 100 open 1 minus alpha close percent. 点击备用格式的图像。 置信上限和下限。
平方和
顺序平方和(I 型)
显示模型中每个项的顺序平方和(I 型平方和)和参数估计。
部分平方和(II 型)
显示模型中每个项的部分平方和(II 型平方和)和参数估计。
偏相关和半偏相关
偏相关的平方
显示使用 I 型和 II 型平方和计算得出的偏相关的平方系数。
半偏相关的平方
显示使用 I 型和 II 型平方和计算得出的半偏相关的平方系数。该值采用平方和除以校正总平方和计算得出。
诊断
影响分析
请求每个观测对估计和预测值的影响的详细分析。
残差分析
请求进行残差分析。结果包括输入数据和估计模型的预测值、预测均值和偏差值的标准误差、学生化残差和 Cook D 统计量,从而衡量每个观测对参数估计的影响。
预测值
根据输入数据和估计模型计算预测值。
多重比较
执行多重比较
指定是否计算并比较固定效应的最小二乘均值。
选择要检验的效应
指定要比较的效应。您曾在模型选项卡上指定这些效应。
方法
请求p值的多个比较调整和最小二乘均值差异的置信限。以下是有效方法:BonferroniNelsonSchefféSidakTukey
显著性水平
请求对每个置信水平为 1 – 数字 的最小二乘均值构造t类型置信区间。数值必须介于 0 和 1 之间。默认值为 0.05。
共线性
共线性分析
获取回归变量之间的详细的共线性分析。包括特征值、条件指数和有关每个特征值的估计的方差分解。
估计的容差值
生成估计的容差值。将变量容差值定义为 1 minus , r squared. 点击备用格式的图像。,其中 R 方是通过对此变量与模型中其他所有回归变量进行回归分析计算得出。
方差膨胀因子
生成具有参数估计的方差膨胀因子。方差膨胀是容差的倒数。
异方差性
异方差性分析
执行检验,以确认是否正确指定模型的第一个矩和第二个矩。
渐近协方差矩阵
在异方差性假设和异方差性一致的参数估计的标准误差下显示估计的渐近协方差矩阵。
诊断图和残差图
默认情况下,结果中包含多个诊断图。也可以指定是否包含每个解释变量的残差图。
其他诊断图
预测值-RStudent 统计量
预测值学生化残差图。如果选择为极值点添加标签选项,则学生化残差位于带外且在参考线 r s t u d e n t equals plus minus 2. 点击备用格式的图像。 之间的观测值被视为离群值。
按观测的 DFFITS 统计量
绘制按观测号划分的 DFFITS 统计量图。如果选择为极值点添加标签选项,则 DFFITS 统计量在量值上大于 2 , square root of p over n end root. 点击备用格式的图像。 的观测被视为有影响。使用的观测号为n,回归变量数为p
依据每个解释变量观测号的 DFBETAS 统计量
生成模型中依据回归变量观测号的 DFBETAS 面板。您可将这些图作为面板查看,也可作为单个图查看。如果选择为极值点添加标签选项,则 DFFITS 统计量在量值上大于 fraction 2 , over square root of n end fraction. 点击备用格式的图像。 的观测值被视为对该回归变量有影响。所使用的观测数为 n
为极值点添加标签
识别每个不同类型图的极值。
散点图
单个连续变量的拟合图
生成数据与模型(包含一个连续变量)的回归线、置信带、预测带重叠的散点图。截距不包含在内。当点数超过最大图点数选项的值时,将显示热图而非散点图。
依据预测值的观测值
生成观测值与预测值的散点图
每个解释变量的偏回归
生成每个回归变量的偏回归。如果在面板中显示这些图,则每个面板最多显示六个回归变量。
最大图点数
指定包含于每个图中的最大点数。

设置模型选择选项

选项
说明
模型选择
选择方法
指定模型的模型选择方法。该任务将通过检查是应根据选择方法所定义的规则将效应添加到模型还是从模型删除进而执行模型选择。
下面是选择方法的有效值:
  • 可拟合完整模型。
  • 向前选择最初在模型中没有任何效应,然后根据指定准则的值来添加效应。
  • 向后消除最初在模型中添加所有效应,然后根据指定准则的值来删除效应。
  • 逐步选择类似于向前选择模型。但是,不必保留已经位于模型中的效应。基于指定准则的值将效应添加至模型。
添加/删除效应
指定用于向模型添加效应或从中删除效应的准则。
停止添加/删除效应
指定用于停止添加或从模型中删除效应的准则。
选择最佳模型的方法
指定用于识别最佳拟合模型的准则。
选择统计量
模型拟合统计量
指定要在拟合汇总表和拟合统计量表中显示的模型拟合统计量。若选择默认拟合统计量,在这些表中显示的统计量的默认设置包括所有用于模型选择的准则。
下面是可以在结果中包括的其他拟合统计量:
  • 调整 R 方
  • Akaike 信息准则
  • 为小样本偏差校正的 Akaike 信息准则
  • Bayesian 信息准则
  • Mallows Cp
  • Press 统计量(指定预测残差平方和统计量)
  • R 方
  • Schwarz Bayesian 信息准则
选择图
准则图
显示以下准则的图:调整 R 方、Akaike 的信息准则、小样本偏差的校正的 Akaike 信息准则和用于选择最佳拟合模型的准则。
系数图
显示以下图:
  • 显示选择过程期间的参数值进度的图
  • 显示用于选择最佳拟合模型的准则进度的图
详细信息
选择过程详细信息
指定要包括在结果中的关于选择过程的信息量。可以显示汇总、选择过程每个步骤的详细信息或关于选择过程的全部信息。

创建输出数据集

您可指定是否创建观测范畴的统计量数据集。此数据集包含平方和与叉积。
还可以选择在输出数据集中包括以下统计量:
  • 预测值
  • press 统计量,即除以 open 1 minus h close. 点击备用格式的图像。 的第 i 个残差,其中 h 是杠杆率,且该模型未使用第 i 个观测重新拟合。
  • 残差
  • 学生化残差(用残差除以标准误差)
  • 删除了当前观测的学生化残差
  • Cook D 影响
  • 观测对 Beta 协方差的标准影响
  • 观测对预测值的标准影响(称为 DFFITS)
  • 杠杆率
上一页|下一页|页首