“二元 Logistic 回归”任务

关于“二元 Logistic 回归”任务

示例：将电子邮件归类为垃圾邮件

向角色分配数据

生成模型

关于“二元 Logistic 回归”任务

二元 Logistic 回归任务用于拟合 logistic 回归模型以调查二元水平的离散响应和解释变量集之间的关系。

示例：将电子邮件归类为垃圾邮件

要创建此示例，请执行以下操作：

在任务部分，展开统计分析文件夹，并双击二元 Logistic 回归。此时将打开二元 Logistic 回归任务的用户界面。
在数据选项卡中，选择 SASHELP.JUNKMAIL 数据集。

将列分配至以下角色并指定以下选项：

角色	列名
响应	分类
感兴趣的事件	1
连续变量	叹号 CapAvg

点击模型选项卡。选择叹号和 CapAvg 变量，并点击添加。
要运行任务，点击。

向角色分配数据

要运行二元 Logistic 回归任务，您必须将列分配至响应变量，并将一列分配至分类变量角色或连续变量角色。

角色	说明
角色
响应
响应数据由若干事件和试验组成	指定响应数据是否由事件和试验组成。
事件数	指定包含每个观测的事件数的变量。
试验数	指定包含每个观测的试验数的变量。
响应	指定包含响应数据的变量。要执行二元 logistic 回归，响应变量应该仅包括两个水平。使用感兴趣的事件下拉列表选择二元响应模型的事件类别。
关联函数	指定将响应概率与线性预测变量相关联的关联函数。下面是有效值：互补双对数是互补双对数函数。 Probit 是逆标准正态分布函数。 Logit 是对数优比函数。
解释变量
分类变量	指定要在分析中使用的分类变量。分类变量是指通过水平（而不是值）进入统计分析或统计模型的变量。将变量值与水平相关联的过程称为水平化。
效应参数化
编码	指定分类变量的参数化方法。设计矩阵列根据选定编码模式从分类变量中创建。您可以从以下编码模式中选择：效应编码可指定效应编码。 GLM 编码可指定小于满秩的引用单元格编码。此为默认编码模式。引用编码可指定引用单元格编码。
缺失值的处理
如果满足以下任一条件，则观测会从分析中排除：如果模型中的任何变量包含缺失值如果任何分类变量包含缺失值（无论模型是否使用分类变量）
连续变量	指定在分析中用作解释变量的连续变量。
其他角色
频数计数	指定包含每个观测的发生频数的变量。该任务处理每个观测时，如同观测已出现 n 次一样，其中 n 是该观测的变量值。
权重变量	指定每个观测在输入数据集中的权重。
分析分组依据	根据 BY 变量的数量创建单独分析。

生成模型

创建主效应

在变量框中选择变量名称。
点击添加将变量添加到模型效应框中。

创建交叉效应（交互）

在变量框中选择两个或更多变量。要选择多个变量，请按 Ctrl。
点击交叉。

创建嵌套效应

嵌套效应通过在一个主效应或交叉效应后跟随一个包含在括号中的分类变量或分类变量列表来指定。主效应或交叉效应嵌套在括号中列出的效应内。以下是嵌套效应的示例：B(A)、C(B*A)、D*E(C*B*A)。在此示例中，B(A) 读作“A 嵌套在 B 中”。

在模型效应框中，选择相应的效应名称。
点击嵌套。此时，系统会打开嵌套窗口。
选择要在嵌套效应中使用的变量。点击外或外部之内嵌套，指定如何创建嵌套效应。

注: 只有当您选择分类变量时，才可以使用外部之内嵌套按钮。
点击添加。

创建完全析因模型

在变量框中选择两个或更多变量。
点击完全析因。

例如，如果您选择 Height、Weight 和 Age 变量，然后点击完全析因，系统将创建下列模型效应：Age、Height、Weight、Age*Height、Age*Weight、Height*、Weight 和 Age*Height*Weight。

创建 N 因子析因

在变量框中选择两个或更多变量。
点击 N 因子析因将这些效应添加到模型效应框中。

例如，如果您选择 Height、Weight 和 Age 变量，然后指定 N 值为 2，那么当您点击 N 因子析因时，系统将创建下列模型效应：Age、Height、Weight、Age*Height、Age*Weight 和 Height*Weight。若为 N 设置的值大于该模型中变量的数量，则 N 有效地设置为变量的数量。

创建 N 阶多项式效应

在变量框中选择一个变量。
通过调整 N 字段中的数字，指定较高次数的交叉项。
点击多项式阶数 = N，将多项式效应添加到模型效应框中。

例如，如果您选择 Age 和 Height 变量，然后在 N 字段中指定 3，那么当您点击多项式阶数 = N 时，系统会创建以下模型效应：Age、Age*Age、Age*Age*Age、Height、Height*Height 和 Height*Height*Height。

设置模型选项

选项	说明
模型
在模型中包括截距	指定是否在模型中包括截距。
偏移变量	指定用作线性预测变量偏移的变量。偏移将作为系数已知为 1 的效应。具有偏移变量的缺失值的观测将从分析中排除。

指定模型选择选项

选项	说明
模型选择
选择方法	指定模型的模型选择方法。该任务将通过检查是应根据选择方法所定义的规则将效应添加到模型还是从模型删除进而执行模型选择。下面是选择方法的有效值：无可拟合完全模型。向前选择最初在模型中没有任何效应，然后根据将效应添加至模型的显著性水平选项来添加效应。向后消除最初在模型中添加所有效应，然后根据将效应从模型中删除的显著性水平选项中的值来删除效应。
选择方法（续）	快速向后消除使用 Lawless 和 Singhal (1978) 计算算法。该算法计算每个模型后续消除个变量的剩余斜率估计的一阶近似。变量基于这些近似估计从模型中删除。因该模型并非重新拟合每个删除的变量，所以盖选择方法的效率极高。逐步选择类似于向前选择模型。但是，不必保留已经位于模型中的效应。基于将效应添加到模型的显著性水平选项将效应添加到模型中，并基于从模型中删除效应的显著性水平选项从模型中删除效应。带快速向后消除的逐步选择使用 Lawless 和 Singhal 计算算法。该算法计算与每个变量从模型后续消除的其余斜率估计的一阶近似。变量从基于这些近似估计的模型中删除。因该模型并非重新拟合每个删除的变量，所以盖选择方法的效率极高。
详细信息
显示选择过程详细信息	指定要包括在结果中的关于选择过程的信息量。您可以选择显示汇总、选择过程每个步骤的详细信息，或关于选择过程的全部信息。
维护效应层次	指定模型层次要求的应用方式以及每次仅单一效应或多个效应可以进入或离开模型。例如，假设您在模型中指定主效应 A 和 B 与交互效应 AB。在选择过程的第一步中，A 或 B 其中一个进入模型。在第二步中，另一个主效应进入模型。仅当两个主效应均已进入模型后，交互效应才可以进入模型。而且，从模型中删除 A 或 B 之前，必须先删除 AB 交互。模型层次指以下要求：对于任意将进入模型的项，项中所包含的所有效应必须呈现在模型中。例如，若交互 AB 要进入模型，则主效应 A 和 B 必须在模型中。同样，当交互 AB 在模型中时，效应 A 和 B 都无法离开模型。

设置选项

选项名称	说明
统计量注: 除了可以在结果中包括默认统计量，您还可以选择添加其他统计量。
分类表	根据预测事件概率是高于还是低于范围中的分界值 z 对输入二元响应观测进行分类。若预测事件概率等于或超过 z，则观测作为事件预测。
偏相关	计算偏相关统计量 $open , beta sub i , close . square root of fraction chi sub i and super 2 , minus 2 , over negative 2 log of , l sub 0 end fraction end root. 点击备用格式的图像。$ （针对每个参数 i），其中 X²_i 是指参数的 Wald 卡方统计量，log L₀ 是指仅限截距模型的对数似然 (Hilbe 2009)。如果 X²_i < 2，则偏相关设置为 0。
广义 R 方	请求拟合模型的广义 R 方测度。
拟合优度和过度分散
偏差和 Pearson 拟合优度	指定是否计算偏差和 Pearson 拟合优度。
聚合依据	指定计算 Pearson 卡方检验统计量和似然比卡方检验统计量（偏差）的子总体。给定变量列表中具有公共值的观测视为来自相同的子总体。列表中的变量可以是输入数据集中的任何变量。
过度分散校正	指定是否通过使用偏差或 Pearson 估计来校正过度分散。
Hosmer-Lemeshow 拟合优度	对二元响应模型的情况执行 Hosmer-Lemeshow 拟合优度检验（Hosmer-Lemeshow 2000）。基于估计概率的百分位数将主题大约分为相同大小的 10 组。这些组中观测的观测数和期望数之间的差异由 Pearson 卡方统计量进行汇总。然后该统计量与自由度为 t 的卡方分布进行比较，其中 t 为组数减去 n。默认情况下，n = 2。p 值较小意味着拟合模型并非适当模型。
多重比较
执行多重比较	指定是否计算并比较固定效应的最小二乘均值。
选择要检验的效应	指定您要比较的效应。在模型选项卡上指定这些效应。
方法	请求 p 值的多个比较调整和最小二乘均值差的置信限。以下是有效方法：Bonferroni、Nelson、Scheffé、Sidak 和 Tukey。
显著性水平	请求对每个置信水平为 1 – number 的最小二乘均值构造 t 类型置信区间。number 的值必须介于 0 到 1 之间。默认值为 0.05。
精确检验
截距的精确检验	计算截距的精确检验。
选择要检验的效应	计算选定效应的参数的精确检验。
显著性水平	指定显著性水平（针对参数或优比的置信限）。
参数估计
您可以计算下面这些参数估计：标准估计指数估计参数估计相关性参数估计协方差您可以指定参数的置信区间、优比的置信区间以及这些估计的置信水平。
诊断
影响诊断	显示用于标识影响观测的诊断测度。每个观测的结果包括观测的序号、最终模型中包括的解释变量值和 Pregibon 提出的回归诊断测度（1981）。您可以指定是否在结果中包括标准和似然残差。
图
您可选择是否在结果中包括图。下面是您可以在结果中包括的其他图：观测号-标准 DFBETA 观测号-影响统计量对模型拟合和参数估计的影响预测概率图效应图优比图 ROC 图您可以指定是在面板中显示这些图还是单独显示这些图。
标签影响和 ROC 图	指定包含影响标签和 ROC 图的输入数据中的变量。
最大图点数	指定可以在图中包括的点数上限。系统默认显示 5,000 点。
方法
优化
方法	指定估计回归参数的优化方法。Fisher 评分和 Newton-Raphson 算法得到相同的估计，但是除为二元响应数据指定 Logit 关联函数外，估计的协方差矩阵略微不同。
最大迭代数	指定要执行的最大迭代数。若未达到指定迭代数量中的收敛，则显示的输出和所有由任务创建的输出数据集都将包含基于最后的最大似然迭代的结果。

创建输出数据集

选项名称	说明
输出数据集
您可创建两类输出数据集。选中要创建的各个数据集所对应的复选框。创建输出数据集输出包含指定统计量的数据集。下面是您可以在输出数据集中包含的统计量：线性预测变量预测值预测值的置信限 Pearson 残差偏差残差似然残差标准 Pearson 残差标准偏差残差删除单个观测后卡方拟合优度的变化删除单个观测后偏差的变化杠杆率标准 DFBETA 线性预测变量的标准误差每个响应水平的预测概率创建评分数据集输出包含输出数据集中所有统计量以及后验概率的数据集。
将 SAS 评分代码添加到日志	将计算拟合模型预测值的 SAS DATA 步代码写入文件或目录条目。该代码即可包含在 DATA 步中为新数据评分。