上一页|下一页

广义线性模型

关于“广义线性模型”任务

广义线性模型任务是一个为广义线性模型提供模型拟合和模型构建的高性能任务。该任务用于拟合指数系列中的正态、Poisson 和 Tweedie 等标准分布的模型。该任务还可用于拟合多项式模型以进行序数和列名型响应。该任务提供了向前选择、向后选择和逐步选择等方法。
注: 只有当您运行的是 SAS 9.4(或更新版本)且拥有 SAS/ETS 时,此任务才可用。

示例:模型选择

要创建此示例,请执行以下操作:
  1. 创建 Work.getStarted 数据集。详细信息,请参见GETSTARTED 数据集
  2. 任务部分中,展开高性能统计分析文件夹,然后双击广义线性模型。此时,系统会打开“广义线性模型”任务的用户界面。
  3. 数据选项卡中选择 WORK.GETSTARTED 数据集。
  4. 向下列角色分配列:
    角色或选项名称
    列名
    分布
    Poisson
    响应变量
    Y
    分类变量
    C1
    C2
    C3
    C4
    C5
  5. 点击模型选项卡。在变量框中选择 C1–C5。点击添加
  6. 点击选择选项卡。在选择方法下拉列表中,选择向前选择
  7. 要运行任务,点击 提交 SAS 代码
以下是结果的部分内容:
性能信息、模型信息、选择信息和分类水平信息

向角色分配数据

要运行“广义线性模型”任务,必须向响应变量角色分配列。
选项名称
说明
角色
响应
分布
指定模型分布。您可以从下分布中选择:
  • 二项式
  • Gamma
  • 逆 Gaussian
  • 多项式
  • 负二项式
  • 正态
  • Poisson
  • Tweedie
二项式分布的选项
响应数据包括事件和试验的数量
指定数据是否是由一个指定正响应(事件)数的变量和另一个指定试验数的变量组成。
事件数
指定包含事件数的列。
试验数
指定包含试验数的列。
响应
指定包含响应值的变量。
如果您创建二项式响应模型,则可以使用感兴趣的事件选项将第一个或最后一个有序类别指定为引用类别。您还可以选择自定义类别。
注: 仅当没有选中响应数据由若干事件和试验组成复选框时,才可以使用此选项。
所有分布类型的选项
响应
指定包含响应值的变量。
如果您创建二项式响应模型或列名型多项式模型,则可以使用感兴趣的事件选项将第一个或最后一个有序类别指定为引用类别。您还可以选择自定义类别。
  • 要创建二项式响应模型,请选择二项式作为分布类型。对于二项式响应模型,将一个响应类别指定为引用类别与将其他响应类别指定为事件类别相同。
  • 要创建列名型多项式模型,请选择多项式作为分布类型,然后选择广义 Logit 作为关联函数。对于广义 logit 模型,每个具有引用类别的 logit 与非引用类别形成对比。
关联函数
指定模型的关联函数。可用的函数因选定的分布而异。
如果您为关联函数选择了默认值,那么将对模型分布使用默认关联函数。
下面列出了各种分布及相应的默认关联函数:
  • 二项式分布使用 Logit 关联函数。
  • Gamma 分布使用倒数关联函数。
  • 逆 Gaussian 分布使用平方倒数关联函数。
  • 多项式分布使用累积 Logit 关联函数。
  • 负二项式分布使用对数关联函数。
  • 正态分布使用恒等关联函数。
  • Poisson 分布使用对数关联函数。
  • Tweedie 分布使用对数关联函数。
解释变量
分类变量
指定在分析中用于分组(分类)数据的变量。分类变量既可以是字符,也可以是数值。
效应参数化
编码
指定分类变量的参数化方法。设计矩阵列根据选定编码模式从分类变量中创建。
可以从以下编码模式中进行选择:
  • GLM 编码可指定小于满秩的引用单元格编码。此为默认编码模式。
  • 引用编码可指定引用单元格编码。
缺失值处理
如果满足以下任一条件,则观测会从分析中排除:
  • 如果模型中的任何变量包含缺失值
  • 如果任何分类变量包含缺失值(无论模型中是否使用分类变量)
连续变量
为回归模型指定独立协变量(回归变量)。如果没有指定连续变量,则此任务拟合仅包含截距的模型。
偏移变量
指定用作线性预测变量偏移的变量。偏移将作为系数已知为 1 的效应。具有偏移变量的缺失值的观测将从分析中排除。
其他角色
频数计数
指定包含每个观测的发生频数的数值列。
权重变量
指定用作权重以执行数据加权分析的列。

生成模型

生成模型的要求

默认情况下不会指定任何效应,使任务结果能够拟合仅含截距的模型。要指定效应,您必须向分类变量连续变量角色分配至少一个变量。可选择变量组合以创建交叉、嵌套、析因或多项式效应。
要创建模型,请使用模型选项卡上的模型生成器。在创建模型后,可以指定是否在模型中包括截距。

创建主效应

  1. 变量框中选择变量名称。
  2. 点击添加将变量添加到模型效应框中。

创建交叉效应(交互)

  1. 变量框中选择两个或更多变量。要选择多个变量,请按 Ctrl。
  2. 点击交叉

创建嵌套效应

嵌套效应通过在一个主效应或交叉效应后跟随一个包含在括号中的分类变量或分类变量列表来指定。主效应或交叉效应嵌套在括号中列出的效应内。以下是嵌套效应的示例:B(A)、C(B*A)、D*E(C*B*A)。在此示例中,B(A) 读作“A 嵌套在 B 中”。
  1. 模型效应框中,选择相应的效应名称。
  2. 点击嵌套。此时,系统会打开嵌套窗口。
  3. 选择要在嵌套效应中使用的变量。点击外部之内嵌套,指定如何创建嵌套效应。
    注: 只有选择分类变量时,才可以使用外部之内嵌套按钮。
  4. 点击添加

创建完全析因模型

  1. 变量框中选择两个或更多变量。
  2. 点击完全析因
例如,如果选择 Height、Weight 和 Age 变量,然后点击完全析因,系统将创建下列模型效应:Age、Height、Weight、Age*Height、Age*Weight、Height*、Weight 和 Age*Height*Weight。

创建 N 因子析因

  1. 变量框中选择两个或更多变量。
  2. 点击 N 因子析因将这些效应添加到模型效应框中。
例如,如果选择 Height、Weight 和 Age 变量,然后指定 N 值为 2,则点击 N 因子析因时,系统将创建下列模型效应:Age、Height、Weight、Age*Height、Age*Weight 和 Height*Weight。若为 N 设置的值大于该模型中变量的数量,则 N 有效地设置为变量的数量。

创建 N 阶多项式效应

  1. 变量框中选择一个变量。
  2. 通过调整 N 字段中的数字,指定较高次数的交叉项。
  3. 点击多项式阶数 = N,将多项式效应添加到模型效应框中。
例如,如果选择 Age 和 Height 变量,然后在 N 字段中指定 3,则当您点击多项式阶数 = N 时,系统会创建以下模型效应:Age、Age*Age、Age*Age*Age、Height、Height*Height 和 Height*Height*Height。

设置模型选择选项

选项
说明
模型选择
选择方法
指定模型的选择方法。该任务将通过检查是应根据选择方法所定义的规则将效应添加到模型还是从模型删除进而执行模型选择。
下面是选择方法的有效值:
  • 可拟合完整模型。
  • 向前选择最初在模型中没有任何效应,然后根据将效应添加至模型的显著性水平选项来添加效应。
选择方法(续)
  • 向后消除最初在模型中添加所有效应,然后根据将效应从模型中删除的显著性水平选项中的值来删除效应。
  • 逐步选择类似于向前选择模型。但是,不必保留已经位于模型中的效应。基于将效应添加到模型的显著性水平选项将效应添加到模型中,并基于从模型中删除效应的显著性水平选项从模型中删除效应。
选择最佳模型的方法
指定用于识别最佳拟合模型的准则。
详细信息
选择过程详细信息
指定要包括在结果中的关于选择过程的信息量。可以显示汇总、选择过程每个步骤的详细信息或关于选择过程的全部信息。
维护效应层次
指定维护效应层次。

设置选项

选项
说明
方法
离散度
离散度参数
可便于您为包含离散度参数的分布指定固定的离散度参数。默认情况下,此参数为估计参数。
优化
方法
指定将使用的优化方法。
最大迭代数
为选定优化方法指定要执行的最大迭代数。
统计量
您可选择在输出中包含的统计量。
下面是可以包括的其他统计量:
  • 估计的置信限
  • 参数估计相关性
  • 参数估计协方差

设置输出选项

您可以指定是否创建输出数据集。还可以指定是否在输出数据集中包括预测值、残差或其他任何变量。
上一页|下一页|页首