上一页|下一页

广义线性模型

关于“广义线性模型”任务

您可以将广义线性模型视为传统线性模型的延伸。在广义线性模型中,通过非线性关联函数,总体的均值因线性预测变量而异。响应概率分布可以是指数分布系列中的任意一种。广义线性模型的示例包括带正态误差的典型线性模型、适用于二元数据的 Logistic 和 Probit 模型以及适用于多项式数据的对数线性模型。通过选择相应的关联函数和响应概率分布,可以将其他统计模型构造为广义线性模型。
“广义线性模型”任务提供广义线性模型的模型拟合和模型生成。该任务用于拟合指数系列中的正态、Poisson 和 Tweedie 等标准分布的模型。该任务还可用于拟合多项式模型以进行序数和列名型响应。该任务提供了向前选择、向后选择和逐步选择等方法。
注: 您必须使用 SAS/STAT 运行该任务。

示例:分析 Sashelp.Baseball 数据集

要创建此示例,请执行以下操作:
  1. 任务部分中,展开统计分析文件夹,然后双击广义线性模型。此时,系统会打开“广义线性模型”任务的用户界面。
  2. 数据选项卡中,选择 SASHELP.BASEBALL 数据集。
  3. 分布下拉列表中选择 Poisson。向下列角色分配列:
    角色
    列名
    响应
    响应变量
    nHome
    关联函数下拉列表中,选择对数
    解释变量
    分类变量
    League
    连续变量
    logSalary
  4. 点击模型选项卡。在变量框中,选择 LeaguelogSalary。点击,将这些添加为主效应。
  5. 要运行任务,点击 提交 SAS 代码
以下是结果的部分内容:
示例:部分结果

向角色分配数据

要运行“广义线性模型”任务,对于除二项式以外的其他所有分布类型,必须向响应变量角色分配列。如果选择二项式分布,则必须向事件数试验数角色分配一个响应变量或一对变量。
选项名称
说明
角色
响应
分布
指定模型分布。您可以从以下分布中选择:
  • 二项式
  • Gamma
  • 逆 Gaussian
  • 多项式
  • 负二项式
  • 正态
  • Poisson
  • Tweedie。如果您选择 Tweedie 分布,则可以指定 Tweedie 幂参数。此值必须大于 1.1 且小于等于 3.0。
  • 零膨胀负二项式
  • 零膨胀 Poisson
二项式分布的选项
响应数据包括事件和试验的数量
指定一对变量由事件和试验的响应数据组成。
事件数
指定包含事件数的列。
试验数
指定包含试验数的列。
响应
指定一个包含响应值的变量。
使用感兴趣的事件选项可以选择响应变量值,以表示要为其建模的事件。
注: 仅当没有选中响应数据由若干事件和试验组成复选框时,才可以使用响应角色和感兴趣的事件选项。
所有分布类型的选项
响应
指定包含响应数据的变量。对于大多数分布类型,您可以指定一个数值变量。
关联函数
指定模型的关联函数。可用的函数因选定的分布而异。
解释变量
分类变量
指定在分析中用于分组(分类)数据的变量。分类变量既可以是字符,也可以是数值。分类变量是指通过水平(而不是值)进入统计分析或统计模型的变量。将变量值与水平相关联的过程称为水平化。
效应参数化
编码
指定分类变量的参数化方法。设计矩阵列根据选定编码模式从分类变量中创建。
可以从以下编码模式中进行选择:
  • 效应编码可指定效应编码。
  • GLM 编码可指定小于满秩的引用单元格编码。此为默认编码模式。
  • 引用编码可指定引用单元格编码。
缺失值处理
如果满足以下任一条件,则观测会从分析中排除:
  • 如果模型中的任何变量包含缺失值
  • 如果任何分类变量包含缺失值(无论模型中是否使用分类变量)
连续变量
为回归模型指定独立协变量(回归变量)。如果没有指定连续变量,则此任务拟合仅包含截距的模型。
偏移变量
指定用作线性预测变量偏移的变量。偏移将作为系数已知为 1 的效应。具有偏移变量的缺失值的观测将从分析中排除。
其他角色
频数计数
指定包含每个观测的发生频数的数值列。
权重变量
指定用作对数据执行权重分析所需的权重的数值列。
分析分组依据
指定用作 BY 变量的列。

生成模型

生成模型的要求

默认情况下不会指定任何效应,使任务结果能够拟合仅含截距的模型。要指定效应,您必须向分类变量连续变量角色分配至少一个变量。可选择变量组合以创建交叉、嵌套、析因或多项式效应。
要创建模型,请使用模型选项卡上的模型生成器。在创建模型后,可以指定是否在模型中包括截距。

创建主效应

  1. 变量框中选择变量名称。
  2. 点击添加将变量添加到模型效应框中。

创建交叉效应(交互)

  1. 变量框中选择两个或更多变量。要选择多个变量,请按 Ctrl。
  2. 点击交叉

创建嵌套效应

嵌套效应通过在一个主效应或交叉效应后跟随一个包含在括号中的分类变量或分类变量列表来指定。主效应或交叉效应嵌套在括号中列出的效应内。以下是嵌套效应的示例:B(A)、C(B*A)、D*E(C*B*A)。在此示例中,B(A) 读作“A 嵌套在 B 中”。
  1. 模型效应框中,选择相应的效应名称。
  2. 点击嵌套。此时,系统会打开嵌套窗口。
  3. 选择要在嵌套效应中使用的变量。点击外部之内嵌套,指定如何创建嵌套效应。
    注: 只有选择分类变量时,才可以使用外部之内嵌套按钮。
  4. 点击添加

创建完全析因模型

  1. 变量框中选择两个或更多变量。
  2. 点击完全析因
例如,如果选择 Height、Weight 和 Age 变量,然后点击完全析因,系统将创建下列模型效应:Age、Height、Weight、Age*Height、Age*Weight、Height*、Weight 和 Age*Height*Weight。

创建 N 因子析因

  1. 变量框中选择两个或更多变量。
  2. 点击 N 因子析因将这些效应添加到模型效应框中。
例如,如果选择 Height、Weight 和 Age 变量,然后指定 N 值为 2,则点击 N 因子析因时,系统将创建下列模型效应:Age、Height、Weight、Age*Height、Age*Weight 和 Height*Weight。若为 N 设置的值大于该模型中变量的数量,则 N 有效地设置为变量的数量。

创建 N 阶多项式效应

  1. 变量框中选择一个变量。
  2. 通过调整 N 字段中的数字,指定较高次数的交叉项。
  3. 点击多项式阶数 = N,将多项式效应添加到模型效应框中。
例如,如果选择 Age 和 Height 变量,然后在 N 字段中指定 3,则当您点击多项式阶数 = N 时,系统会创建以下模型效应:Age、Age*Age、Age*Age*Age、Height、Height*Height 和 Height*Height*Height。

指定零膨胀模型的模型效应

如果在数据选项卡上将零膨胀负二项式零膨胀 Poisson 选作分布,则可以使用这些选项。
必须选择要创建的模型的类型:
  • 仅限截距模型。
  • 包括主模型效应的模型。您可以使用模型生成器定义这些模型效应。
  • 自定义模型。您可以在输入自定义模型文本框中指定这些效应。如果指定多个效应,请在各个效应之间添加一个空格。
如果选择在零膨胀模型中包括效应,请指定这些效应的关联函数。

设置选项

选项
说明
方法
离散度
为过度离散进行调整
通过尺度参数调整参数协方差矩阵和似然函数。对于离散度参数,可以选择 Pearson 估计或偏差估计。要定义子总体以便计算 Pearson 和偏差卡方拟合优度检验,请向此角色分配一个或多个变量。
注: 此选项仅适用于二项式和多项式分布。
估计离散度参数
可便于您为包含离散度参数的分布指定固定的离散度参数。默认情况下,此参数为估计参数。
注: 此选项不可用于二项式和多项式分布,而可用于其他分布类型。
优化
最大迭代数
为选定优化方法指定要执行的最大迭代数。
统计量
您可选择在输出中包含的统计量。统计量列表取决于所选分布。
下面是可以包括的其他统计量:
  • 1 型(顺序)分析
  • 3 型分析
  • 3 型对比的 Wald 统计量
  • 置信区间,如轮廓似然置信区间和 Wald 置信区间
  • 参数估计相关性
  • 参数估计协方差
  • 观测统计量,如影响诊断、预测值和置信区间以及残差
  • 分类效应的多重比较
  • 精确检验(仅适用于带 Logit 关联函数的二项式分布或带对数关联函数的 Poisson 分布)。
您可以选择在输出中显示的图。如果选择显示多个图,则可以单独显示这些图,也可以将这些图作为一个面板进行显示。
可用图列表取决于模型的类型。下面是可以在结果中包括的一些图:
  • 预测图
  • 影响图,如观测号-Cook D 和观测号-DFBETA
  • 残差、偏差残差、标准偏差残差、Pearson 残差、标准 Pearson 残差和似然残差的图。

设置输出选项

您可指定是否创建输出数据集。还可以指定要在输出数据集中包含的值。您可以在输出数据集中包括预测值、残差、影响统计量和线性预测变量的标准误差。
上一页|下一页|页首