上一页|下一页

“随机抽样”任务

关于“随机抽样”任务

随机抽样任务是执行简单随机抽样或分层抽样的高性能过程。该任务的输出包括输出数据集和抽样数据、包含性能信息的表,以及包含总体和抽样频数信息的表。

向角色分配数据

如果您希望执行分层抽样,必须向分层依据角色分配一列。另外,分层依据角色是可选项。
角色
说明
分层依据
指定用于将输入表划分为互斥、非重叠子集(称为层)的变量。每个层都由层变量的一组值定义,而且每个层都将单独抽样。完整的样本是从所有层提取的样本的集合。
注: 如果您不向该角色分配任何变量,那么整个输入表将被处理为单一层。
您可根据层的大小,在各个层之间按比例分配总样本大小。例如,变量 GENDER 有可能值 M 和 F,变量 VOTED 有可能值 Y 和 N。如果您将 GENDER 和 VOTED 分配给分组依据角色,那么输入表将被划分为四个层:已投票的男性、未投票的男性、已投票的女性和未投票的女性。
输入表包含 20,000 行,值的分布如下:
  • 7,000 名男性已投票
  • 4,000 名男性未投票
  • 5,000 名女性已投票
  • 4,000 名女性未投票
分层依据(续)
因此,已投票的男性比例为 7,000/20,000=0.35 或 35%。样本中的比例应该反映输入表中层的比例。例如,如果您的样本表包含 100 个观测,那么样本中 35% 的值必须从已投票的男性层中选择,以便在输入表中反映该比例。

创建输出数据集

您也可从输入数据集中选择要包含在输出数据中的数值型变量和字符型变量。选择包括全部输入观测和抽样指示符变量以生成与输入表中行数相同的输出表。输出表中有一个额外的分区指示符 (_PARTIND_),该指示符用于表示观测是 (1) 否 (0) 包含在样本中。

设置选项

选项名称
说明
方法
抽样依据
根据输入行所需的行数或百分比指定样本的大小。例如,如果您指定行数的 3%,且有 400 个输入行,则作为结果的样本将包含 12 行。
注: 如果您向分层依据角色分配变量,那么您在此处设定的样本大小规范将应用到每个层中,而非整个输入表中。
随机种子
指定用于生成随机数的初始种子。如果您将此值设置为零或负数,那么基于系统时钟的种子将用于生成样本。
忽略字符分层值的大小写
执行分层抽样时区分具有相同正规化值的分层变量。例如,如果某一目标有三个不同值“A”、“B”和“b”,而且您希望将“B”和“b”作为不同水平处理,那么您需要选择此选项。否则,“B”和“b”将被作为相同水平处理。该任务按照如下方式正规化值:
  1. 删除前导空格。
  2. 将值截断成 32 个字符。
  3. 字母从小写变成大写。
上一页|下一页|页首