“随机抽样”任务

关于“随机抽样”任务

随机抽样任务是执行简单随机抽样或分层抽样的高性能过程。该任务的输出包括输出数据集和抽样数据、包含性能信息的表，以及包含总体和抽样频数信息的表。

注: 您必须使用 SAS/STAT 运行该任务。

如果您希望执行分层抽样，必须向分层依据角色分配一列。另外，分层依据角色是可选项。

角色	说明
分层依据	指定用于将输入表划分为互斥、非重叠的子集（称为层）的变量。每个层都由层变量的一组值定义，而且每个层都将单独抽样。完整的样本是从所有层提取的样本的集合。注: 如果不向该角色分配任何变量，则整个输入表将被处理为单一层。可根据层的大小，在各个层之间按比例分配总样本大小。例如，变量 GENDER 有可能值 M 和 F，变量 VOTED 有可能值 Y 和 N。如果将 GENDER 和 VOTED 分配给分组依据角色，则输入表将被划分为四个层：已投票的男性、未投票的男性、已投票的女性和未投票的女性。输入表包含 20,000 行，值的分布如下： 7,000 名男性已投票 4,000 名男性未投票 5,000 名女性已投票 4,000 名女性未投票
分层依据（续）	因此，已投票的男性比例为 7,000/20,000=0.35 或 35%。样本中的比例应该反映输入表中层的比例。例如，如果样本表包含 100 个观测，那么样本中 35% 的值必须从已投票的男性层中选择，以便在输入表中反映该比例。

角色

说明

分层依据

指定用于将输入表划分为互斥、非重叠的子集（称为层）的变量。每个层都由层变量的一组值定义，而且每个层都将单独抽样。完整的样本是从所有层提取的样本的集合。

注: 如果不向该角色分配任何变量，则整个输入表将被处理为单一层。

可根据层的大小，在各个层之间按比例分配总样本大小。例如，变量 GENDER 有可能值 M 和 F，变量 VOTED 有可能值 Y 和 N。如果将 GENDER 和 VOTED 分配给分组依据角色，则输入表将被划分为四个层：已投票的男性、未投票的男性、已投票的女性和未投票的女性。

输入表包含 20,000 行，值的分布如下：

分层依据（续）

因此，已投票的男性比例为 7,000/20,000=0.35 或 35%。样本中的比例应该反映输入表中层的比例。例如，如果样本表包含 100 个观测，那么样本中 35% 的值必须从已投票的男性层中选择，以便在输入表中反映该比例。

在数据选项卡中，可从输入数据集中选择要包含在输出数据中的数值型变量和字符型变量。选择包括全部输入观测和抽样指示符变量以生成与输入表中行数相同的输出表。输出表中有一个额外的分区指示符 (_PARTIND_)，该指示符用于表示观测是 (1) 否 (0) 包含在样本中。

查看结果中的全部或者部分输出数据集，选择显示输出数据。

选项名称	说明
方法
抽样依据	根据需要的行数或输入行百分比指定样本的大小。例如，如果您指定行数的 3%，且有 400 个输入行，则作为结果的样本将包含 12 行。注: 如果您向分层依据角色分配变量，则在此处设定的样本大小规范将应用到每个层中，而非整个输入表中。
随机种子	指定用于生成随机数的初始种子。如果将此值设置为零或负数，则基于系统时钟的种子将用于生成样本。
忽略字符分层值的大小写	执行分层抽样时区分具有相同正规化值的分层变量。例如，如果某一目标有三个不同值“A”、“B”和“b”，而且您希望将“B”和“b”作为不同水平处理，则需要选择此选项。否则，“B”和“b”将被作为相同水平处理。该任务按照如下方式正规化值：删除前导空格。将值截断成 32 个字符。字母从小写变成大写。