上一页|下一页

“随机抽样”任务

关于“随机抽样”任务

“随机抽样”任务创建一个输出表,其中包含从输入表中随机抽取的行。
当您需要数据子集时,您可能使用该任务。例如,假设您希望审计员工的差旅费用,以改进费用报告过程并减少开支。由于您并没有检查所有费用报表的资源,因此您可使用统计抽样的方法来客观地选择费用报表进行审计。

示例:创建 Sashelp.Pricedata 数据集的随机抽样

在此示例中,您希望创建 Sashelp.Pricedata 数据集中数据的子集。
要创建此示例,请执行以下操作:
  1. 任务部分,展开数据文件夹,并双击随机抽样。此时将打开“随机抽样”任务的用户界面。
  2. 数据选项卡中,选择 SASHELP.PRICEDATA 数据集。
  3. 要运行任务,点击 提交 SAS 代码
下面是表式结果:
SURVEYSELECT 过程的结果
此任务还在 Work 逻辑库中创建抽样数据集。在 SAS Studio 中,此数据集在 WORK.RandomSample 选项卡中打开。
Sashelp.Pricedata 数据集中的十个抽样行

向角色分配数据

对于随机抽样任务,您必须指定一个输入数据源。运行该任务不需要角色。
角色
说明
输出列
指定包含于输出表中的变量。默认情况下,所有变量都将包含在输出表中。但是,您可选择在输出中包含的变量。
层列
指定用于将输入表划分为互斥、非重叠的子集(称为层)的变量。每个层都由层变量的一组值定义,而且每个层都将单独抽样。完整的样本是从所有层提取的样本的集合。
注: 如果您不向该角色分配任何变量,那么整个输入表将被处理为单一层。
您可根据层的大小,在各个层之间按比例分配总样本大小。例如,变量 GENDER 有可能值 M 和 F,变量 VOTED 有可能值 Y 和 N。如果您将 GENDER 和 VOTED 分配给层列角色,那么输入表将被划分为四个层:已投票的男性、未投票的男性、已投票的女性和未投票的女性。
输入表包含 20,000 行,值的分布如下:
  • 7,000 名男性已投票
  • 4,000 名男性未投票
  • 5,000 名女性已投票
  • 4,000 名女性未投票
因此,已投票的男性比例为 7,000/20,000=0.35 或 35%。样本中的比例应该反映输入表中层的比例。例如,如果您的样本表包含 100 个观测,那么样本中 35% 的值必须从已投票的男性层中选择,以便在输入表中反映该比例。

设置选项

选项名称
说明
样本大小
根据需要的行数或输入行百分比指定样本的大小。例如,如果您指定行数的 3%,且有 400 个输入行,则作为结果的样本将包含 12 行。
注: 如果您向层列角色分配变量,那么您在此处设定的样本大小规范将应用到每个层中,而非整个输入表中。
抽样方法
指定对数据进行抽样时使用的方法。下面是有效值:
简单(无重复)
指定在对输入数据进行抽样时使用简单方法。选取一行后,在后续选取中会排除此行。因此,您不能重复选择同一行。
不受限制(允许重复)
指定在对输入数据进行抽样时使用不受限制的方法。选取一行后,该行仍将有效,在后续选取中仍会选取该行。因此,您也许可以不止一次选择相同行。您可指定在输出表中记录相同行的多个选择的方式。
您可从下列选项中进行选择:
在输出中显示每个观测一次(不包括重复)
n 次选择的行在抽样中仅显示一次。在输出中,NumberHits 变量(由随机抽样任务自动计算)将列出输入表中出现观测的次数。
在输出中显示所有观测(包括重复)
n 次选择的行在抽样中显示 n 次。
输出数据集的位置
指定输出数据的名称和位置。默认情况下,数据将保存到 Work 逻辑库中。
随机种子数
指定用于生成随机数的初始种子。如果您未指定随机种子数,那么基于系统时钟的种子将用于生成样本。
生成样本选择汇总
生成包括用于生成样本的种子的汇总表。通过使用相同输入表指定相同种子,可重新生成相同的样本。
上一页|下一页|页首