上一页|下一页

“分区数据”任务

关于“分区数据”任务

一个分区是一个逻辑文件的全部或部分。“分区数据”任务使您能够通过对输入数据随机抽样来创建至多 4 个分区。分区可以用来开发模型。在该例中,您希望针对部分数据来训练模型,并且保留一些数据以供测试。使用“分区数据”任务,可以将所有分区保存至一个输出数据集,也可将每个分区保存在单独的数据集中。

示例:对 SASHELP.CLASSFIT 数据集进行分区

  1. 任务部分中,展开数据文件夹,然后双击分区数据。此时将打开“分区数据”任务的用户界面。
  2. 数据选项卡中,选择 SASHELP.CLASSFIT 作为输入数据集。
  3. 分区数框中,输入 2
  4. 分区 1 的观测比例框中,输入 .5,指定应有 50% 的值在分区 1 中。
  5. 分区 2 的观测比例框中,输入 .3,指定应有 30% 的值在分区 2 中。
  6. 分区数据集下拉列表中,选择一个数据集中的所有分区
  7. 分区 1 数据的 ID 值角色中,输入 Test
  8. 分区 2 数据的 ID 值角色中,输入 Train
  9. 要运行任务,点击 提交 SAS 代码
以下是结果的部分内容:
分区数据集示例
输出数据集中新的 _Partition_ 变量指定了观测的分区(Train 或 Test)。例如,Joyce 的数据在 Train 分区中。Louise 的数据在 Test 分区中。本例未指定随机种子。结果是,该任务将 50% 的观测随机分配给了 Test 分区,将 30% 的观测随机分配给了 Train 分区。如果再一次运行该示例,您可能会看到略微不同的结果。

创建分区数据集

要运行“分区数据”任务,对于每一个分区,您必须将值分配给观测的比例选项。
角色
说明
角色
分层依据
为每个水平组合指定单独的分区。最多可以向此角色指定两个变量。
分区数据
分区数
指定分区数。可以选择创建 1、2、3 或 4 个分区。
分区 n 的观测比例
为每一个分区指定观测的比例。所有分区比例的总和必须小于等于 1。
输出数据集
分区数据集
指定是在一个数据集中包括所有分区还是将每个分区放在不同的数据集中。可以为每个输出数据集指定唯一名称。
包括非抽样观测
指定是否将非抽样观测包括在输出数据集中。
注: 仅当您将所有分区保存到一个数据集中时,该选项才能生效。
分区值的变量名。
指定包含分区值的变量的名称。
注: 仅当您将所有分区保存到一个数据集中时,该选项才能生效。
分区 n 数据的 ID 值
指定分区中每个值的标识符。
注: 仅当您将所有分区保存到一个数据集中时,该选项才能生效。
显示输出数据
显示输出数据
指定是否包括出现在结果选项卡中结果的输出数据。可以选择所有输出数据或其中一个子集。该任务始终会在输出数据选项卡中创建输出数据集。该数据集会保存在指定位置。
上一页|下一页|页首