上一页|下一页

“对连续数据分箱”任务

关于“对连续数据分箱”任务

对连续数据进行分箱的任务是一个数据准备任务。该任务将连续变量的数据值划分为区间,将每个区间的各值替换为表示该区间的单个值。
注: 此任务仅在您运行 SAS 9.4 或之后的版本时可用。

示例:缩尾分箱

在本示例中,该任务将为输入数据提供基础缩尾统计信息。
要创建此示例,请执行以下操作:
  1. 要创建 Work.Ex12 数据集,请在程序选项卡中输入以下代码:
    data ex12;
       length id 8;
       do id=1 to 10000;
          x1 = ranuni(101);
          x2 = 10*ranuni(201);
          x3 = 100*ranuni(301);
          output;
       end;
    run;
    点击 提交 SAS 代码
  2. 任务部分中,展开高性能统计量文件夹,然后双击对连续数据分箱。此时将打开“对连续数据分箱”任务的用户界面。
  3. 数据选项卡中选择 WORK.EX12 数据集。
  4. 对于要分箱的变量角色,分配 x1x2 列。
  5. 选择选项选项卡,然后设置以下选项:
    • 箱数框中,输入“ 10”。
    • 方法下拉列表中,选择缩尾分箱
  6. 要运行任务,点击 提交 SAS 代码
以下是结果的部分内容:
性能信息、分箱信息和映射

向角色分配数据

要运行对连续数据进行分箱的任务,您必须向要分箱的变量角色分配一个变量。
角色
说明
角色
要分箱的变量
指定一个或多个变量作为分箱的输入变量。指定的变量必须是区间型变量。
其他角色
频数计数
指定包含每个观测的发生频数的数值变量。如果频数值小于 1 或缺失,则分析中不会使用此观测。若没有变量分配至频数计数角色,则会向每个观测分配值为 1 的频数。

设置选项

选项名称
说明
方法
箱数
指定所有分箱变量的分箱水平的全局数量。该值可以是 2 到 1,000(含边界值)之间的任意整数。分箱水平的默认数量为 16。
方法
指定要使用的分箱方法。
  • 桶分箱可创建等长的箱,并向其中一个箱分配数据。您可在分箱过程中选择箱数。默认箱数(分箱水平)为 16。
  • 缩尾分箱类似于桶分箱,但是其两个尾端都已切除以获得平滑的分箱结果。该技术通常用于在数据准备阶段删除离群值。
    您必须为缩尾率选项指定值。有效值介于 0.0 到 0.5 之间(不含边界值)。默认值为 0.05。
  • 伪分位数分箱具有与分位数分箱方法类似的结果,但由于其消耗的 CPU 时间和内存较少,因而效率较高。
统计量
选择要显示的统计量
在结果中,您可以指定是否包括统计量。
下面是您可以添加的其他统计量:
  • 基本统计量显示每个分箱变量的均值、伪中位数、标准差、最小值、最大值和箱数。
  • 分位数统计量将显示估计的分位数和极值表。

创建输出数据集

您可指定是否将结果保存到输出数据集中。在要包括在输出数据集中的其他变量角色中,在输入数据集中指定要包括在输出数据集的任意列。
上一页|下一页|页首