角色
|
说明
|
---|---|
分层依据
|
指定用于将输入表划分为互斥、非重叠的子集(称为层)的变量。每个层都由层变量的一组值定义,而且每个层都将单独抽样。完整的样本是从所有层提取的样本的集合。
注: 如果不向该角色分配任何变量,则整个输入表将被处理为单一层。
可根据层的大小,在各个层之间按比例分配总样本大小。例如,变量 GENDER 有可能值 M 和 F,变量 VOTED 有可能值 Y 和 N。如果将 GENDER 和
VOTED 分配给分组依据角色,则输入表将被划分为四个层:已投票的男性、未投票的男性、已投票的女性和未投票的女性。
输入表包含 20,000 行,值的分布如下:
|
分层依据(续)
|
因此,已投票的男性比例为 7,000/20,000=0.35 或 35%。样本中的比例应该反映输入表中层的比例。例如,如果样本表包含 100 个观测,那么样本中 35%
的值必须从已投票的男性层中选择,以便在输入表中反映该比例。
|
选项名称
|
说明
|
---|---|
方法
|
|
抽样依据
|
根据需要的行数或输入行百分比指定样本的大小。例如,如果您指定行数的 3%,且有 400 个输入行,则作为结果的样本将包含 12 行。
注: 如果您向分层依据角色分配变量,则在此处设定的样本大小规范将应用到每个层中,而非整个输入表中。
|
随机种子
|
指定用于生成随机数的初始种子。如果将此值设置为零或负数,则基于系统时钟的种子将用于生成样本。
|
忽略字符分层值的大小写
|
执行分层抽样时区分具有相同正规化值的分层变量。例如,如果某一目标有三个不同值“A”、“B”和“b”,而且您希望将“B”和“b”作为不同水平处理,则需要选择此选项。否则,“B”和“b”将被作为相同水平处理。该任务按照如下方式正规化值:
|