役割
|
説明
|
---|---|
層化基準
|
入力テーブルを重複のない相互排他的なサブセット(層)に分割するために使用する変数を指定します。各層は層の変数の一連の値によって定義され、サンプリングは層ごとに別々に行われます。完全サンプルは、すべての層から取得されたサンプルの和集合です。
注: この役割に変数を割り当てない場合は、入力テーブル全体が単一層として扱われます。
合計サンプルサイズは、各層のサイズに比例して層間で割り振ることができます。例として、候補値がMとFの変数GENDERおよび候補値がYとNの変数VOTEDについて考えます。GENDERとVOTEDの両方を層化基準役割に割り当てた場合、入力テーブルは4つの層(投票した男性、投票しなかった男性、投票した女性、投票しなかった女性)に分割されます。
入力テーブルは20,000行で構成され、値は次のように分布しています。
|
層化基準(続き)
|
したがって、投票した男性の比率は、7,000/20,000=0.35 (35%)になります。サンプルにおける比率は、入力テーブルにおける層の比率を反映している必要があります。たとえば、使用するサンプルテーブルのオブザベーション件数が100の場合、入力テーブルにおける比率が反映されるように、投票した男性の層からサンプル値の35%を選択する必要があります。
|
オプション名
|
説明
|
---|---|
手法
|
|
サンプルの基準
|
サンプルサイズを必要行数または入力行の必要パーセントとして指定します。たとえば、入力行が400あるときに行の3%と指定した場合、結果のサンプルには12行が含まれることになります。
注: 層化基準役割に変数を割り当てた場合、ここで指定するサンプルサイズは入力テーブル全体ではなく各層に適用されます。
|
ランダムシード
|
乱数生成の初期シードを指定します。この値をゼロまたは負の数値に設定した場合は、システムクロックに基づくシードを使用してサンプルが作成されます。
|
文字層別値の大文字小文字を無視する
|
層別サンプリングを実行する場合に、同じ正規化値を持つ層別変数を区別します。たとえば、ターゲットに3つの異なる値"A"、"B"および"b"が含まれていて、"B"と"b"を異なるレベルとして扱う場合は、このオプションを選択する必要があります。そうしないと、"B"と"b"は同じレベルとして扱われます。タスクでは、値は次のように正規化されます。
|