ランダムサンプルタスク

ランダムサンプルタスクについて

ランダムサンプルタスクは、単純なランダムサンプルまたは層別サンプリングを実行するハイパフォーマンスプロシジャです。このタスクの出力には、出力データセットとサンプルデータ、パフォーマンス情報に関するテーブル、母集団とサンプルの度数情報に関するテーブルが含まれています。

注: このタスクを実行するには、SAS/STATが必要です。

役割へのデータの割り当て

層別サンプリングを実行する場合は、層化基準役割に列を割り当てる必要があります。それ以外の場合は、層化基準役割の使用は任意です。

役割	説明
層化基準	入力テーブルを重複のない相互排他的なサブセット(層)に分割するために使用する変数を指定します。各層は層の変数の一連の値によって定義され、サンプリングは層ごとに別々に行われます。完全サンプルは、すべての層から取得されたサンプルの和集合です。注: この役割に変数を割り当てない場合は、入力テーブル全体が単一層として扱われます。合計サンプルサイズは、各層のサイズに比例して層間で割り振ることができます。例として、候補値がMとFの変数GENDERおよび候補値がYとNの変数VOTEDについて考えます。GENDERとVOTEDの両方を層化基準役割に割り当てた場合、入力テーブルは4つの層(投票した男性、投票しなかった男性、投票した女性、投票しなかった女性)に分割されます。入力テーブルは20,000行で構成され、値は次のように分布しています。投票した男性7,000人投票しなかった男性4,000人投票した女性5,000人投票しなかった女性4,000人
層化基準(続き)	したがって、投票した男性の比率は、7,000/20,000=0.35 (35%)になります。サンプルにおける比率は、入力テーブルにおける層の比率を反映している必要があります。たとえば、使用するサンプルテーブルのオブザベーション件数が100の場合、入力テーブルにおける比率が反映されるように、投票した男性の層からサンプル値の35%を選択する必要があります。

役割

説明

層化基準

入力テーブルを重複のない相互排他的なサブセット(層)に分割するために使用する変数を指定します。各層は層の変数の一連の値によって定義され、サンプリングは層ごとに別々に行われます。完全サンプルは、すべての層から取得されたサンプルの和集合です。

注: この役割に変数を割り当てない場合は、入力テーブル全体が単一層として扱われます。

合計サンプルサイズは、各層のサイズに比例して層間で割り振ることができます。例として、候補値がMとFの変数GENDERおよび候補値がYとNの変数VOTEDについて考えます。GENDERとVOTEDの両方を層化基準役割に割り当てた場合、入力テーブルは4つの層(投票した男性、投票しなかった男性、投票した女性、投票しなかった女性)に分割されます。

入力テーブルは20,000行で構成され、値は次のように分布しています。

投票した男性7,000人
投票しなかった男性4,000人
投票した女性5,000人
投票しなかった女性4,000人

層化基準(続き)

したがって、投票した男性の比率は、7,000/20,000=0.35 (35%)になります。サンプルにおける比率は、入力テーブルにおける層の比率を反映している必要があります。たとえば、使用するサンプルテーブルのオブザベーション件数が100の場合、入力テーブルにおける比率が反映されるように、投票した男性の層からサンプル値の35%を選択する必要があります。

出力データセットの作成

データタブでは、出力データに含める数値変数および文字変数を入力データセットから選択できます。すべての入力オブザベーションとサンプルインジケータ変数を含めるを選択して、入力テーブルと同数の行を含む出力テーブルを作成します。出力テーブルには、追加のパーティションインジケータがあり、サンプルにオブザベーションが含まれている場合は1、含まれていない場合は0を示します。

結果に出力データの全部または一部を表示するには、出力データを表示するを選択します。

オプションの設定

オプション名	説明
手法
サンプルの基準	サンプルサイズを必要行数または入力行の必要パーセントとして指定します。たとえば、入力行が400あるときに行の3%と指定した場合、結果のサンプルには12行が含まれることになります。注: 層化基準役割に変数を割り当てた場合、ここで指定するサンプルサイズは入力テーブル全体ではなく各層に適用されます。
ランダムシード	乱数生成の初期シードを指定します。この値をゼロまたは負の数値に設定した場合は、システムクロックに基づくシードを使用してサンプルが作成されます。
文字層別値の大文字小文字を無視する	層別サンプリングを実行する場合に、同じ正規化値を持つ層別変数を区別します。たとえば、ターゲットに3つの異なる値"A"、"B"および"b"が含まれていて、"B"と"b"を異なるレベルとして扱う場合は、このオプションを選択する必要があります。そうしないと、"B"と"b"は同じレベルとして扱われます。タスクでは、値は次のように正規化されます。先頭の空白は削除されます。値は32文字に切り捨てられます。文字は小文字から大文字に変換されます。