ランダムサンプルの選択タスク

ランダムサンプルの選択タスクにいて

ランダムサンプルの選択タスクでは、入力テーブルの行のランダムサンプルを含む出力テーブルを作成します。

データの部分集合が必要な場合に、このタスクを使用します。たとえば、経費報告手続きを改善し、できる限り経費を削減する目的で、従業員の旅費を監査する必要があると仮定します。すべての経費報告書を調べるためのリソースは持っていないため、統計的なサンプル抽出を使用して、監査用の経費報告書を客観的に選択します。

例: Sashelp.Pricedataデータセットのランダムサンプルの作成

この例では、Sashelp.Pricedataデータセットのデータの部分集合を作成します。

この例を作成するには、次の操作を実行します。

タスクセクションで、データフォルダを展開し、ランダムサンプルの選択をダブルクリックします。ランダムサンプルの選択タスクのユーザーインターフェイスが開きます。
データタブで、SASHELP.PRICEDATAデータセットを選択します。
オプションタブで、サンプルサイズとして10と入力します。
タスクを実行するには、をクリックします。

表形式の結果を次に示します。

また、このタスクを実行すると、サンプルデータセットもWorkライブラリに作成されます。SAS Studioで、このデータセットは出力データタブに表示されます。

役割へのデータの割り当て

ランダムサンプルの選択タスクでは、出力テーブルのサンプルサイズを指定する必要があります。タスクの実行に役割は必要ありません。

役割	説明
役割
出力列	出力テーブルに含める変数を指定します。デフォルトでは、すべての変数が出力テーブルに含まれます。ただし、出力に含める変数を選択することもできます。
層の列	入力テーブルを重複のない相互排他的なサブセット(層)に分割するために使用する変数を指定します。各層は層の変数の一連の値によって定義され、サンプリングは層ごとに別々に行われます。完全サンプルは、すべての層から取得されたサンプルの和集合です。注: この役割に変数を割り当てない場合は、入力テーブル全体が単一層として扱われます。この例は、どのように合計サンプルサイズが各層のサイズに比例して層間に割り振られているかを示します。この例では、変数GENDERの候補値はMとFで変数VOTEDの候補値はYとNです。GENDERとVOTEDの両方を層の列役割に割り当てた場合、入力テーブルは4つの層(投票した男性、投票しなかった男性、投票した女性、投票しなかった女性)に分割されます。入力テーブルは20,000行で構成され、値は次のように分布しています。投票した男性7,000人投票しなかった男性4,000人投票した女性5,000人投票しなかった女性4,000人したがって、投票した男性の比率は、7,000/20,000=0.35 (35%)になります。サンプルにおける比率は、入力テーブルにおける層の比率を反映している必要があります。たとえば、使用するサンプルテーブルのオブザベーション件数が100の場合、入力テーブルにおける比率が反映されるように、投票した男性の層からサンプル値の35%を選択する必要があります。
出力データセット
データセット名	出力データセットの名前を指定します。

オプションの設定

オプション名	説明
サンプルサイズとサンプルパーセント	サンプルサイズを必要行数または入力行の必要パーセントとして指定します。たとえば、入力行が400あるときに行の3%と指定した場合、結果のサンプルには12行が含まれることになります。注: 層の列役割に変数を割り当てた場合、ここで指定するサンプルサイズは入力テーブル全体ではなく各層に適用されます。
サンプル手法	データをサンプリングする際に使用する方法を指定します。有効な値は次のとおりです。単純 (重複なし) 入力データをサンプリングする際に簡易法を指定します。選択された行は、その後の選択の対象になりません。これにより、同じ行を2度以上選択することが不可能になります。無作為(重複可能) 入力データをサンプリングする際に、制限のない方法を指定します。選択された行は、その後も選択の対象になります。これにより、同じ行を2度以上選択することが可能になります。出力テーブルでは、同じ行を複数回選択した場合の記録方法を指定できます。次のオプションから選択できます。オブザベーションは重複を除き出力に表示する任意の行をn回選択した場合、その行はサンプルに1回使用されます。出力では、NumberHits変数(ランダムサンプルの選択タスクが自動的に計算)によって、入力テーブルでオブザベーションが発生した回数がリストされます。オブザベーションを重複も含めてすべて出力に表示する任意の行をn回選択した場合、その行はサンプルにn回使用されます。
ランダムシード値	乱数生成の初期シードを指定します。ランダムシード値を指定しない場合、システムクロックに基づくシードを使用してサンプルが作成されます。
サンプル選択の要約の生成	サンプルの生成に使用したシードを含む要約テーブルを生成します。同じ入力テーブルを使用してこの同じシードを後で指定することで、同じサンプルを再現できます。