前のページ|次のページ

データの分割タスク

データの分割タスクについて

分割は、論理ファイルの全部または一部です。データの分割タスクでは、入力データをランダムにサンプリングして最大4つの分割を作成することができます。分割は、モデルの開発に使用することができます。この場合、データをモデルの一部でトレーニングを行い、データの一部をテスト用に予約します。データの分割タスクを使用して、すべての分割を1つの出力データに保存するか各分割を個別のデータセットに保存することができます。

例:SASHELP.CLASSFITデータセットの分割

  1. タスクセクションで、データフォルダを展開し、データの分割をダブルクリックします。データの分割タスクのユーザーインターフェイスが開きます。
  2. データタブで、SASHELP.CLASSFITを入力データセットとして選択します。
  3. 分割数ボックスに、2を入力します。
  4. 分割1のケースの比率ボックスに.5を入力します。これは値の50%を分割1に入れることを指定します。
  5. 分割2のケースの比率ボックスに.3を入力します。これは値の30%を分割2に入れることを指定します。
  6. 分割データセットドロップダウンリストから、すべての分割を1つのデータセットにを選択します。
  7. 分割1データのID値役割に、テストを入力します。
  8. 分割2データのID値役割に、トレーニングを入力します。
  9. タスクを実行するには、実行をクリックします。
結果の一部を次に示します。
分割データセットの例
出力データセットのnew _Partition_ variableは、オブザベーションの分割(トレーニングまたはテスト)を指定します。たとえば、ジョイスのデータは、トレーニング分割にあります。ルイーズのデータは、テスト分割にあります。この例では、ランダムシードを指定していません。その結果、このタスクはランダムにオブザベーションの50%をテスト分割に割り当て、オブザベーションの30%をトレーニング分割に割り当てます。もう一度この例を実行すると、わずかに異なる結果が得られることがあります。

分割データセットの作成

データの分割タスクを実行するには、各分割データのケースの比率オプションに値を割り当てる必要があります。
役割
説明
役割
層化基準
水準の組み合わせごとに別々の分割を指定します。この役割に最大2つの変数を指定することができます。
分割データ
分割数
分割の数を指定します。1つ、2つ、3つ、または4つの分割を作成することとができます。
分割nのケースの比率
各分割のケースの比率を指定します。すべての分割比率の合計は1以下でなければなりません。
出力データセット
分割データセット
すべての分割を1つのデータセットに入れるか、各分割を別々のデータセットに入れるかを指定します。各出力データセットに一意の名前を指定することができます。
サンプル抽出されなかったオブザベーションを含める
出力データセットにサンプル抽出されなかったオブザベーションを含めるかどうかを指定します。
注: このオプションは、すべての分割を1つのデータセットに保存する場合にのみ適用されます。
分割値の変数名
分割値を含む変数の名前を指定します。
注: このオプションは、すべての分割を1つのデータセットに保存する場合にのみ適用されます。
分割nデータのID値
分割内の各値に使用するIDを指定します。
注: このオプションは、すべての分割を1つのデータセットに保存する場合にのみ適用されます。
出力データを表示する
出力データを表示する
出力データを結果タブに表示される結果に含めるかどうかを指定します。出力データの全部または一部を含めることができます。タスクは、常に出力データタブに表示される出力データセットを作成します。このデータセットは、指定した場所にも保存されます。
前のページ|次のページ|ページの先頭へ