前のページ|次のページ

テキストルールビルダノードの使用

この例では、SAS Enterprise Minerが実行されていること、およびダイアグラムワークスペースがプロジェクトで開かれていることを前提としています。プロジェクトとダイアグラムの作成に関する詳細は、プロジェクトの設定を参照してください。
テキストルールビルダノードは、小規模な語のサブセットからブールルールを作成し、分類ターゲット変数を予測します。このノードの前には、テキスト解析ノードとテキストフィルタノードを配置する必要があります。
この例では、SAMPSIO.NEWSデータセットを使用して、テキストルールビルダノードを使って分類ターゲット変数を予測する方法を示します。結果には、モデルが高度な解釈が可能であることや、説明や要約に役立つことも示されます。
SAMPSIO.NEWSデータセットは、600件の簡潔なニュース記事から構成されます。これらのニュース記事のほとんどは、コンピュータグラフィックス、ホッケー、医療問題のうちいずれか1つのカテゴリに分類されます。
SAMPSIO.NEWSデータセットには600個のオブザベーションと次の変数が含まれています。
  • TEXTは名義尺度変数であり、ニュース記事のテキストを含んでいます。
  • graphicsは二値変数であり、ドキュメントがコンピュータグラフィックスカテゴリに属すかどうかを示します(属す場合は1、属さない場合は0となる)。
  • hockeyは二値変数であり、ドキュメントがホッケーカテゴリに属すかどうかを示します(属す場合は1、属さない場合は0となる)。
  • medicalは二値変数であり、ドキュメントが医療問題カテゴリに属すかどうかを示します(属す場合は1、属さない場合は0となる)。
  • newsgroupは名義尺度変数であり、ニュース記事が当てはまるグループを含んでいます。
テキストルールビルダノードを使用してSAMPSIO.NEWSデータセット内の分類ターゲット変数newsgroupを予測するには、次の操作を実行します。
  1. データソースウィザードを使用して、データセットSAMPSIO.NEWS用のデータソースを定義します。
    1. 変数graphicshockeymedicalの測定レベルを二値に設定します。
    2. 変数newsgroupのモデル役割をターゲットに設定し、変数graphicshockeymedicalの役割を入力に設定します。
    3. 変数TEXTが役割テキストを持つように設定します。
    4. データソースウィザード — 意思決定の構成ダイアログボックスでいいえを選択します。
    5. ターゲットnewsgroupではデフォルトのターゲットプロファイルを使用します。
  2. NEWSデータソースを作成した後、それをダイアグラムワークスペースへとドラッグします。
  3. ツールバー上でテキストマイニングタブを選択し、テキスト解析ノードをダイアグラムワークスペースへとドラッグします。
  4. NEWSデータソースをテキスト解析ノードに接続します。
  5. ツールバー上でテキストマイニングタブを選択し、テキストフィルタノードをダイアグラムワークスペースへとドラッグします。
  6. テキスト解析ノードをテキストフィルタノードに接続します。
  7. ツールバー上でテキストマイニングタブを選択し、テキストルールビルダノードをダイアグラムワークスペースへとドラッグします。
  8. テキストフィルタノードをテキストルールビルダノードに接続します。
    この時点で、プロセスフローダイアグラムは次のようになります。
    プロセスフローダイアグラム
  9. プロセスフローダイアグラム内でテキストルールビルダノードを選択します。
  10. 一般化誤差プロパティの値をクリックし、最低を選択します。
  11. ルールの純度プロパティの値をクリックし、最低を選択します。
  12. 全数プロパティの値をクリックし、最低を選択します。
  13. ダイアグラムワークスペースで、テキストルールビルダノードを右クリックし、実行を選択します。表示される確認ダイアログボックスではいをクリックします。
  14. 同ノードの実行完了後に表示される実行ステータスダイアログボックス内で結果をクリックします。
  15. 取得ルールテーブルを選択し、取得済みのルールに関する情報を確認します。
    Rule列にある語は、ターゲットnewsgroupを示すための対応する精度を持っています。
    取得ルールテーブル
    上記の7番目の列で、真陽性(最初の数字)は、ルールに正しく割り当てられたドキュメントの数になります。合計(2番目の数字)は、合計陽性になります。
    上記の例では、最初の行で、58個のドキュメントがルール“gordon”に割り当てられている(58個が正しく割り当てられている)ことが示されています。これは、ドキュメントが語“gordon”を含んでいる場合に、これらのドキュメントをすべてMEDICALニュースグループに割り当てるならば、58個のうち58個が正しく割り当てられることを意味します。次の行では、17個のドキュメントが、ルール“msg”に正しく割り当てられています。これは、ドキュメントが語“msg”を含んでいる場合に、これらのドキュメントをすべてMEDICALニュースグループに割り当てるならば、17個のうち17個が正しく割り当てられることを意味します。
    NEWSデータセットのサイズが制限されているため、これらのルールのほとんどは単一語ルールです。ただし、複数語ルールが1つだけ含まれています。16番目の行で、ルール“amount & ~team”は、ドキュメントが語“amount”を含んでいるが語“team”は含んでいない場合、残りのドキュメントのうち4個がMEDICALニュースグループに正しく割り当てられることを意味します。
    注: ~は論理NOTを示します。
  16. スコアランキングオーバーレイグラフを選択し、ターゲット変数に関する次の種類の情報を表示します。
    • Cumulative Lift(累積リフト)
    • Lift(リフト)
    • Gain(利得)
    • % Response(応答%)
    • Cumulative % Response(累積応答%)
    • % Captured Response(捕捉済み応答%)
    • Cumulative % Captured Response(累積捕捉済み応答%)
    注: 統計量を変更するには、ドロップダウンメニューから上記の選択肢のいずれかを選択します。
    スコアランキングオーバーレイグラフ
  17. 当てはめ統計量ウィンドウを選択し、ターゲット変数newsgroupに関する統計情報を表示します。
    当てはめ統計量テーブル
  18. ルール成功グラフを選択し、カーソルをバーの上に置くと、より詳細な情報を表示できます。
    ルール成功グラフ
  19. メニューから表示次にルール次にドキュメントルールを選択します。
    ドキュメントルールテーブルが表示され、ルール成功グラフ内のルールに関するより詳細な情報を確認できます。
    ドキュメントルールテーブル
  20. 結果ウィンドウを閉じます。
  21. 一般化誤差プロパティの値をクリックし、を選択します。
  22. ルールの純度プロパティの値をクリックし、を選択します。
  23. 全数プロパティの値をクリックし、を選択します。
  24. Newsデータソースを選択します。
  25. 変数プロパティの隣にある省略記号ボタンをクリックします。
  26. HOCKEY変数の役割をターゲットに、NEWSGROUP変数の役割を入力にそれぞれ変更します。
  27. OKをクリックします。
  28. ダイアグラムワークスペースで、テキストルールビルダノードを右クリックし、実行を選択します。表示される確認ダイアログボックスではいをクリックします。
  29. 同ノードの実行完了後に表示される実行ステータスダイアログボックス内で結果をクリックします。
  30. 取得ルールテーブルを選択し、ターゲットであるHOCKEYニュースグループを予測したルールに関する情報を確認します。
    Rule列にある語は、ターゲットhockeyを示すための対応する精度を持っています。
    取得ルールテーブル
    上記の例では、ターゲット値は“HOCKEY”ではなく1になります。これは、newsgroup変数ではなく、hockey変数がターゲットになっているためです。70個のドキュメントがルール“team”に割り当てられています(69個が正しく割り当てられている)。これは、ドキュメントが“team”という語を含んでおり、これらのドキュメントをすべてHOCKEYニュースグループに割り当てるならば、70個のうち69個が正しく割り当てられることを意味します。次の行では、22個のドキュメントが、ルール“hockey”に正しく割り当てられています。これは、ドキュメントが“hockey”という語を含んでおり、これらのドキュメントをすべてHOCKEYニュースグループに割り当てるならば、22個のうち22個が正しく割り当てられることを意味します。
  31. スコアランキングオーバーレイグラフを選択し、ターゲット変数に関する次の種類の情報を表示します。
    • Cumulative Lift(累積リフト)
    • Lift(リフト)
    • Gain(利得)
    • % Response(応答%)
    • Cumulative % Response(累積応答%)
    • % Captured Response(捕捉済み応答%)
    • Cumulative % Captured Response(累積捕捉済み応答%)
    注: 統計量を変更するには、ドロップダウンメニューから上記の選択肢のいずれかを選択します。
    スコアランキングオーバーレイグラフ
  32. 当てはめ統計量テーブルを選択し、ターゲット変数hockeyに関する統計情報を表示します。
    当てはめ統計量テーブル
  33. ルール成功グラフを選択し、カーソルをバーの上に置くと、より詳細な情報を表示できます。
    ルール成功グラフ
  34. メニューから表示次にルール次にドキュメントルールを選択します。
    ドキュメントルールテーブルが表示され、ルール成功グラフ内のルールに関するより詳細な情報を確認できます。
    ドキュメントルールテーブル
  35. 結果ウィンドウを閉じます。
  36. コンテンツ分類コードプロパティの隣にある省略記号ボタンをクリックします。
    コンテンツ分類コードウィンドウが表示されます。このウィンドウ内に提供されるコードは、SASコンテンツ分類の出力となるコードであり、コンパイルの用意ができています。
  37. キャンセルをクリックします。
  38. ターゲット値の変更プロパティの隣にある省略記号ボタンをクリックします。
    ターゲット値の変更ウィンドウが表示されます。
    ターゲット値の変更ウィンドウを使用するとモデルを改善できます。
  39. 割り当てターゲット列内にある1つ以上のセルを選択し、新しいターゲット値を選択します。
  40. OKをクリックします。
  41. テキストルールビルダノードに戻り、モデルが改善されたかどうかをチェックします。
前のページ|次のページ|ページの先頭へ