この例では、SAS Enterprise Minerが実行されていること、およびダイアグラムワークスペースがプロジェクトで開かれていることを前提としています。プロジェクトとダイアグラムの作成に関する詳細は、
プロジェクトの設定を参照してください。
テキストルールビルダノードは、小規模な語のサブセットからブールルールを作成し、分類ターゲット変数を予測します。このノードの前には、テキスト解析ノードとテキストフィルタノードを配置する必要があります。
この例では、SAMPSIO.NEWSデータセットを使用して、テキストルールビルダノードを使って分類ターゲット変数を予測する方法を示します。結果には、モデルが高度な解釈が可能であることや、説明や要約に役立つことも示されます。
SAMPSIO.NEWSデータセットは、600件の簡潔なニュース記事から構成されます。これらのニュース記事のほとんどは、コンピュータグラフィックス、ホッケー、医療問題のうちいずれか1つのカテゴリに分類されます。
SAMPSIO.NEWSデータセットには600個のオブザベーションと次の変数が含まれています。
-
TEXTは名義尺度変数であり、ニュース記事のテキストを含んでいます。
-
graphicsは二値変数であり、ドキュメントがコンピュータグラフィックスカテゴリに属すかどうかを示します(属す場合は1、属さない場合は0となる)。
-
hockeyは二値変数であり、ドキュメントがホッケーカテゴリに属すかどうかを示します(属す場合は1、属さない場合は0となる)。
-
medicalは二値変数であり、ドキュメントが医療問題カテゴリに属すかどうかを示します(属す場合は1、属さない場合は0となる)。
-
newsgroupは名義尺度変数であり、ニュース記事が当てはまるグループを含んでいます。
テキストルールビルダノードを使用してSAMPSIO.NEWSデータセット内の分類ターゲット変数newsgroupを予測するには、次の操作を実行します。
-
データソースウィザードを使用して、データセットSAMPSIO.NEWS用のデータソースを定義します。
-
変数
graphics、
hockey、
medicalの測定レベルを
二値
に設定します。
-
変数
newsgroupのモデル役割を
ターゲット
に設定し、変数
graphics、
hockey、
medicalの役割を
入力
に設定します。
-
変数
TEXTが役割
テキスト
を持つように設定します。
-
データソースウィザード — 意思決定の構成ダイアログボックスで
いいえ
を選択します。
-
ターゲット
newsgroupではデフォルトのターゲットプロファイルを使用します。
-
NEWSデータソースを作成した後、それをダイアグラムワークスペースへとドラッグします。
-
ツールバー上で
テキストマイニングタブを選択し、
テキスト解析ノードをダイアグラムワークスペースへとドラッグします。
-
NEWSデータソースを
テキスト解析ノードに接続します。
-
ツールバー上で
テキストマイニングタブを選択し、
テキストフィルタノードをダイアグラムワークスペースへとドラッグします。
-
テキスト解析ノードを
テキストフィルタノードに接続します。
-
ツールバー上で
テキストマイニングタブを選択し、
テキストルールビルダノードをダイアグラムワークスペースへとドラッグします。
-
テキストフィルタノードを
テキストルールビルダノードに接続します。
この時点で、プロセスフローダイアグラムは次のようになります。
-
プロセスフローダイアグラム内で
テキストルールビルダノードを選択します。
-
一般化誤差プロパティの値をクリックし、
最低
を選択します。
-
ルールの純度プロパティの値をクリックし、
最低
を選択します。
-
全数プロパティの値をクリックし、
最低
を選択します。
-
ダイアグラムワークスペースで、
テキストルールビルダノードを右クリックし、
実行を選択します。表示される
確認ダイアログボックスで
はいをクリックします。
-
同ノードの実行完了後に表示される
実行ステータスダイアログボックス内で
結果をクリックします。
-
取得ルールテーブルを選択し、取得済みのルールに関する情報を確認します。
Rule列にある語は、ターゲットnewsgroupを示すための対応する精度を持っています。
上記の7番目の列で、真陽性(最初の数字)は、ルールに正しく割り当てられたドキュメントの数になります。合計(2番目の数字)は、合計陽性になります。
上記の例では、最初の行で、58個のドキュメントがルール“gordon”に割り当てられている(58個が正しく割り当てられている)ことが示されています。これは、ドキュメントが語“gordon”を含んでいる場合に、これらのドキュメントをすべてMEDICALニュースグループに割り当てるならば、58個のうち58個が正しく割り当てられることを意味します。次の行では、17個のドキュメントが、ルール“msg”に正しく割り当てられています。これは、ドキュメントが語“msg”を含んでいる場合に、これらのドキュメントをすべてMEDICALニュースグループに割り当てるならば、17個のうち17個が正しく割り当てられることを意味します。
NEWSデータセットのサイズが制限されているため、これらのルールのほとんどは単一語ルールです。ただし、複数語ルールが1つだけ含まれています。16番目の行で、ルール“amount
& ~team”は、ドキュメントが語“amount”を含んでいるが語“team”は含んでいない場合、残りのドキュメントのうち4個がMEDICALニュースグループに正しく割り当てられることを意味します。
注: ~は論理NOTを示します。
-
スコアランキングオーバーレイグラフを選択し、ターゲット変数に関する次の種類の情報を表示します。
-
-
-
-
-
Cumulative % Response(累積応答%)
-
% Captured Response(捕捉済み応答%)
-
Cumulative % Captured Response(累積捕捉済み応答%)
注: 統計量を変更するには、ドロップダウンメニューから上記の選択肢のいずれかを選択します。
-
当てはめ統計量ウィンドウを選択し、ターゲット変数
newsgroupに関する統計情報を表示します。
-
ルール成功グラフを選択し、カーソルをバーの上に置くと、より詳細な情報を表示できます。
-
メニューから
表示ルールドキュメントルールを選択します。
ドキュメントルールテーブルが表示され、ルール成功グラフ内のルールに関するより詳細な情報を確認できます。
-
-
一般化誤差プロパティの値をクリックし、
中
を選択します。
-
ルールの純度プロパティの値をクリックし、
中
を選択します。
-
-
-
変数プロパティの隣にある省略記号ボタンをクリックします。
-
HOCKEY変数の役割を
ターゲット
に、NEWSGROUP変数の役割を
入力
にそれぞれ変更します。
-
-
ダイアグラムワークスペースで、
テキストルールビルダノードを右クリックし、
実行を選択します。表示される
確認ダイアログボックスで
はいをクリックします。
-
同ノードの実行完了後に表示される
実行ステータスダイアログボックス内で
結果をクリックします。
-
取得ルールテーブルを選択し、ターゲットであるHOCKEYニュースグループを予測したルールに関する情報を確認します。
Rule列にある語は、ターゲットhockeyを示すための対応する精度を持っています。
上記の例では、ターゲット値は“HOCKEY”ではなく1
になります。これは、newsgroup変数ではなく、hockey変数がターゲットになっているためです。70個のドキュメントがルール“team”に割り当てられています(69個が正しく割り当てられている)。これは、ドキュメントが“team”という語を含んでおり、これらのドキュメントをすべてHOCKEYニュースグループに割り当てるならば、70個のうち69個が正しく割り当てられることを意味します。次の行では、22個のドキュメントが、ルール“hockey”に正しく割り当てられています。これは、ドキュメントが“hockey”という語を含んでおり、これらのドキュメントをすべてHOCKEYニュースグループに割り当てるならば、22個のうち22個が正しく割り当てられることを意味します。
-
スコアランキングオーバーレイグラフを選択し、ターゲット変数に関する次の種類の情報を表示します。
-
-
-
-
-
Cumulative % Response(累積応答%)
-
% Captured Response(捕捉済み応答%)
-
Cumulative % Captured Response(累積捕捉済み応答%)
注: 統計量を変更するには、ドロップダウンメニューから上記の選択肢のいずれかを選択します。
-
当てはめ統計量テーブルを選択し、ターゲット変数hockeyに関する統計情報を表示します。
-
ルール成功グラフを選択し、カーソルをバーの上に置くと、より詳細な情報を表示できます。
-
メニューから
表示ルールドキュメントルールを選択します。
ドキュメントルールテーブルが表示され、ルール成功グラフ内のルールに関するより詳細な情報を確認できます。
-
-
コンテンツ分類コードプロパティの隣にある省略記号ボタンをクリックします。
コンテンツ分類コードウィンドウが表示されます。このウィンドウ内に提供されるコードは、SASコンテンツ分類の出力となるコードであり、コンパイルの用意ができています。
-
-
ターゲット値の変更プロパティの隣にある省略記号ボタンをクリックします。
ターゲット値の変更ウィンドウが表示されます。
ターゲット値の変更ウィンドウを使用するとモデルを改善できます。
-
割り当てターゲット列内にある1つ以上のセルを選択し、新しいターゲット値を選択します。
-
-
テキストルールビルダノードに戻り、モデルが改善されたかどうかをチェックします。