この例では、SAS Enterprise Minerが実行されていること、およびダイアグラムワークスペースがプロジェクトで開かれていることを前提としています。プロジェクトやダイアグラムの作成に関する詳細は、Getting Started with SAS Enterprise Minerを参照してください。
テキストフィルタノードを使用すると、テキストマイニング分析における語の総数を削減できます。たとえば、一般的な語や滅多に使われない語が分析にとって有益でない場合、それらの語をフィルタリングして取り除くことができます。この例では、
テキストフィルタノードを使用して語をフィルタリングする方法を示します。この例では、ユーザーが
テキスト解析ノードの使用を実行済みであり、そこで作成されたプロセスフローダイアグラムを構築することを前提としています。
-
ツールバー上で
テキストマイニングタブを選択し、
テキストフィルタノードをダイアグラムワークスペースへとドラッグします。
-
テキスト解析ノードを
テキストフィルタノードに接続します。
-
ダイアグラムワークスペースで、
テキストフィルタノードを右クリックし、
実行を選択します。
確認ダイアログボックスで
はいを選択します。
-
同ノードの実行完了後に表示される
実行ステータスダイアログボックス内で
結果をクリックします。
-
語テーブルを選択します。[Freq]列見出しをクリックして、語を頻度順に並べ替えます。
テキストマイニング分析を行うために、我々が分析対象とするドキュメント内では“software”および“application”という語が実際に類義語として使用されており、我々はこれらを同じ語として使用するものと仮定します。
-
結果ウィンドウを閉じます。
テキストフィルタノードを選択した後、
フィルタビューアプロパティの省略記号ボタンをクリックします。
-
対話型のフィルタビューア内で、語テーブル内の語を度数に基づいて並べ替えます。Ctrlキーを押しながら“software”と“application”を選択し、ドロップダウンメニューから
類義語として扱うを選択します。
-
対応する語を作成ダイアログボックスで、語テーブル内にある両方の語を表す語として
softwareを選択します。
-
対応する語を作成ダイアログボックス内で
OKをクリックします。これで語“software”が、
語テーブル内で両方の語を表すようになります。語“software”を展開します。
-
対話型のフィルタビューアを閉じます。行った変更を保存するかどうかを尋ねるメッセージが表示されたら、
はいを選択します。
-
テキストフィルタノードを右クリックし、
実行を選択します。
確認ダイアログボックスで
はいを選択します。同ノードの実行完了後に表示される
実行ステータスダイアログボックス内で
結果を選択します。
-
ドキュメント数と頻度プロットを選択し、両方の語が同じものとして扱われていることを確認しています。
オプションを使用すると、表示を変更することや、プロットに表示する結果のサブセットを指定することもできます。たとえば、このプロットを改良し、200個以上のドキュメントで出現した語のみを表示したいとします。
-
ドキュメント数と頻度プロットを右クリックし、
データオプションを選択します。
-
データオプションダイアログボックスで、
Whereタブを選択します。
列名ドロップダウンメニューから、
# Docs
を選択します。
演算子ドロップダウンメニューから、
より大
を選択します。
値テキストボックスに、
200と入力します。
-
適用を選択して
OKをクリックします。
ドキュメント数と頻度プロットのサイズが変更され、200個を超えるドキュメントで出現した語のみが同プロットに含められるようになります。
-
結果ウィンドウを閉じます。プロットのサイズ変更やサブセット化により分析を絞り込むことに加えて、
対話型のフィルタビューアを使用して語を直接検索することもできます。
-
テキストフィルタノードを選択した後、
フィルタビューアプロパティの省略記号ボタンをクリックします。
対話型のフィルタビューアで、
検索テキストボックス内に
softwareと入力し、
適用をクリックします。
[ドキュメント]テーブルには、検索対称の語を含んでいるテキストの抜粋が表示されます。[ドキュメント]テーブル内の情報を使用すると、ドキュメントの全文およびドキュメントのタイトルに加えて、抜粋結果を調べることにより、使用されている語のコンテキストを理解できるようになります。対話型のフィルタビューアに関する詳細は、SAS Text Minerのヘルプに含まれている対話型のフィルタビューアのトピックを参照してください。
対話型のフィルタビューアで語を検索する場合、興味深い問題が発生します。先述したように、“software”の検索では大文字小文字が区別されません。ただし、見つけたい語のインスタンスが存在したが、ドキュメントコレクション内でその語のスペルが間違っていたとしたらどうなるでしょうか?語をフィルタリングする場合、辞書データセットを使用してスペルチェックを行うこともできます。
-
対話型のフィルタビューアを閉じ、変更を保存するかどうかを尋ねられたら
いいえを選択します。
-
(オプション)
テキストフィルタノードを選択し、
スペルチェックを行うプロパティを
はい
に設定します。
テキストフィルタノードに戻ると、語がスペルチェックされ、スペルミスが検出されるようになります。スペルチェックで使用するデータセットを指定するには、
辞書プロパティの隣にある省略記号ボタンをクリックし、データセットを選択します。辞書データセットの作成に関する詳細は、SAS Text Minerのヘルプに含まれている[辞書データセットの作成]というトピックを参照してください。
テキストフィルタノードを右クリックし、実行を選択します。確認ダイアログボックスではいを選択します。同ノードの実行が完了したら、実行状態ダイアログボックス内でOKを選択します。スペルチェックの結果プロパティの隣にある省略記号ボタンをクリックすると、表示されたウィンドウで、スペルチェック時に生成されたスペルの修正を含んでいるデータセットを確認できます。たとえば、語"softwae"は、語"software"のスペルミスでとして識別されます。
この関係は、[対話型のフィルタビューア]の[語]テーブルで確認できます。フィルタビューアプロパティの隣にある省略記号ボタンをクリックします。[語]テーブル内にある語"software"を展開し、その類義語を確認します。この類義語には、スペルチェック時にミススペルとして識別された語である"softwae"が含まれています。
この類義語には、"applicaion"(この例のステップ7~10で作成されたもの)が含まれているほか、 "applicaion"(スペルチェック時に"application"のスペルミスとして識別された語)が含まれています。