この例では、
テキスト解析ノードを使用して、テキストを含んでいるデータセット内で語とそのインスタンスを特定する方法を示します。この例では、SAS Enterprise Minerが実行されていること、およびダイアグラムワークスペースがプロジェクトで開かれていることを前提としています。プロジェクトとダイアグラムの作成に関する詳細は、
プロジェクトの設定を参照してください。
-
SASデータセットSAMPSIO.ABSTRACTには、さまざまな会議から収集したタイトルと概要のテキストが含まれています。ABSTRACTデータソースを作成し、それをダイアグラムワークスペースに追加します。TEXT変数およびTITLE変数のルール値を
テキスト(Text)
に設定します。
-
ツールバー上で
テキストマイニングタブを選択し、
テキスト解析ノードをダイアグラムワークスペースへとドラッグします。
-
ABSTRACTデータソースを
テキスト解析ノードに接続します。
-
ダイアグラムワークスペースで、
テキスト解析ノードを右クリックし、
実行を選択します。表示される
確認ダイアログボックスで
はいをクリックします。
-
同ノードの実行完了後に表示される
実行ステータスダイアログボックス内で
結果をクリックします。
結果ウィンドウには、ABSTRACTデータソース内の語とそのインスタンスの分析に役立つ、さまざまな表形式出力やグラフィカル出力が表示されます。
-
語テーブル内の語を頻度順に並べ替えた後、語“software”を選択します。
語テーブルに示されているように、語“software”はABSTRACTデータソース内で440個のドキュメントに出現している名詞であり、合計で718回出現しています。
語テーブルで語を選択すると、テキスト解析結果プロット内のその語に対応する点が強調表示されます。
-
ドキュメント数と頻度プロットを選択し、強調表示されている点の上にカーソルを置くと、語“software”に関する情報が表示されます。
同様の情報は、ZIPFプロットでも表示されます。
属性と頻度チャートには、Alpha
がドキュメントコレクション内における属性の間で最高の頻度を持つことが示されます。
役割と頻度チャートには、Noun
がドキュメントコレクション内における役割の間で最高の頻度を持つことが示されます。
-
語テーブルに戻り、語“software”がテキスト解析分析内に保持されていることを確認します。これは、Keep列の値が
Y
であることにより示されます。
テキスト解析ノードをデフォルト設定で実行する場合、一部の語は保持されない場合があることに注意してください。
テキスト解析ノードを使用すると、ドキュメントコレクション内の語に関する統計データを収集できるだけでなく、特定の品詞、エンティティの種類、属性に一致する語を破棄することにより、解析済みの語の出力セットを変更できます。語テーブル内の語リストを下スクロールし、Noun
以外の役割を持つ語の多くが保持されていることを確認します。ここで、テキスト解析結果を、役割がNoun
である語に制限するとします。
-
-
テキスト解析ノードを選択した後、
品詞を無視するプロパティの省略記号ボタンをクリックします。
-
品詞を無視するダイアログボックスで、
Noun
を除くすべての品詞を選択します。これを行うには、Ctrlキーを押しながら各オプションをクリックします。
OKをクリックします。
品詞を無視するプロパティの値が、選択した値へと更新されたことを確認します。※ここで除外できるのは英語文法で使われる品詞のみで、例えば”Punctuation”(句読点)などは除外できません。また、テキスト解析ノードで品詞として認識できないもの(例.”Unknown”)をあらかじめこの機能を使って除外することはできません。
-
続いて、名詞に加えて、名詞グループを保持するものとします。
名詞グループプロパティを
はい
に変更します。
-
テキスト解析ノードを右クリックし、
実行を選択します。表示される
確認ダイアログボックスで
はいをクリックします。同ノードの実行完了後に表示される
実行ステータスダイアログボックス内で
結果を選択します。語“software”は、他の役割を含めた場合よりも、名詞または名詞グループという役割のみを含めた場合の方が、語の間でのランクがより高くなることが分かります。
語テーブルを下スクロールすると、
名詞
または
名詞グループ
役割を持つ語が含まれていることを確認できます。
予想されるように、ドキュメント数と頻度プロット内にプロットされる語はより少なくなります。
同様に、属性と頻度チャートに示されているように、Alpha
という属性を含む出力結果内の語の合計数も減少しています。※英語以外の場合は「複数の単語から成る語」に複数の単語から成る語を含むデータセットを指定することはできません。