この例では、SAS Enterprise Minerが実行されていること、およびダイアグラムワークスペースがプロジェクトで開かれていることを前提としています。プロジェクトやダイアグラムの作成に関する詳細は、Getting Started with SAS Enterprise Minerを参照してください。
テキストトピックノードを使用すると、語のリストから興味のあるトピックを作成できます。トピックのリストを作成する目的は、分析で興味のある語の組み合わせを確立することにあります。たとえば、「会社の社長(company
president)」のアクティビティについて議論している記事のマイニングの興味があるとします。このタスクにアプローチする1つの方法は、語"company"を含んでいるすべての記事、および語"president"を含んでいるすべて記事に注目することです。テキストトピックノードを使用すると、"company"および"president"という語を"company president”というトピックへと結合できます。
個々の語をトピックへと結合することにより、テキストマイニング分析を改善できます。結合を通じて、分析対象となるテキストの量を、自分が興味のある語のグループ数にまで削減できます。この例では、テキストトピックノードを使用してトピックを作成する方法を示します。
-
SASデータセットSAMPSIO.ABSTRACTには、さまざまな会議から収集したタイトルと概要のテキストが含まれています。ABSTRACTデータソースを作成し、それをダイアグラムワークスペースに追加します。TEXT変数およびTITLE変数のルール値を
テキスト(Text)
に設定します。
-
ツールバー上で
テキストマイニングタブを選択し、
テキスト解析ノードをダイアグラムワークスペースへとドラッグします。
-
ABSTRACTデータソースを
テキスト解析ノードに接続します。
-
テキスト解析ノードを選択した後、
品詞を無視するプロパティの省略記号ボタンをクリックします。
-
品詞を無視するダイアログボックスで、
Noun
を除くすべての品詞を選択します。これを行うには、Ctrlキーを押しながら各オプションをクリックします。
OKをクリックします。
-
-
ツールバー上で
テキストマイニングタブを選択し、
テキストフィルタノードをダイアグラムワークスペースへとドラッグします。
-
テキスト解析ノードを
テキストフィルタノードに接続します。
-
ツールバー上で
テキストマイニングタブを選択し、
テキストトピックノードをダイアグラムワークスペースへとドラッグします。
-
テキストフィルタノードを
テキストトピックノードに接続します。
この時点で、プロセスフローダイアグラムは次のようになります。
-
ダイアグラムワークスペースで、
テキストトピックノードを右クリックし、
実行を選択します。表示される
確認ダイアログボックスで
はいをクリックします。同ノードの実行完了後に表示される
実行ステータスダイアログボックス内で
結果をクリックします。
-
トピックテーブルを選択して、
テキストトピックノードのデフォルト実行により作成されたトピックを表示します。
-
ドキュメント数とトピックチャートを選択し、それが含んでいるドキュメント数別にトピックを確認します。
注: トピックID値を確認するためには、場合によってはデフォルトのグラフをリサイズする必要があります。
-
語テーブルを選択します。同テーブル内の最初のエントリを選択します。
語テーブルは、各トピックに関する語とその重みを表示します。すべての保持されている語は、名詞
または名詞グループ
の役割を持つことに注意してください。
-
マウスポインタをバーの上に置くと、ツールチップに、トピックID、このトピックに含まれている語の数、カテゴリ、およびトピックが表示されます。
-
トピック語マトリックスグラフは、複数の語にまたがるトピック値を表示します。
注: 点をより明確に確認するためには、このマトリックスを拡大する必要があります。
複数語トピックに加えて、テキストトピックノードを使用して、単一語トピックや独自のトピックを作成できます。
-
結果ウィンドウを閉じ、
テキストトピックノードを選択します。
-
単一語トピックの数プロパティを選択し、
10を入力した後、キーボード上の
Enterキーを押します。
-
ユーザートピックプロパティの隣にある省略記号ボタンをクリックします。
-
ユーザートピックダイアログボックスで、
をクリックして行を追加します。語
companyを入力し、その後に重み
0.5を与え、トピック
company and presidentを指定します。
を再度クリックし、2番目の行を追加します。語
presidentを入力し、その後に重み
0.5を与え、トピック
company and presidentを指定します。
-
-
テキストトピックノードを右クリックし、
実行を選択します。
確認ダイアログボックスで
はいを選択した後、ノードが実行を完了した時点で、
実行ステータスダイアログボックス内の
結果を選択します。
-
トピックテーブルを選択します。10個の新しい単一語トピックが、
ユーザートピックダイアログボックスで指定したトピックと共に作成されていることに注意してください。
-
ドキュメント数とトピックウィンドウを選択し、複数語、単一語、およびユーザー作成トピックを、それらが含んでいるドキュメント数別に表示します。
対話型のトピックビューアを使用すると、トピックのプロパティの表示や変更が行えます。
-
結果ウィンドウを閉じ、
テキストトピックノードを選択します。
トピックビューアプロパティの隣にある省略記号ボタンをクリックします。
対話型のトピックビューアウィンドウが表示されたら、
トピックペインの
トピック列に基づいて並べ替えを行います。
対話型のトピックビューア内で、トピック名、語およびドキュメントのカットオフ値、トピックの重みを変更できます。
-
トピックテーブル内でトピック値“company and president”を選択し、同トピックの名前を
companyに変更します。語テーブル内の語“company”のトピック重みを選択し、それを
0.25に変更します。
再計算をクリックします。
-
対話型のトピックビューアを閉じ、変更を保存するかどうかを尋ねられたら
いいえを選択します。
対話型のトピックビューアに関する詳細は、SAS Text Minerのヘルプに含まれている対話型のトピックビューアのトピックを参照してください。