前のページ|次のページ

テキストトピックノードの使用

この例では、SAS Enterprise Minerが実行されていること、およびダイアグラムワークスペースがプロジェクトで開かれていることを前提としています。プロジェクトやダイアグラムの作成に関する詳細は、Getting Started with SAS Enterprise Minerを参照してください。
テキストトピックノードを使用すると、語のリストから興味のあるトピックを作成できます。トピックのリストを作成する目的は、分析で興味のある語の組み合わせを確立することにあります。たとえば、「会社の社長(company president)」のアクティビティについて議論している記事のマイニングの興味があるとします。このタスクにアプローチする1つの方法は、語"company"を含んでいるすべての記事、および語"president"を含んでいるすべて記事に注目することです。テキストトピックノードを使用すると、"company"および"president"という語を"company president”というトピックへと結合できます。
個々の語をトピックへと結合することにより、テキストマイニング分析を改善できます。結合を通じて、分析対象となるテキストの量を、自分が興味のある語のグループ数にまで削減できます。この例では、テキストトピックノードを使用してトピックを作成する方法を示します。
  1. SASデータセットSAMPSIO.ABSTRACTには、さまざまな会議から収集したタイトルと概要のテキストが含まれています。ABSTRACTデータソースを作成し、それをダイアグラムワークスペースに追加します。TEXT変数およびTITLE変数のルール値をテキスト(Text)に設定します。
  2. ツールバー上でテキストマイニングタブを選択し、テキスト解析ノードをダイアグラムワークスペースへとドラッグします。
  3. ABSTRACTデータソースをテキスト解析ノードに接続します。
  4. テキスト解析ノードを選択した後、品詞を無視するプロパティの省略記号ボタンをクリックします。
  5. 品詞を無視するダイアログボックスで、Nounを除くすべての品詞を選択します。これを行うには、Ctrlキーを押しながら各オプションをクリックします。OKをクリックします。
  6. 名詞グループプロパティをはいに変更します。
  7. ツールバー上でテキストマイニングタブを選択し、テキストフィルタノードをダイアグラムワークスペースへとドラッグします。
  8. テキスト解析ノードをテキストフィルタノードに接続します。
  9. ツールバー上でテキストマイニングタブを選択し、テキストトピックノードをダイアグラムワークスペースへとドラッグします。
  10. テキストフィルタノードをテキストトピックノードに接続します。
    この時点で、プロセスフローダイアグラムは次のようになります。
    プロセスフローダイアグラム
  11. ダイアグラムワークスペースで、テキストトピックノードを右クリックし、実行を選択します。表示される確認ダイアログボックスではいをクリックします。同ノードの実行完了後に表示される実行ステータスダイアログボックス内で結果をクリックします。
  12. トピックテーブルを選択して、テキストトピックノードのデフォルト実行により作成されたトピックを表示します。
    トピックテーブル
  13. ドキュメント数とトピックチャートを選択し、それが含んでいるドキュメント数別にトピックを確認します。
    ドキュメント数とトピックチャート
    注: トピックID値を確認するためには、場合によってはデフォルトのグラフをリサイズする必要があります。
  14. テーブルを選択します。同テーブル内の最初のエントリを選択します。
    語テーブル
    テーブルは、各トピックに関する語とその重みを表示します。すべての保持されている語は、名詞または名詞グループの役割を持つことに注意してください。
  15. 語数とトピック棒グラフを選択します。
    語数とトピック棒グラフ
    マウスポインタをバーの上に置くと、ツールチップに、トピックID、このトピックに含まれている語の数、カテゴリ、およびトピックが表示されます。
  16. トピック語マトリックスグラフを選択します。
    トピック語マトリックスグラフ
    トピック語マトリックスグラフは、複数の語にまたがるトピック値を表示します。
    注: 点をより明確に確認するためには、このマトリックスを拡大する必要があります。
    複数語トピックに加えて、テキストトピックノードを使用して、単一語トピックや独自のトピックを作成できます。
  17. 結果ウィンドウを閉じ、テキストトピックノードを選択します。
  18. 単一語トピックの数プロパティを選択し、10を入力した後、キーボード上のEnterキーを押します。
  19. ユーザートピックプロパティの隣にある省略記号ボタンをクリックします。
  20. ユーザートピックダイアログボックスで、追加ボタンをクリックして行を追加します。語companyを入力し、その後に重み0.5を与え、トピックcompany and presidentを指定します。追加ボタンを再度クリックし、2番目の行を追加します。語presidentを入力し、その後に重み0.5を与え、トピックcompany and presidentを指定します。
    ユーザートピックウィンドウ
  21. OKをクリックします。
  22. テキストトピックノードを右クリックし、実行を選択します。確認ダイアログボックスではいを選択した後、ノードが実行を完了した時点で、実行ステータスダイアログボックス内の結果を選択します。
  23. トピックテーブルを選択します。10個の新しい単一語トピックが、ユーザートピックダイアログボックスで指定したトピックと共に作成されていることに注意してください。
    トピックテーブル
  24. ドキュメント数とトピックウィンドウを選択し、複数語、単一語、およびユーザー作成トピックを、それらが含んでいるドキュメント数別に表示します。
    ドキュメント数とトピックチャート
    対話型のトピックビューアを使用すると、トピックのプロパティの表示や変更が行えます。
  25. 結果ウィンドウを閉じ、テキストトピックノードを選択します。トピックビューアプロパティの隣にある省略記号ボタンをクリックします。対話型のトピックビューアウィンドウが表示されたら、トピックペインのトピック列に基づいて並べ替えを行います。
    対話型のトピックビューア
    対話型のトピックビューア内で、トピック名、語およびドキュメントのカットオフ値、トピックの重みを変更できます。
  26. トピックテーブル内でトピック値“company and president”を選択し、同トピックの名前をcompanyに変更します。語テーブル内の語“company”のトピック重みを選択し、それを0.25に変更します。再計算をクリックします。
    対話型のトピックビューア
  27. 対話型のトピックビューアを閉じ、変更を保存するかどうかを尋ねられたらいいえを選択します。対話型のトピックビューアに関する詳細は、SAS Text Minerのヘルプに含まれている対話型のトピックビューアのトピックを参照してください。
前のページ|次のページ|ページの先頭へ