前のページ|次のページ

テキストプロファイルノードの使用

この例では、SAMPSIO.NEWSデータセットを使用して、テキストプロファイルノードを使った語のプロファイリングを行う方法を示します。この例では、SAS Enterprise Minerが実行されていること、およびダイアグラムワークスペースがプロジェクトで開かれていることを前提としています。プロジェクトとダイアグラムの作成に関する詳細は、プロジェクトの設定を参照してください。
テキストプロファイルノードの前には、1つのテキスト解析ノードおよび少なくとも1つのテキストフィルタノードを配置する必要があります。
SAMPSIO.NEWSデータセットは、600件の簡潔なニュース記事から構成されます。これらのニュース記事のほとんどは、コンピュータグラフィックス、ホッケー、医療問題のうちいずれか1つのカテゴリに分類されます。
SAMPSIO.NEWSデータセットには600個のオブザベーションと次の変数が含まれています。
  • TEXTは名義尺度変数であり、ニュース記事のテキストを含んでいます。
  • graphicsは二値変数であり、ドキュメントがコンピュータグラフィックスカテゴリに属すかどうかを示します(属す場合は1、属さない場合は0となる)。
  • hockeyは二値変数であり、ドキュメントがホッケーカテゴリに属すかどうかを示します(属す場合は1、属さない場合は0となる)。
  • medicalは二値変数であり、ドキュメントが医療問題カテゴリに属すかどうかを示します(属す場合は1、属さない場合は0となる)。
  • newsgroupは名義尺度変数であり、ニュース記事が当てはまるグループを含んでいます。
  1. データソースウィザードを使用して、データセットSAMPSIO.NEWS用のデータソースを定義します。
    1. 変数graphicshockeymedicalの測定レベルを二値に設定します。
    2. 変数hockeyのモデル役割をターゲットに設定し、変数newsgroupgraphicsmedicalの役割を入力に設定します。
    3. 変数TEXTが役割テキストを持つように設定します。
    4. データソースウィザード — 意思決定の構成ダイアログボックスでいいえを選択します。
    5. ターゲットhockeyではデフォルトのターゲットプロファイルを使用します。
  2. NEWSデータソースを作成した後、それをダイアグラムワークスペースへとドラッグします。
  3. ツールバー上でテキストマイニングタブを選択し、テキスト解析ノードをダイアグラムワークスペースへとドラッグします。
  4. NEWSデータソースをテキスト解析ノードに接続します。
  5. ツールバー上でテキストマイニングタブを選択し、テキストフィルタノードをダイアグラムワークスペースへとドラッグします。
  6. テキスト解析ノードをテキストフィルタノードに接続します。
  7. ツールバー上でテキストマイニングタブを選択し、テキストプロファイルノードをダイアグラムワークスペースへとドラッグします。
  8. テキストフィルタノードをテキストプロファイルノードに接続します。
    この時点で、プロセスフローダイアグラムは次のようになります。
    プロセスフローダイアグラム
  9. プロセスフローダイアグラム内でテキストプロファイルノードを選択します。
  10. ダイアグラムワークスペースで、テキストプロファイルノードを右クリックし、実行を選択します。表示される確認ダイアログボックスではいをクリックします。
  11. 同ノードの実行完了後に表示される実行ステータスダイアログボックス内で結果をクリックします。
  12. ターゲットの分布円グラフを選択します。
    ターゲットの分布円グラフ
    ターゲットの分布円グラフには、ターゲット値の頻度が表示されます。このグラフは階層レベル別にグループ化されており、プロファイル済み変数テーブルにリンクされています。
  13. プロファイル済み変数テーブルを選択します。
    プロファイル済み変数テーブル
    プロファイル済み変数テーブルには、ターゲット変数値の個々の組み合わせと、それらが関連付けられている最も高いビリーフ(確信度)を持つ語が表示されます。各オブザベーションは最大で、指定された最大数の語(各オブザベーションに関連付けられているもの)を持ちますが、それより少ない数を持つ場合もあります。テキストプロファイルノードの結果ウィンドウに表示されるすべてのグラフィカルな結果は、このテーブルにリンクされています。このため、プロファイル済み変数テーブル内のオブザベーションを選択すると、それに対応するデータ点がグラフィックス内で強調表示されます。または、グラフィックス内のデータ点を選択すると、それに対応するオブザベーションがプロファイル済み変数テーブル内で強調表示されます。
  14. 結果ウィンドウを閉じます。
  15. Newsデータソースを選択します。
  16. 変数プロパティの隣にある省略記号ボタンをクリックします。
    変数ダイアログボックスが表示されます。
  17. newsgroup変数の役割をターゲットに、hockey変数の役割を入力にそれぞれ設定します。
  18. OKをクリックします。
  19. ダイアグラムワークスペースで、テキストプロファイルノードを右クリックし、実行をクリックします。表示される確認ダイアログボックスではいをクリックします。
  20. 同ノードの実行完了後に表示される実行ステータスダイアログボックス内で結果をクリックします。
  21. ターゲットの分布円グラフを選択します。
    ターゲットの分布円グラフ
    ターゲットの値を、二値のhockey変数から名義尺度のnewsgroup変数へと変更したため、3つの可能なnewsgroup値(hockey、medical、graphics)の分布を確認できます。
  22. ターゲットの類似点コンスタレーションプロット
    ターゲットの類似点コンスタレーションプロット
    ターゲットの類似点コンスタレーションプロットは、さまざまなターゲット値間における類似性を表示します。類似性は、語のビリーフ(確信度)に対してPROC DISTANCEを使用することにより計測されます。リンクは、階層の同じレベル上のターゲット値間でのみ表示されます。コンスタレーションプロットは、プロファイル済み変数テーブルにリンクされています。
    注: ターゲットの類似点コンスタレーションプロットは、名義尺度および順序尺度ターゲットで利用できます。
  23. ビリーフ(値)グラフを選択します。
    ビリーフ(値)グラフ
    ビリーフ(値)グラフは、さまざまなターゲット値の語と役割のペアに関するビリーフ(確信度)値を表示します。マウスポインタをセルの上に置くと、ツールチップにターゲット値、語と役割のペア、ビリーフ値が表示されます。
    注: ビリーフ(値)グラフは、名義尺度および順序尺度ターゲットの場合に表示されます。
  24. プロファイル済み変数テーブルを選択します。
    プロファイル済み変数テーブル
  25. 結果ウィンドウを閉じます。
  26. テキストプロファイルノードを選択します。
  27. 語の最大数プロパティの値をクリックし、16を入力します。
    キーボードのEnterキーを押します。
  28. ダイアグラムワークスペースで、テキストプロファイルノードを右クリックし、実行をクリックします。表示される確認ダイアログボックスではいをクリックします。
  29. 同ノードの実行完了後に表示される実行ステータスダイアログボックス内で結果をクリックします。
  30. プロファイル済み変数テーブルを選択します。ターゲット値ごとに16個の語と役割のペアが表示されていることを確認します。
  31. 結果ウィンドウを閉じます。
  32. (オプション)テキストプロファイルノードを、出力形式DATEまたはDATETIMEを持つターゲット変数とともに実行します。この結果、語(時系列)ラインプロットが作成されます。
    1. Sampsioライブラリを使用してデータソースVRTEXTを作成します。VAX_DATE変数の役割値をTargetに設定します。
      このデータソースには、ワクチン接種に対する有害事象反応が含まれています。たとえば、報告された副作用には、痛み、充血、発熱などが含まれる可能性があります。
    2. VRTEXTノードをダイアグラムワークスペースに追加します。
    3. ツールバー上でテキストマイニングタブを選択し、テキスト解析ノードをダイアグラムワークスペースへとドラッグします。
    4. VRTEXTデータソースをテキスト解析ノードに接続します。
    5. ツールバー上でテキストマイニングタブを選択し、テキストフィルタノードをダイアグラムワークスペースへとドラッグします。
    6. テキスト解析ノードをテキストフィルタノードに接続します。
    7. ツールバー上でテキストマイニングタブを選択し、テキストプロファイルノードをダイアグラムワークスペースへとドラッグします。
    8. テキストフィルタノードをテキストプロファイルノードに接続します。
      この時点で、プロセスフローダイアグラムは次のようになります。
      プロセスフローダイアグラム
    9. テキストプロファイルノードを選択し、ビンの間隔プロパティの値として月単位を選択します。
    10. ダイアグラムワークスペースで、テキストプロファイルノードを右クリックし、実行をクリックします。表示される確認ダイアログボックスではいをクリックします。
    11. 同ノードの実行完了後に表示される実行ステータスダイアログボックス内で結果をクリックします。
    12. 語(時系列)ラインプロットを選択した後、メニューからOct 2005を選択します。
      語(時系列)ラインプロット
      この例では、インフルエンザが流行し始め、数カ月間はピーク状態を保つことを確認できます。
  33. (オプション)テキストプロファイルノードを順序尺度のターゲット変数とともに実行します。この結果、語(順序列)ラインプロットが作成されます。
前のページ|次のページ|ページの先頭へ