この例では、SAMPSIO.NEWSデータセットを使用して、
テキストプロファイルノードを使った語のプロファイリングを行う方法を示します。この例では、SAS Enterprise Minerが実行されていること、およびダイアグラムワークスペースがプロジェクトで開かれていることを前提としています。プロジェクトとダイアグラムの作成に関する詳細は、
プロジェクトの設定を参照してください。
テキストプロファイルノードの前には、1つのテキスト解析ノードおよび少なくとも1つのテキストフィルタノードを配置する必要があります。
SAMPSIO.NEWSデータセットは、600件の簡潔なニュース記事から構成されます。これらのニュース記事のほとんどは、コンピュータグラフィックス、ホッケー、医療問題のうちいずれか1つのカテゴリに分類されます。
SAMPSIO.NEWSデータセットには600個のオブザベーションと次の変数が含まれています。
-
TEXTは名義尺度変数であり、ニュース記事のテキストを含んでいます。
-
graphicsは二値変数であり、ドキュメントがコンピュータグラフィックスカテゴリに属すかどうかを示します(属す場合は1、属さない場合は0となる)。
-
hockeyは二値変数であり、ドキュメントがホッケーカテゴリに属すかどうかを示します(属す場合は1、属さない場合は0となる)。
-
medicalは二値変数であり、ドキュメントが医療問題カテゴリに属すかどうかを示します(属す場合は1、属さない場合は0となる)。
-
newsgroupは名義尺度変数であり、ニュース記事が当てはまるグループを含んでいます。
-
データソースウィザードを使用して、データセットSAMPSIO.NEWS用のデータソースを定義します。
-
変数
graphics、
hockey、
medicalの測定レベルを
二値
に設定します。
-
変数
hockeyのモデル役割を
ターゲット
に設定し、変数
newsgroup、
graphics、
medicalの役割を
入力
に設定します。
-
変数
TEXTが役割
テキスト
を持つように設定します。
-
データソースウィザード — 意思決定の構成ダイアログボックスで
いいえ
を選択します。
-
ターゲット
hockeyではデフォルトのターゲットプロファイルを使用します。
-
NEWSデータソースを作成した後、それをダイアグラムワークスペースへとドラッグします。
-
ツールバー上で
テキストマイニングタブを選択し、
テキスト解析ノードをダイアグラムワークスペースへとドラッグします。
-
NEWSデータソースを
テキスト解析ノードに接続します。
-
ツールバー上で
テキストマイニングタブを選択し、
テキストフィルタノードをダイアグラムワークスペースへとドラッグします。
-
テキスト解析ノードを
テキストフィルタノードに接続します。
-
ツールバー上で
テキストマイニングタブを選択し、
テキストプロファイルノードをダイアグラムワークスペースへとドラッグします。
-
テキストフィルタノードを
テキストプロファイルノードに接続します。
この時点で、プロセスフローダイアグラムは次のようになります。
-
プロセスフローダイアグラム内で
テキストプロファイルノードを選択します。
-
ダイアグラムワークスペースで、
テキストプロファイルノードを右クリックし、
実行を選択します。表示される
確認ダイアログボックスで
はいをクリックします。
-
同ノードの実行完了後に表示される
実行ステータスダイアログボックス内で
結果をクリックします。
-
ターゲットの分布円グラフには、ターゲット値の頻度が表示されます。このグラフは階層レベル別にグループ化されており、プロファイル済み変数テーブルにリンクされています。
-
プロファイル済み変数テーブルには、ターゲット変数値の個々の組み合わせと、それらが関連付けられている最も高いビリーフ(確信度)を持つ語が表示されます。各オブザベーションは最大で、指定された最大数の語(各オブザベーションに関連付けられているもの)を持ちますが、それより少ない数を持つ場合もあります。テキストプロファイルノードの結果ウィンドウに表示されるすべてのグラフィカルな結果は、このテーブルにリンクされています。このため、プロファイル済み変数テーブル内のオブザベーションを選択すると、それに対応するデータ点がグラフィックス内で強調表示されます。または、グラフィックス内のデータ点を選択すると、それに対応するオブザベーションがプロファイル済み変数テーブル内で強調表示されます。
-
-
-
変数
プロパティの隣にある省略記号ボタンをクリックします。
変数ダイアログボックスが表示されます。
-
newsgroup変数の役割を
ターゲット
に、
hockey変数の役割を
入力にそれぞれ設定します。
-
-
ダイアグラムワークスペースで、
テキストプロファイルノードを右クリックし、
実行をクリックします。表示される
確認ダイアログボックスで
はいをクリックします。
-
同ノードの実行完了後に表示される
実行ステータスダイアログボックス内で
結果をクリックします。
-
ターゲットの値を、二値のhockey変数から名義尺度のnewsgroup変数へと変更したため、3つの可能なnewsgroup値(hockey、medical、graphics)の分布を確認できます。
-
ターゲットの類似点コンスタレーションプロットは、さまざまなターゲット値間における類似性を表示します。類似性は、語のビリーフ(確信度)に対してPROC DISTANCEを使用することにより計測されます。リンクは、階層の同じレベル上のターゲット値間でのみ表示されます。コンスタレーションプロットは、プロファイル済み変数テーブルにリンクされています。
注: ターゲットの類似点コンスタレーションプロットは、名義尺度および順序尺度ターゲットで利用できます。
-
ビリーフ(値)グラフは、さまざまなターゲット値の語と役割のペアに関するビリーフ(確信度)値を表示します。マウスポインタをセルの上に置くと、ツールチップにターゲット値、語と役割のペア、ビリーフ値が表示されます。
注: ビリーフ(値)グラフは、名義尺度および順序尺度ターゲットの場合に表示されます。
-
-
-
-
語の最大数プロパティの値をクリックし、
16
を入力します。
キーボードのEnterキーを押します。
-
ダイアグラムワークスペースで、
テキストプロファイルノードを右クリックし、
実行をクリックします。表示される
確認ダイアログボックスで
はいをクリックします。
-
同ノードの実行完了後に表示される
実行ステータスダイアログボックス内で
結果をクリックします。
-
プロファイル済み変数テーブルを選択します。ターゲット値ごとに16個の語と役割のペアが表示されていることを確認します。
-
-
(オプション)
テキストプロファイルノードを、出力形式DATEまたはDATETIMEを持つターゲット変数とともに実行します。この結果、語(時系列)ラインプロットが作成されます。
-
Sampsioライブラリを使用してデータソース
VRTEXTを作成します。
VAX_DATE変数の役割値を
Target
に設定します。
このデータソースには、ワクチン接種に対する有害事象反応が含まれています。たとえば、報告された副作用には、痛み、充血、発熱などが含まれる可能性があります。
-
VRTEXTノードをダイアグラムワークスペースに追加します。
-
ツールバー上で
テキストマイニングタブを選択し、
テキスト解析ノードをダイアグラムワークスペースへとドラッグします。
-
VRTEXTデータソースを
テキスト解析ノードに接続します。
-
ツールバー上で
テキストマイニングタブを選択し、
テキストフィルタノードをダイアグラムワークスペースへとドラッグします。
-
テキスト解析ノードを
テキストフィルタノードに接続します。
-
ツールバー上で
テキストマイニングタブを選択し、
テキストプロファイルノードをダイアグラムワークスペースへとドラッグします。
-
テキストフィルタノードを
テキストプロファイルノードに接続します。
この時点で、プロセスフローダイアグラムは次のようになります。
-
テキストプロファイルノードを選択し、
ビンの間隔プロパティの値として
月単位
を選択します。
-
ダイアグラムワークスペースで、
テキストプロファイルノードを右クリックし、
実行をクリックします。表示される
確認ダイアログボックスで
はいをクリックします。
-
同ノードの実行完了後に表示される
実行ステータスダイアログボックス内で
結果をクリックします。
-
語(時系列)ラインプロットを選択した後、メニューから
Oct 2005
を選択します。
この例では、インフルエンザが流行し始め、数カ月間はピーク状態を保つことを確認できます。
-
(オプション)
テキストプロファイルノードを順序尺度のターゲット変数とともに実行します。この結果、語(順序列)ラインプロットが作成されます。