目次
|
本書について
>
ビジュアルの操作
前のページ
|
次のページ
ワードクラウドの操作
ワードクラウドについて
ワードクラウドのデータ役割
ワードクラウドのデータ役割について
テキスト分析を使用するワードクラウドのデータ役割
カテゴリ値を使用するワードクラウドのデータ役割
ワードクラウドのプロパティの指定
テキスト分析結果の探索
新規ビジュアルとしての選択したドキュメントの探索
ワードクラウドについて
ワードクラウドは、文字データアイテムに含まれているワードの集合を表示します。ワードクラウドの種類と指定のデータ役割に応じて、クラウド内の各データのサイズは、ワードの重要性(トピックタームの重み)、ワードの度数、またはメジャーの値を表します。
次の2種類のワードクラウドを作成できます。
テキスト分析を使用するワードクラウド
テキスト分析を使用するワードクラウドは、ドキュメントコレクションデータアイテム内の各値を、複数のワードを含むテキストドキュメントとして分析します。ドキュメントコレクション内で頻繁に共に現れる複数のワードは、トピックとして識別されます。選択したトピックについて、ワードクラウドは最大のトピックタームの重み値を持つタームを表示します。トピックタームの重みは、トピック内でのタームの重要性を示します。
テキスト分析を使用するワードクラウドは、トピック内のドキュメントが正、負、中性のセンチメントを表すかどうかも表示できます。
テキスト分析ワードクラウドの詳細テーブルには、ターム、トピック、ドキュメントに関する追加情報が含まれます。
詳細については、
テキスト分析結果の探索
を参照してください。
テキスト分析を有効化するには、一意の行IDを設定し、1つ以上のカテゴリをドキュメントコレクションとして定義する必要があります。
テキスト分析用のデータアイテムの定義
を参照してください。
注:
テキスト分析は、英語のテキストまたはドイツ語のテキストにのみ適用できます。
注:
データソース内の行数やドキュメントコレクション内の値の長さによっては、テキスト分析を使用するワードクラウドが表示されるまでに、かなりの時間がかかることがあります。
注:
SAS Visual Analyticsにおけるテキスト分析では、SAS Text Minerとは異なるアルゴリズムを使用します。このため、SAS Visual Analyticsでのテキスト分析の結果が、SAS Text Minerプロシジャの結果とは異なる場合があります。
カテゴリ値を使用するワードクラウド
カテゴリ値を使用するワードクラウドは、カテゴリデータアイテム内の各値を、単一のテキスト文字列として分析します。ワードクラウドでは、最も高い度数を持つ文字列値か、またはメジャーの最大値を持つ文字列値のどちらかを表示できます。各ワードの色は、メジャーの値を表します。
注:
ワードクラウドを自動グラフとして表示する場合、
役割
タブで変更を行うと、ビジュアルがリセットする場合があります。ワードクラウドとして表示することを推奨します。
ワードクラウドのデータ役割
ワードクラウドのデータ役割について
ワードクラウドのデータ役割は、ユーザーが選択したワードクラウドの種類によって異なります。
ワードクラウドの表示
オプションは、ワードクラウドを生成する方法としてテキスト分析を使用するかそれともカテゴリ値を使用するかを選択します。
テキスト分析を使用するワードクラウドのデータ役割
テキスト分析を使用するワードクラウドの場合、基本的な役割は
ドキュメントコレクション
になります。ドキュメントコレクションとは、分析対象となるワードを含んでいるカテゴリデータアイテムです。
注:
テキスト分析を有効化するには、一意の行IDを設定し、1つ以上のカテゴリをドキュメントコレクションとして定義する必要があります。
テキスト分析用のデータアイテムの定義
を参照してください。
基本的な役割以外に、次の役割を指定できます。
ドキュメントの詳細
詳細テーブルの
ドキュメント
タブ内の列として表示されるデータアイテムを指定します。
カテゴリ値を使用するワードクラウドのデータ役割
カテゴリ値を使用するワードクラウドの場合、基本的な役割は
ワード
になります。ワードクラウド内で使用される値を含むカテゴリを指定します。
基本的な役割以外に、次の役割を指定できます。
サイズ
各ワードのサイズを決めるメジャーを指定します。メジャーの指定を省略した場合、ワードのサイズは各ワードの度数を表します。
色
各ワードの色を決めるメジャーを指定します。
ワードクラウドのプロパティの指定
プロパティ
タブでは、次のオプションを指定できます。
名前
ビジュアルの名前を指定します。
タイトル
グラフの上に表示されるタイトルを指定します。
注:
タイトル
オプションは、
グラフタイトルの自動作成
を選択した場合は無効になります。
グラフタイトルの自動作成
グラフタイトルがビジュアル内のデータアイテムに基づいて自動的に生成されるように指定します。
度数
(カテゴリ値の場合のみ)
度数をカウント(
カウント
)として表示するかパーセント(
パーセント
)として表示するかを指定します。
注:
度数値は、ビジュアルに表示されている(フィルタおよび他のデータ選択が適用された後の)データに基づきます。
注:
メジャーが
サイズ
役割に割り当てられている場合、このオプションは無効になります。
ワードの表示限界
ワードクラウドに表示されるワードの最大数を指定します。
フォントスケール
クラウド内にある最大ワードと最小ワード間のフォントサイズがどれだけ異なるかを指定します。この数値には、最大フォントサイズ(ポイント単位)の最小フォントサイズに対する割合を指定します。
カテゴリ値を使用するワードクラウドの場合、次のような追加オプションを指定できます。
色のグラデーション
ビジュアルのグラデーション色を選択します。
をクリックして、色の割り当てに使用する値を選択できます。
カスタムデータ範囲の指定
を参照してください。
テキスト分析を使用するワードクラウドの場合、次のような追加的な基本オプションを指定できます。
ドキュメントセンチメントの分析
ワードクラウドのセンチメント分析を有効にします。
センチメント分析は、ドキュメントのコンテンツに基づき、ドキュメントが正のセンチメント、負のセンチメント、中性のセンチメントを持つかどうかを判断します。
センチメント分析を有効にすると、トピック内で正、負、中性のドキュメントの数がワードクラウドの上部に表示されます。さらに、センチメント値が詳細テーブルの
トピック
タブと
ドキュメント
タブに表示されます。
ターム役割の識別
品詞別にタームを識別します。さらに、このオプションは名詞グループを単一のタームとして識別し、名前、住所、電話番号などのテキストエンティティを識別します。
注:
このオプションは、詳細オプションの
品詞を含める
、
名詞グループの抽出
、
エンティティ抽出の使用
と同等です。
最大トピック数
作成するトピックの最大数を指定します。4~20の範囲の数値を指定します。
テキスト分析を使用するワードクラウドの場合、次のような追加的な詳細オプションを指定できます。
ドキュメントセンチメントの分析
ワードクラウドのセンチメント分析を有効にします。
センチメント分析は、ドキュメントのコンテンツに基づき、ドキュメントが正のセンチメント、負のセンチメント、中性のセンチメントを持つかどうかを判断します。
センチメント分析を有効にすると、トピック内で正、負、中性のドキュメントの数がワードクラウドの上部に表示されます。さらに、センチメント値が詳細テーブルの
トピック
タブと
ドキュメント
タブに表示されます。
最大トピック数
作成するトピックの最大数を指定します。4~20の範囲の数値を指定します。
識別精度
トピックの識別に使用される精度を指定します。識別精度が
低い
場合、識別できるトピックの数は少なくなります。識別精度が
高い
場合、より多くの数のトピックを識別できます。
セルの重み
あるタームが出現するすべてのドキュメントで、そのタームを重み付けするかどうかを指定します。
対数
を選択すると、比較的少数のドキュメントに多く現れるタームが重視されなくなります。
タームの重み
ドキュメントコレクション内のタームに適用される重み付けアルゴリズムを指定します。
エントロピー
重み付けアルゴリズムは、ドキュメントコレクション全体で低い度数を持つタームを重視します。
ドキュメントしきい値
タームが現れるドキュメントの最小数を指定します。1~20の範囲の数値を指定します。最小数のドキュメント内にタームが現れない場合、そのタームはワードクラウドには含められません。
トピックラベル長
トピック名に含まれているタームの数を指定します。2~8の範囲の数値を指定します。このプロパティは、トピックの選択に使用されるタームの数には影響しません。トピック名のみが変更されます。
品詞を含める
タームが品詞別(名詞、動詞、形容詞など)に分類されることを指定します。各タームの品詞は、タームのデータチップに表示されます。
名詞グループの抽出
名詞のグループをタームとして識別するかどうかを指定します。
エンティティ抽出の使用
名前、住所、電話番号などのテキストエンティティを識別するかどうかを指定します。このオプションを無効にすると、テキストエンティティは他のテキストと同様に扱われます。
ワードのステミング
与えられたワードが取りえるあらゆる形式を単一のタームとして識別します。たとえば、
ワードのステミング
を選択すると、"sell"、"sells"、"selling"、"sold"などのワードはすべて、単一のタームである"sell"として識別されます。
ストップリストの使用(利用可能な場合)
タームを識別する際に、ストップリストを使用して、“the”、“with”、“is”などのよく使われるワードを除外するかどうかを指定します。利用できるストップリストが存在しない場合、ワードクラウドの最下部にメッセージが表示されます。
ストップリスト
使用されるストップリストを指定します(
ストップリストの使用
オプションが有効な場合)。
テキスト分析結果の探索
テキスト分析を使用するワードクラウドビジュアルの場合、多数の追加情報が詳細テーブルに表示されます。詳細テーブルを表示するには、ビジュアルツールバーから
ドロップダウンリストをクリックした後、
詳細を表示する
を選択します。
テキスト分析ワードクラウドの詳細テーブルには、次のタブが含まれます。
結果
現在のトピックのタームをすべて表示します。タームごとに、
トピックタームの重み値
は、現在のトピックでのタームの重要性を示します。
ターム役割の識別
プロパティまたは
品詞を含める
プロパティが有効な場合、
役割
値は各タームの文法的な役割を指定します。
注:
列ヘッダーをクリックして、列を並べ替えることができます。
トピック
ドキュメントコレクションのすべてのトピックを表示します。センチメント分析が有効な場合、各トピックの正、負、中性のドキュメントの数が表示されます。
注:
列ヘッダーをクリックして、列を並べ替えることができます。
ドキュメント
選択したタームを含む各ドキュメントを表示します。ドキュメントごとに、
関連性
の値は、そのドキュメントが現在のトピックにどのように関連しているかを示します。
ドキュメントの全テキストを表示するには、ドキュメントを右クリックして、
ドキュメントの完全表示
を選択します。
センチメント分析が有効な場合、
センチメント
の値は、ドキュメントがどのように正または負であるかを示します。ドキュメントをフィルタリングして、センチメントが正、負または中性であるドキュメントを除外できます。
注:
列ヘッダーをクリックして、数値列を並べ替えることができます。
分析
テキスト分析の重要な概念の定義を提供します。
新規ビジュアルとしての選択したドキュメントの探索
新規のテーブルビジュアルとして選択した一連のドキュメントを探索できます。選択したドキュメントからビジュアルを新規作成するには、次の手順に従います。
探索するトピックとタームを選択します。
詳細テーブルの
ドキュメント
タブで、新しいビジュアルで探索するドキュメントを選択します。すべてのドキュメントを選択するには、任意のドキュメントを右クリックして、
すべて選択
を選択します。
任意のドキュメントを右クリックして、
選択済みドキュメントからビジュアルを作成
を選択します。
新しいテーブルビジュアルが選択したドキュメント値で表示されます。
前のページ
|
次のページ
|
ページの先頭へ
Copyright © SAS Institute Inc. All rights reserved.