前のページ|次のページ

テキストトピックノードについて

テキストトピックノード
テキストトピックノードを使用すると、検出されたトピックやユーザー定義のトピックの両方に従って語とドキュメントを自動的に関連付けることにより、ドキュメントコレクションを調査できます。トピックとは、主要なテーマやアイデアを記述し特徴付ける語のコレクションです。このアプローチはクラスタリングとは異なります。なぜなら、クラスタリングは各ドキュメントを一意のグループに割り当てますが、テキストトピックノードは各ドキュメントおよび語のスコアを各トピックに割り当てるためです。ドキュメントや語が特定トピックに属していると見なすための関連付けが十分強い場合は、しきい値が使用されます。結果として、ドキュメントと語は、1つ以上のトピックに属すか、あるいはいかなるトピックにもまったく属さないことになります。ユーザーが要求するトピックの数は、ドキュメントコレクションのサイズに対して直接的な関連があります(たとえば、大規模なコレクションでは数も大きくなります)。
最もメモリを多用するタスクは、語/ドキュメントの頻度マトリックスの特異値分解(SVD)の計算です。詳細については、SAS Text Minerのヘルプの特異値分解(SVD)に関するトピックを参照してください。インメモリリソースが制限されている場合、テキストトピックノードは、完全なコレクションの代わりにドキュメントの単純なランダム標本を使用することで、同ノードを正常に実行しようと試みます。サンプリングは、サンプリングなしにSDVの計算を試みた際にノードがメモリ障害に遭遇した場合に発生します。さらに、サンプリングは通常ドキュメントコレクションが非常に大きい場合に発生するため、通常はモデリング結果に関して有害な影響はありません。サンプリングが正確にいつ発生するかは、お使いのコレクションの数、お使いのシステムが実行されているプラットフォーム、利用可能なRAMなどを含む多くのパラメータに依存します。
テキストトピックノードに関する詳細は、SAS Text Minerのヘルプを参照してください。
注: テキストトピックノードは、グループ処理(開始グループノードや停止グループノード)における利用ではサポートされません。
前のページ|次のページ|ページの先頭へ