前のページ|次のページ

テキストクラスタノードについて

テキストクラスタノードは、ドキュメントをクラスタリングすることで、特定の記述語に関するドキュメントやレポートの互いに疎な集合を作成します。次の2つのアルゴリズムが利用できます。期待最大アルゴリズムは、フラット表示を使用してドキュメントをクラスタリングします。一方、階層クラスタリングアルゴリズムは、クラスタをツリー階層へとグループ化します。両アプローチとも特異値分解(SVD)を使用して、元の重み付きの語/ドキュメントのマトリックスを、高密度ではあるが低次元の表現へと変換します。
テキストクラスタ処理のうちで最もメモリを多用するタスクは、重み付きのドキュメント別語の頻度マトリックスのSVD計算です。インメモリリソースが制限されている場合、当該ノードは完全なコレクションの代わりに、ドキュメントの単純なランダム標本を使用することで、同ノードを正常に実行しようと試みます。サンプリングは、サンプリングなしにSDVの計算を試みた際に、ノードにメモリ障害が発生した場合に発生します。さらに、サンプリングは通常ドキュメントコレクションが非常に大きい場合に発生するため、通常はモデリング結果に関して有害な影響はありません。サンプリングが正確にいつ発生するかは、お使いのコレクションの数、お使いのシステムが実行されているプラットフォーム、利用可能なRAMなど多くのパラメータに依存します。
テキストクラスタノードに関する詳細は、SAS Text Minerのヘルプを参照してください。
この章の残りの部分では、テキストクラスタノードの使用例を紹介します。
前のページ|次のページ|ページの先頭へ