本章では、テキストトピックノードとテキストルールビルダノードを使用してトピックとルールを作成する方法を示します。
テキストトピックノードを使用すると、検出されたトピックやユーザー定義のトピックの両方に従って語とドキュメントを自動的に関連付けることにより、ドキュメントコレクションを調査できます。トピックとは、主要なテーマやアイデアを記述し特徴付ける語のコレクションです。トピックのリストを作成する目的は、分析で興味のある語の組み合わせを確立することにあります。個々の語をトピックへと結合することにより、テキストマイニング分析を改善できます。結合を通じて、分析対象となるテキストの量を、自分が興味のある語のグループ数にまで削減できます。テキストトピックノードの詳細については、SAS Text Minerのヘルプを参照してください。
テキストルールビルダノードは、ターゲット変数の記述や予測に役立つルールの順序集合を、語の小規模なサブセットから生成します。この集合内の各ルールは、1つの語または語の小規模なサブセットが存在するかどうかを示す論理積(“term1”
AND “term2” AND (NOT “term3”)など)から構成される特定のターゲットカテゴリと関連付けられます。あるドキュメントが少なくとも1つのterm1とterm2のオカレンスを含むがterm3のオカレンスは含まない場合にのみ、そのドキュメントはこのルールにマッチします。この派生ルールの集合は、記述的かつ予測的である1つのモデルを生成します。新規ドキュメントを分類する場合、その作業は順序集合を通じて進められ、そのドキュメントにマッチした最初のルールと関連付けられているターゲットが選択されます。このルールは、SAS
Content Categorization Studio内部で使用可能でそこに配置可能な構文で提供されます。テキストルールビルダノードに関する詳細は、SAS Text Minerのヘルプを参照してください。