テキストマイニングとは、膨大なドキュメントコレクション中に潜在しているテーマやコンセプトを明らかにする作業です。テキストマイニングアプリケーションには2つのフェーズがあります。原文データの中身を調査するフェーズと、取り出した情報を使用して既存のプロセスを改善するフェーズです。これらのフェーズは両方とも重要であり、各フェーズはそれぞれ記述マイニングおよび予測マイニングと呼ばれることもあります。
記述マイニングとは、原文コレクション内に存在しているテーマやコンセプトを明らかにする作業です。たとえば、多くの会社では、Web、eメール、窓口センターなどのさまざまなソースから顧客のコメントを収集しています。原文コメントのマイニングには、原文コレクション内の語、フレーズ、およびその他のエンティティに関する情報を提供すること、ドキュメントを意味のあるグループへとクラスタリングすること、クラスタ内で発見されたコンセプトを報告することなどが含まれます。記述マイニングの結果を利用することで、原文コレクションをより良く理解できるようになります。
予測マイニングとは、ドキュメントをカテゴリに分類し、テキスト内に潜在している情報を利用して意思決定を行う作業です。たとえば、標準的な質問をする顧客を特定し、彼らに自動的な応答を提供したい場合などに、予測マイニングを利用できます。また、顧客が再度購入を行うかどうかや、顧客を逃がさないためにより多くの努力を行うべきかなども予測できます。
予測モデリングとは、過去のデータを調査して結果を予測する作業です。たとえば、過去の購買行動に関する情報や顧客のコメントを含んでいる顧客データセットがあるとします。これを使用して、新しい顧客のスコアリング(過去の顧客データに基づいて新規顧客を分析すること)に利用できる予測モデルを構築できます。たとえば、あなたが製薬会社の研究者であるならば、臨床研究での医師からの報告書から有害反応を手作業で符号化するのは、多くの労力のかかる誤りを起こしやすい作業であることをご存知でしょう。このような作業を行う代わりに、すべての過去の原文データを使用することで、どの医師の報告書がどの有害反応に対応しているかを示すモデルを作成できます。モデルを構築したら、原文データの処理は、入ってくる新しいレコードをスコアリングすることにより自動的に実施されます。あなたは「分類が困難な」ケースだけを調査すればよく、それ以外のケースはコンピュータに任せることができます。
テキストマイニングのこれらの両側面は、同じ要件を一部共有しています。たとえば、人間が容易に理解できる原文ドキュメントを、ソフトウェアがマイニングできるような形式で表現する必要がまずあります。生のドキュメントは、それが含んでいるパターンや関係を検出できるようにするための適切な処理を必要とします。人間は構造化されていないドキュメントに含まれている章、パラグラフ、センテンスなどを把握できますが、コンピュータは構造化された(定量的または定質的な)データを必要とします。このため、非構造化ドキュメントは、マイニングを行う前に、構造化された形式へと変換する必要があります。