前のページ|次のページ

長大なドキュメントの処理

SAS Text Minerは、ドキュメントを表示するために"bag-of-words"(さまざまな語を詰めた袋)式のアプローチを使用します。これは、ドキュメントが、各語が各ドキュメント内で現れる頻度を含むベクター(一次元配列)を使用して表されることを意味します。なお、語の順序は無視されます。このアプローチは、短いパラグラフサイズのドキュメントの場合には非常に有効ですが、長大なドキュメントの場合には有害な損失を引き起こすことがあります。各自のモデルで実際に使用するコンテンツを切り分けるためには、長大なドキュメントを前処理することを検討した方が良いでしょう。たとえば、論文を分析する場合、概要のみの分析が最も良い結果をもたらすと分かることがあります。長大なドキュメントから関連するコンテンツを抽出する場合、Perlのような別のプログラミング言語を使用することを検討してください。
前のページ|次のページ|ページの先頭へ