目次|テキストマイニングのヒント

前のページ|次のページ

大規模なドキュメントコレクションの処理

SAS Text Minerノードを使用して大規模なドキュメントコレクションを処理する場合、非常に大量の計算時間とリソースが必要となることがあります。リソースが限られている場合、次に示すアクションのうちいずれか1つまたは複数を実施する必要があります。

ドキュメントコレクションのサンプルを使用すること。
解析プロパティの一部をNoまたはNoneに設定すること(名詞グループやエンティティの検索など)。
SVD次元やロールアップ語の数を減らすこと。SVDアプローチでメモリ問題が発生している場合、特定の数の語をロールアップすると、残りの語は自動的に破棄されます。
名詞、固有名詞、名詞グループ、動詞以外のすべての品詞をオフにすることにより、解析を情報性の高い語に限定すること。
最良の結果を得るために、正しい文法、句読点、大文字の使用を含めて、センテンスを構造化すること。エンティティの抽出が常に適切な結果を生成するとは限りません。

Copyright © SAS Institute Inc. All rights reserved.