前のページ|次のページ

大規模なドキュメントコレクションの処理

SAS Text Minerノードを使用して大規模なドキュメントコレクションを処理する場合、非常に大量の計算時間とリソースが必要となることがあります。リソースが限られている場合、次に示すアクションのうちいずれか1つまたは複数を実施する必要があります。
  • ドキュメントコレクションのサンプルを使用すること。
  • 解析プロパティの一部をNoまたはNoneに設定すること(名詞グループエンティティの検索など)。
  • SVD次元やロールアップ語の数を減らすこと。SVDアプローチでメモリ問題が発生している場合、特定の数の語をロールアップすると、残りの語は自動的に破棄されます。
  • 名詞、固有名詞、名詞グループ、動詞以外のすべての品詞をオフにすることにより、解析を情報性の高い語に限定すること。
  • 最良の結果を得るために、正しい文法、句読点、大文字の使用を含めて、センテンスを構造化すること。エンティティの抽出が常に適切な結果を生成するとは限りません。
前のページ|次のページ|ページの先頭へ