前のページ|次のページ

テキストインポートノードについて

テキストインポートノードは入力データノードの置き換えとして機能するものであり、これを使用することで、ディレクトリ内に含まれているファイルから、またはWeb上のファイルから動的にデータセットを作成できます。テキストインポートノードは、ベンダー固有フォーマット(MS WordやPDFなど)のテキストファイルを含んでいる可能性のあるインポートディレクトリを入力として取得します。同ノードはこのディレクトリを調査して、ファイル内にあるテキストのフィルタリングや抽出を行い、同テキストのコピーおよび同テキストの抜粋(または全体)をプレーンなテキストファイルとしてSASデータセット内に配置します。URLが指定された場合、同ノードはWebサイトをクロールし、Webからファイルを取り出し、それらをインポートディレクトリに移動した後、このフィルタリング処理を実行します。テキストインポートノードの出力は、テキスト解析ノードにインポート可能なデータセットになります。
テキストのフィルタリングに加えて、テキストインポートノードは、ドキュメントが書かれている言語を識別できるほか、ドキュメントをセッションエンコーディングへとトランスコードする処理もサポートします。エンコーディングやトランスコードに関する詳細は、SAS Text Minerのヘルプに含まれている「SAS Text MinerおよびSASセッションのエンコーディング」というトピックを参照してください。
テキストインポートノードは、Windowsマシン上にインストールされ実行されているSAS Document Conversion Serverを利用します。このマシンは、インストール時に指定されたホスト名とポート番号を通じてSAS Enterprise Minerからアクセス可能でなければなりません。
注:
  • エンコーディングがUTF-8のSASセッションでテキストインポートノードを実行すると、同ノードは、結果データセットがUTF-8のSASセッションで利用できるようにするために、フィルタリングされたすべてのテキストをUTF-8エンコーディングへとトランスコードします。その他すべてのSASセッションのエンコーディングでは、テキストインポートノードはデータをトランスコードせず、入力データは当該SASセッションと同じエンコーディングを使用するものと仮定します。詳細については、SAS Text Minerのヘルプに含まれている「SAS Text MinerおよびSASセッションのエンコーディング」というトピックを参照してください。
  • テキストインポートノードは、グループ処理(開始グループノードや停止グループノード)における利用ではサポートされません。
テキストインポートノードに関する詳細は、SAS Text Minerのヘルプを参照してください。
この章の残りの部分では、テキストインポートノードの使用例を紹介します。
前のページ|次のページ|ページの先頭へ