用語集

libref (ライブラリ参照名)

SASライブラリに一時的に関連付けられる名前。SASファイルの完全名は、ピリオドで区切られた2つの語から構成されます。最初の語はライブラリ参照名であり、これはライブラリを表します。2番目の語は、特定のSASファイルの名前になります。たとえば、VLIB.NEWBDAYの場合、ライブラリ参照名VLIBは、ファイルNEWBDAYが格納されているライブラリを表しています。ライブラリ参照名を割り当てるには、LIBNAMEステートメントを使用するか、またはオペレーティングシステムのコマンドを使用します。

SASデータセット

SAS固有のいずれかのファイル形式で内容が格納されたファイル。SASデータセットには次の2種類があります。SASデータファイルとSASデータビューです。SASデータファイルは、データ値に加えて、そのデータに関連付けられているディスクリプタ情報を含みます。SASデータビューには、ディスクリプタ情報と、他のSASデータセットまたはソフトウェアベンダのファイル形式で格納されたファイルからデータ値を取り出すために必要となるその他の情報のみが含まれます。

エンティティ

SAS Text Minerが一般的なテキストから区別することができるタイプの情報。たとえば、SAS Text Minerは、名前(人名、地名、会社名、製品名など)、アドレス(番地、郵便番号、メールアドレス、URLなど)、日付、単位、通貨量、およびその他多くのエンティティを識別できます。

解析

テキストを成分語、フレーズ、マルチワード語、句読点、およびその他のタイプの情報に分割する目的でテキストを分析すること。

学習データ

モデル学習に使用される入力値とターゲット値を含んでいる現在利用可能なデータ。

カタログディレクトリ

カタログの各メンバの名前、種類、説明、および更新ステータスに関する情報を格納して保持する、SASカタログの一部。

クラスタリング

各グループ内のオブザベーションが可能な限り互いに近くなるように、かつ異なるグループが可能な限り互いに遠くなるように、1つのデータセットを相互排他的な複数のグループへと分割する処理。SAS Text Minerでは、クラスタリングには、特定のコレクションに含まれているドキュメントのうち、互いに類似しているグループを検出する機能が含まれています。クラスタの決定時に、そのクラスタ内にあるワードを検証することで、同クラスタのフォーカスが明らかになります。特定のドキュメントコレクション内でクラスタを形成することにより、各ドキュメントを読まなくとも、そのコレクションの内容を理解し要約できるようになります。クラスタを形成することで、当該コレクションにより強調されている中心テーマやカギとなる概念を明らかにできます。

検証データ

学習データを使用して開発されたデータモデルの適合性の検証に使用されるデータ。学習データセットと検証データセットの両者には、ターゲット変数値が含まれています。学習データ内のターゲット変数値は、モデルの学習に使用されます。検証データセット内のターゲット変数値は、学習モデルの予測値を既知のターゲット値と比較するために使用されます。これにより、そのモデルを使用して新しいデータをスコアリングする前に、同モデルの適合性を評価できます。

コンセプトのリンク付け

語テーブル内の選択された語に概念的に関連付けられている語を検索し表示する機能です。

スコアリング

出力を計算するために、モデルを新しいデータに適用する処理。スコアリングは、データマイニングで実行される最後の処理です。

ステミング

語の原形を見つけて戻す処理。たとえば、語grind、grinds、grinding、groundの原形はgrindになります。ステミングは英語でのみ使用することができます。

セグメント化

1つの母集団を、同様の要素を含む複数のサブ母集団へと分割する処理。セグメント化は、スーパーバイザーモードで実行することもできれば(ターゲット変数と、デシジョンツリーのような各種の手法を組み合わせて使用)、スーパーバイザー権限なしでも実行できます(クラスタリングまたはKohonenネットワークを使用)。

ソースレベルデバッガ

開発中のプログラム内の論理エラーを検出し解決するために使用されるSASシステムの対話環境。デバッガは、複数のウィンドウと一群のコマンドから構成されます。

ダイアグラム

プロセスフローダイアグラムを参照。

データソース

JavaベースのEnterprise Miner GUI環境においてSASデータセットを表すデータオブジェクトです。データソースには、Enterprise Minerがデータマイニングのプロセスフローダイアグラムでデータを使用するために必要とするSASデータセットに関するすべてのメタデータが含まれています。SAS Enterpriseデータソースの作成に必要となるSASデータセットのメタデータには、同データセットの名前と場所、そのライブラリパスの定義に使用されるSASコード、およびデータマイニング処理で使用される変数役割、測定レベル、関連付けられている属性が含まれています。

停止リスト

テキストマイニング分析から除外したい情報に乏しい無関係な語の単純なコレクションを含んでいるSASデータセット。

テストデータ

学習時には使用されないが、一般化やモデルの比較に使用される入力値とターゲット値を含んでいる現在利用可能なデータ。

特異値分解(SVD)

高次元データを低次元データに変換する手法。

ノード

(1) SAS Enterprise Minerのユーザーインターフェイスにおける、プロセスフローダイアグラム内のデータマイニングタスクを表すグラフィカルオブジェクト。データマイニングタスクを実行する統計ツールは、データマイニングのプロセスフローダイアグラム内に配置された時点でノードと呼ばれます。各ノードは、分析および予測データモデルのコンポーネントとして、数学的操作やグラフィカル操作を実行します。(2) ニューラルネットワークにおける線形または非線形のコンピューティング要素であり、1つまたは複数の入力を受け取り、入力関数を計算し、オプションでその結果を1つ以上のニューロンに振り向けます。ノードはニューロンまたはユニットとも呼ばれます。(3) ツリーダイアグラム内のリーフ(葉)。リーフ、ノード、セグメントという用語は密接に関連しており、これらはツリー内の同じ部分を指す場合があります。

プロセスフローダイアグラム

データマイニング分析時に、個々のEnterprise Minerノードにより実行される各種のデータマイニングタスクをグラフィカルに表現したもの。プロセスフローダイアグラムは、データマイナーが希望する対応する統計的操作の実行順に接続された、2つ以上の個別ノードから構成されます。省略形はPFDです。

分割

利用可能なデータを、学習(training)、検証(validation)、テスト(test)の各データセットに分割すること。

変数

SASデータセットまたはSASデータビュー内の列。各変数のデータ値は、すべてのオブザベーションの単一の特性を表します。各SAS変数は、名前、データタイプ(文字または数値)、長さ、出力形式、入力形式、ラベルという属性を持ちます。

モデル

入力から出力を計算する公式またはアルゴリズムです。データマイニングモデルには、入力変数が与えられた場合、ターゲット変数の条件付き分布に関する情報が含まれています。

ロールアップ語

ドキュメントコレクション内で最も大きく重み付けされている語。