前のページ|次のページ

分散サーバー: 共存HDFS

概要

共存HDFSとは、次の条件を満たすHadoopの配置のことです。
  • 分散SAS LASR Analytic Serverと同じハードウェア上で稼働すること。
  • SAS High-Performance Deployment of Hadoopが提供する各種サービスを組み込んでいること。
SAS High-Performance Deployment of HadoopはサービスをApache Hadoop(およびそれ以外のサポートされているHadoopディストリビューション)に追加することで、次の統合機能を実現します。
  • SASは特殊なファイル形式を使用して、テーブルをHDFSに保存します。このファイル名の接尾辞は、SASHDATです。HDFSに保存されている他のファイルと同様に、SASHDATファイルは一連のブロックとして分散されます。データ冗長性を提供するためにブロックのコピーが保存されます。
  • SASでは、ブロックが均等に分散されるように、ブロック配信アルゴリズムを拡張しています。SAS LASR Analytic Serverはデータのブロックを直接読み取るため、ブロックの均等分散がクラスタ内のマシンのワークロードの均等化に役立ちます。
この統合により、分散SAS LASR Analytic ServerはHDFSを使用して、複数のSASHDATテーブルを非常に効率的に並列で読み込めるようになります。
ヒント
基本的なHDFSコマンドについては、SAS LASR Analytic Server: Reference Guideを参照してください。

HDFSタブについて

概要

HDFSタブを開くには、Administratorのメインメニューからツール次にHDFSの探索を選択します。
注: HDFSタブは、共存HDFSを使用する配置で利用できます。HDFS表示機能を持つユーザーのみがHDFSタブにアクセスできます。
HDFSタブは、HDFSフォルダとテーブルのホスト層ビューを提供します。このビューは、メタデータやユーザーのアクセス許可には依存しません。かわりに、権限のあるHadoopアカウントがこのタブに表示される情報を取得します。
HDFSタブを使用して、次のタスクを実行できます。
  • HDFSフォルダとテーブルの表示。
  • HDFSに追加されたテーブルの行カウント、列、列情報、ブロック情報の表示。ブロック配信、ブロック冗長性、ブロック使用率のメジャーについての情報が提供されます。
  • SASHDAT形式で保存されたHDFSテーブルの削除。(SASHDATファイルでないファイルはリスト表示されますが、削除できません。)

システムプロパティ

HDFSシステムプロパティを表示するには、プロパティをクリックします。次の表で、フィールドを説明します。
HDFSシステムプロパティ
プロパティ
説明
アクセス許可設定のコマンド
この設定は使用されません。
ルートのアクセス許可に設定
この設定は使用されません。
ファイル情報取得のコマンド
この設定は使用されません。
データディレクトリ
ブロックの保存に使用されるディレクトリを示します。
ネームノード
Hadoopネームノードとして使用するマシンのホスト名を指定します。
ライブデータノード
接続可能なHadoopデータノードの数を指定します。
デッドデータノード
利用可能でないHadoopデータノードの数を指定します。

基本ファイル情報

基本ファイル情報を表示するには、ファイルを選択します。次の情報が提供されます。
基本ファイル情報
フィールド
説明
名前
ファイルの名前が示されます。
サイズ
サイズが示されます。この値には、ブロック形式のデータやファイルのメタデータの保存に必要なディスクスペースが含まれます。
変更日
ファイルが作成された、または置き換えられた日付を示します。
パス
HDFSディレクトリを示します。
説明
データとともに保存された説明が示されます。エクスプローラインターフェイスでテーブル名の横に表示される説明です。
コピー数
データの冗長コピー数を示します。
ブロックサイズ
データのブロックの保存に使用されるバイト数を示します。
変数の数
HDFSテーブルの列数が示されます。
所有者
データをHDFSに追加したユーザーのアカウントを示します。
グループ
ユーザーアカウントのプライマリUNIXグループを示します。
アクセス許可
所有者やグループなどの読み取り、書き込み、実行アクセス許可が示されます。
SASHDATファイル?
そのファイルがSASHDAT形式かどうかが示されます。はいは、ファイルがSASHDAT形式であることを示します。
圧縮
ファイルを圧縮するかどうかを指定します。はいは、ファイルを圧縮することを示します。
暗号化
ファイルを暗号化するかどうかを指定します。はいは、ファイルを暗号化することを示します。
注: HDFSタブでは、HDFSへのテーブルの追加中、1つのテーブルに複数ファイルが表示される場合があります。テーブルが追加された後では、複数ファイルは表示されません。

テーブル情報

列情報を表示するには、テーブルを選択し、列情報をクリックします。次の情報が提供されます。
列情報
フィールド
説明
列名
ソーステーブルの列名が示されます。
ラベル
テーブルがHDFSに追加されたときの、データセット列のラベルが示されます。
種類
数値または文字。数値変数は1としてエンコードされます。
オフセット
SASHDATファイルにおける変数の開始位置が示されます。
長さ
変数が使用するストレージを示します。
出力形式
変数に関連付けられた出力形式を示します。
フォーマット長
HDFSに追加されたとき変数に設定されていたフォーマット長が示されます。HDFSに追加された際、変数に出力形式が設定されていない場合、この値はゼロになります。
精度
数値出力形式のフォーマットの精度を示します。
長さ (フォーマット適用時)
フォーマット適用時の、変数の長さを示します。
行カウント情報を表示するには、テーブルを選択し、行カウントをクリックします。次の情報が提供されます。
行カウント情報
フィールド
説明
データの行数が示されます。
ブロック
データの保存に使用されるHDFSブロックの数を示します。
割り当て
データを保存するために割り当てられたバイト数を示します。値は、ブロックサイズとブロック数を掛けた数です。この値は、SASHDATファイルヘッダーに必要なスペースを含まないため、ファイルサイズより小さくなります。
使用
データの行の保存に使用される割り当て済みブロックのバイト数が示されます。
使用率
データの行の保存に使用される割り当て済みスペースのパーセントが示されます。

ブロック詳細情報

ブロックの詳細を表示するには、ファイルを選択し、ブロック詳細をクリックします。次の情報が提供されます。
ブロック詳細情報
フィールド
説明
ホスト名
データのブロックを保存する、クラスタ内のマシンが示されます。
ブロック名
ブロックのファイル名が示されます。
パス
ブロックへのディレクトリが示されます。
レコード長
データ内で変数が使用する列の長さの合計を示します。
レコード
ブロックに保存された行の数を示します。テーブルには冗長ブロックがリストされるため、リストされたレコードの合計はデータ内の行数と等しくありません。
所有者
データをHDFSに追加したユーザーのアカウントを示します。
グループ
データを保存したユーザーアカウントのプライマリUNIXグループが示されます。
アクセス許可
所有者やグループなどの読み取り、書き込み、実行アクセス許可が示されます。
列のヘッダーを基準に並べ替えることで、変則を特定できます。通常、同一マシンに複数のブロックが保存されます。ただし、通常は、レコード長所有者グループアクセス許可の値が行によって異なることはありません。
HDFSに追加されたファイルはブロックとして保存されます。1つのブロックは優先ブロックで、そのブロックの追加コピーがデータの冗長性を提供するために使用されます。ブロック配信ダイアログボックスでは、この情報を表示する2つの方法が提供されます。ブロック詳細ビュータブでは、ブロック番号を選択し、オリジナルブロックまたは冗長ブロックが保存されているホスト名を表示できます。ノード詳細ビューでは、ホスト名を選択し、そのマシンに保存されているブロック番号を表示できます。

ブロック配信情報

ブロック配信を表示するには、テーブルを選択し、ブロック配信をクリックします。次の情報が提供されます。
ブロック配信情報
フィールド
説明
ファイルサイズ
ファイルのサイズをバイトで示します。
ブロックサイズ
ファイルのブロックサイズを示します。
ブロック
データのオリジナルコピーを保存するために使用されているブロックの数を示します。
使用マシン
ファイルのオリジナルブロックまたは冗長ブロックがある、クラスタ内のマシンの数が示されます。
コピー数
データの冗長ブロックのコピーの数を示します。
ブロック詳細ビュータブで、ブロック数を指定できます。これにより、存在しているブロックのコピーの数や、それらのブロックを保存しているマシンのホスト名を表示できます。合計コピー数列の値は、オリジナルブロックとブロックの冗長コピーの数を足したものに等しくなります。列ヘッダーを選択して、行を並べ替えられます。理想的な分散では、合計コピー数が全ブロックに等しくなります。
ホスト詳細ビュータブで、ホストネームノードを展開し、そのマシンに保存されているブロック番号を表示できます。ブロック番号を選択すると、そのブロックのコピーがあるホスト名と他のマシンがホスト名リストに示されます。

追加ディレクトリの導入

お使いの各共存HDFSディレクトリは、SASHDATエンジンを使用しているライブラリによってメタデータで表される必要があります。必要なメタデータを作成する方法については、SAS Intelligence Platform: Data Administration GuideConnecting to Common Data Sourcesという章を参照してください。
次に、キーポイントを示します。
  • 共存HDFS内の各ディレクトリも、対応するLASRライブラリを持つ必要があります。 LASRライブラリの追加を参照してください。
  • 対応するLASRライブラリのサーバータグは、ドット区切り形式のソースパスでなければなりません。 サーバータグを参照してください。
  • 並列ロードを容易にするには、8文字以下の文字のみを含む単一レベルのパスを使用します。たとえば、/dept/sales/sales_departmentではなく、/salesを使用します。このパスはサーバータグのベースとなり、同サーバータグは並列ロードでライブラリ参照名として使用されます。

HDFSテーブルの削除

  1. フォルダペインでテーブルを右クリックし、削除を選択します。
  2. 物理データを、その物理データを表すメタデータオブジェクトと一緒に削除する場合は、確認ウィンドウで、HDFSストレージから削除チェックボックスをオンにします。
ヒント
HDFSテーブルの削除は、HDFSタブからも実施できます。テーブルを選択して、タブのツールバーにあるHDFSから削除 をクリックします。
前のページ|次のページ|ページの先頭へ
最終更新: 2018/10/24