上一頁|下一頁

分散式伺服器:共用的 HDFS

簡介

共用的 HDFS 是符合下列準則的 Hadoop 部署:
  • 部署執行在相同的硬體,作為分散式 SAS LASR Analytic Server。
  • 部署併入 Hadoop 提供者的 SAS High-Performance 部署服務。
SAS High-Performance Deployment of Hadoop 將服務增加到 Apache Hadoop (和其他支援 Hadoop 分散) 可以提供下列整合功能:
  • SAS 可以使用特殊的檔案格式 (檔案名稱後置詞是 SASHDAT),將表格儲存在 HDFS 中。如同任何儲存在 HDFS 中的檔案,SASHDAT 檔案也以一系列區塊的形式分配。儲存區塊複本可以提供資料備援性。
  • SAS 強化區塊分配演算法可以確認區塊是平均分配。由於 SAS LASR Analytic Server 可以直接讀取資料區塊,因此平均區塊分配可以讓叢集中的電腦能有平均的工作負載。
此整合可以讓分散式 SAS LASR Analytic Server 使用 HDFS 極有效率地平行讀取 SASHDAT 表格。
提示
基本 HDFS 命令記錄在 SAS LASR Analytic Server: Reference Guide 中。

關於 HDFS 標籤

簡介

若要開啟 [HDFS] 標籤,請從管理員中的主功能表選取 [工具]然後選取[瀏覽 HDFS]
附註: [HDFS] 標籤可以在共用的 HDFS 部署中使用。只有具備瀏覽 HDFS 功能的使用者可以存取 [HDFS] 標籤。
[HDFS] 標籤提供 HDFS 資料夾和表格的主機層檢視。此檢視不是由中繼資料或由您的權限傳達。而是有權限的 Hadoop 帳戶會擷取此標籤顯示的資訊。
您可以使用 [HDFS] 標籤執行下列工作:
  • 瀏覽 HDFS 資料夾和表格。
  • 檢視已增加到 HDFS 表格的列計數、欄、欄資訊和區塊資訊。提供的資訊是關於區塊分配、區塊備援和區塊使用率的量值。
  • 刪除使用 SASHDAT 格式儲存的 HDFS 表格。(不是 SASHDAT 檔案的檔案也會列出,但無法刪除。)

系統屬性

若要檢視 HDFS 系統屬性,請按一下 屬性。下列表格描述相關欄位:
HDFS 系統屬性
屬性
描述
設定權限的命令
不使用此設定。
是否將權限設定為 root?
不使用此設定。
取得檔案資訊的命令
不使用此設定。
資料目錄
指定儲存區塊使用的目錄。
名稱節點
指定作為 Hadoop NameNode 電腦的主機名稱。
即時資料節點
指定可以存取的 Hadoop DataNode 數目。
無效資料節點
指定無法使用的 Hadoop DataNode 數目。

基本檔案資訊

若要檢視基本檔案資訊,請選取檔案。提供的資訊如下:
基本檔案資訊
欄位
描述
名稱
指定檔案的名稱。
大小
指定檔案大小。此值包含儲存區塊中的資料和檔案相關中繼資料需要的磁碟空間。
修改日期
指定建立或取代檔案的日期。
路徑
指定 HDFS 目錄。
描述
指定與資料一起儲存的描述。此描述會顯示在檔案總管介面中表格名稱的旁邊。
複本
指定資料的備援複本數目。
區塊大小
指定儲存每個資料區塊使用的位元組數目。
變數數目
指定 HDFS 表格中的欄數。
所有者
指定將資料增加到 HDFS 的使用者帳戶。
群組
指定使用者帳戶的主要 UNIX 群組。
權限
指定所有者、群組和其他對象的讀取、寫入和執行存取權限。
SASHDAT 檔案?
指定檔案是否使用 SASHDAT 格式。Yes 表示檔案使用 SASHDAT 格式。
壓縮
指定是否壓縮檔案。Yes 表示要壓縮檔案。
加密
指定是否加密檔案。Yes 表示要加密檔案。
附註: 當表格增加到 HDFS 時,[HDFS] 標籤可能顯示此表格的多個檔案。增加表格之後,多個檔案隨即消失。

表格資訊

若要檢視欄資訊,請選取表格,然後按一下 欄資訊。提供的資訊如下:
欄資訊
欄位
描述
欄名稱
指定來源表格中的欄名稱。
標籤
指定當表格增加到 HDFS 時資料集欄的標籤。
類型
數值或字元。數值變數已編碼為 1
位移
在 SASHDAT 檔案中指定變數的開始位置。
長度
指定變數使用的儲存空間。
格式
指定與變數關聯的格式。
格式長度
指定當變數增加到 HDFS 時,變數上現有格式的格式長度。如果變數在增加到 HDFS 時沒有格式,此值是零。
精確度
指定數字格式中格式的精確度部分。
長度 (格式化)
指定套用格式後的變數長度。
若要檢視列計數,請選取表格,然後按一下 列計數。提供的資訊如下:
列計數資訊
欄位
描述
指定資料中的列數。
區塊
指定儲存資料使用的 HDFS 區塊數目。
已配置
指定儲存資料已配置的位元組數目。此值是區塊大小和區塊數目的倍數。此值不包含 SASHDAT 檔案標題需要的空間,所以小於檔案大小。
已使用
指定儲存資料列已配置區塊中的位元組數目。
使用率
指定儲存資料列已配置空間中的百分比。

區塊詳細資訊

若要檢視區塊詳細資料,請選取檔案,然後按一下 區塊詳細資料。提供的資訊如下:
區塊詳細資訊
欄位
描述
主機名稱
指定叢集中儲存資料區塊的電腦。
區塊名稱
指定區塊的檔案名稱。
路徑
指定區塊的目錄。
記錄長度
指定資料中變數的欄長度總和。
記錄
指定儲存在區塊中的列數。因為備援區塊會列在表格中,所以列示記錄的總和不等於資料中的列數。
所有者
指定將資料增加到 HDFS 的使用者帳戶。
群組
指定儲存資料使用者帳戶的主要 UNIX 群組。
權限
指定所有者、群組和其他對象的讀取、寫入和執行存取權限。
您可以依欄標題排序,識別異常現象。將數個區塊存放在同一部電腦上是正常現象。但是,如果各列的記錄長度所有者群組權限值不同 ,則不正常。
增加到 HDFS 的檔案使用區塊形式儲存。有一個區塊是常用區塊,而使用其他區塊複本提供資料備援。[區塊分配] 對話方塊提供兩種檢視此資訊的方式。[區塊詳細資料檢視] 標籤可以讓您選取區塊號碼,然後檢視存放原始區塊或備援區塊的主機名稱。節點詳細資料檢視可以讓您選取主機名稱,然後檢視電腦上存放的區塊號碼。

區塊分配資訊

若要檢視區塊分配,請選取表格,然後按一下 區塊分配。提供的資訊如下:
區塊分配資訊
欄位
描述
檔案大小
指定檔案大小 (以位元組為單位)。
區塊大小
指定檔案的區塊大小。
區塊
指定儲存資料原始複本使用的區塊數目。
已使用的電腦
指定叢集中包含檔案原始區塊或備援區塊的電腦數目。
複本
指定資料的備援區塊複本數目。
在 [區塊詳細資料檢視] 標籤上可以選取區塊號碼。這樣讓您可以檢視有多少區塊複本存在和存放區塊電腦的主機名稱。複本總計欄中的值等於區塊的備援複本數目加上原始區塊。可以選取排序列使用的欄標題。在理想的分配中,複本總計等於所有區塊。
在 [主機詳細資料檢視] 標籤上可以展開主機名稱節點,然後檢視此電腦上儲存的區塊號碼。當您選取區塊號碼時,在主機名稱清單中識別此主機名稱和其他包含區塊複本的電腦。

如何引入其他目錄

使用 SASHDAT 引擎的資料館必須在中繼資料中呈現您使用的每個共用 HDFS 目錄。若要建立必要中繼資料,請參閱 SAS Intelligence Platform: Data Administration Guide中的 Connecting to Common Data Sources
下面列舉一些相關重點:
  • 共用的 HDFS 中每個目錄也必須有對應的 LASR 資料館。請參閱增加 LASR 資料館
  • 對應 LASR 資料館的伺服器標記必須是點分隔格式的來源路徑。請參閱伺服器標記
  • 若要加快平行載入的速度,請只使用具有八個或更少字元的單一層級路徑。例如:請使用 /sales,而不要使用 /dept/sales/sales_department。此路徑是伺服器標記的基礎,而且使用伺服器標記作為平行載入的資料館名稱。

如何刪除 HDFS 表格

  1. 在 [資料夾] 窗格的表格上按一下滑鼠右鍵,然後選取 [刪除]。
  2. 在確認視窗中,如果您想要隨著呈現它的中繼資料物件刪除實體表格,請選取 [從 HDFS 存放區移除] 核取方塊。
提示
您也可以從 [HDFS] 標籤刪除 HDFS 表格。選取表格,然後在標籤的工具列按一下 從 HDFS 移除
上一頁|下一頁|頁面頂端
上次更新時間:2018年10月24日