上一页|下一页

分布式服务器:并置 HDFS

简介

并置 HDFS 是满足以下条件的 Hadoop 部署:
  • 部署运行在与分布式 SAS LASR Analytic Server 相同的硬件上。
  • 部署合并了 SAS High-Performance Deployment of Hadoop 提供的服务。
SAS High-Performance Deployment of Hadoop 将服务添加至 Apache Hadoop(以及其他支持的 Hadoop 分布)以提供以下集成功能:
  • SAS 使用特殊文件格式(文件名后缀为 SASHDAT)在 HDFS 中储存表。与在 HDFS 中储存的任何文件一样,SASHDAT 文件作为一系列块分配给群集中的机器。储存块副本以提供数据冗余。
  • SAS 改进了块分配算法来确保均匀分配块。由于 SAS LASR Analytic Server 可以直接读取数据块,因此均匀分配块有助于在群集中的机器上均匀分配工作量。
该集成支持分布式 SAS LASR Analytic Server 使用 HDFS 非常高效地并行读取 SASHDAT 表。
提示
基本 HDFS 命令在 SAS LASR Analytic Server: Reference Guide 中进行了说明。

关于“HDFS”选项卡

简介

要打开 HDFS 选项卡,从管理器的主菜单中选择工具然后选择探索 HDFS
注: HDFS 选项卡在使用并置 HDFS 的部署中可用。仅具有“浏览 HDFS”权力的用户可以访问 HDFS 选项卡。
HDFS 选项卡提供 HDFS 文件夹和表的主机层视图。该视图不受元数据或您的权限影响。相反,特权 Hadoop 帐户检索该选项卡显示的信息。
您可以使用 HDFS 选项卡执行下列任务:
  • 浏览 HDFS 文件夹和表。
  • 查看已添加至 HDFS 的表的行计数、列、列信息和块信息。提供了有关块分布、块冗余和块使用率测度的信息。
  • 删除以 SASHDAT 格式储存的 HDFS 表。(不是 SASHDAT 文件的文件会列出,但无法将它们删除。)

系统属性

要查看 HDFS 系统属性,点击 属性。下表说明了各字段:
HDFS 系统属性
属性
说明
设置权限的命令
该设置未使用。
设置根用户权限?
该设置未使用。
获取文件信息的命令
该设置未使用。
数据目录
指定用于储存块的目录。
命名节点
指定用作 Hadoop NameNode 的机器的主机名。
可变数据节点
指定可达到的 Hadoop DataNode 的数量。
不变数据节点
指定不可用的 Hadoop DataNode 的数量。

基本文件信息

要查看基本文件信息,请选择一个文件。提供了以下信息:
基本文件信息
字段
说明
名称
指定文件的名称。
大小
指定文件大小。该值包括在有关文件的块和元数据中储存数据所需的磁盘空间。
修改日期
指定创建或替换文件的日期。
路径
指定 HDFS 目录。
说明
指定随数据储存的说明。说明显示在资源管理员界面中表名的旁边。
副本
指定数据的冗余副本数。
块大小
指定用于储存每个数据块的字节数。
变量数
指定 HDFS 表中的列数。
所有者
指定将数据添加至 HDFS 的用户帐户。
指定用户帐户的主 UNIX 组。
权限
指定针对所有者、组和其他人员的读取、写入和执行访问权限。
SASHDAT 文件?
指定文件是否为 SASHDAT 格式。表示文件为 SASHDAT 格式。
压缩
指定是否压缩文件。Yes 表示压缩文件。
加密
指定是否加密文件。Yes 表示加密文件。
注: HDFS 选项卡可能会在表添加至 HDFS 时为表显示多个文件。添加表后,多个文件消失。

表信息

要查看列信息,选择一个表,然后点击 列信息。提供了以下信息:
列信息
字段
说明
列名
指定源表中的列名。
标签
指定表添加至 HDFS 时数据集列的标签。
类型
数值或字符。数值型变量编码为 1
偏移
指定 SASHDAT 文件中变量的起始位置。
长度
指定变量使用的存储。
格式
指定与变量关联的格式。
格式长度
指定变量添加至 HDFS 时该变量所具有格式的格式长度。若变量添加至 HDFS 时没有格式,则该值为零。
精度
指定数字格式的精度部分。
长度(已格式化)
指定应用格式化时变量的长度。
要查看行计数,选择一个表,然后点击 行计数。提供了以下信息:
行计数信息
字段
说明
指定数据中的行数。
指定用于储存数据的 HDFS 块数。
已分配
指定为储存数据分配的字节数。值为块大小乘以块数。该值小于文件大小,因为它不包括 SASHDAT 文件头所需的空间。
已使用
指定用于储存数据行的已分配块内的字节数。
使用率
指定用于储存数据行的已分配空间的百分比。

块详细信息

要查看块详细信息,选择一个文件,然后点击 块详细信息。提供了以下信息:
块详细信息
字段
说明
主机名
指定储存数据块的群集中的机器。
块名称
指定块的文件名。
路径
指定块的目录。
记录长度
指定数据中变量的列长度总和。
记录
指定块中储存的行数。由于冗余块列在表中,所列的记录总和不等于数据中的行数。
所有者
指定将数据添加至 HDFS 的用户帐户。
指定储存数据的用户帐户的主 UNIX 组。
权限
指定针对所有者、组和其他人员的读取、写入和执行访问权限。
您可以按列标题排序以发现异常。多个块储存在同一台机器上属正常情况。但是,若记录长度所有者权限的每行值都不同,则属于异常情况。
添加至 HDFS 的文件储存为块。其中一个块是首选块,其他块副本用于提供数据冗余。块分布对话框提供两种方式查看该信息。块详细信息视图选项卡支持您选择某个块编号并查看存储原始块或冗余块的主机名称。节点详细信息视图支持您选择某个主机名称并查看存储在该机器上的块编号。

块分布信息

要查看块分布,选择一个表,然后点击 块分布。提供了以下信息:
块分布信息
字段
说明
文件大小
指定以字节为单位的文件大小。
块大小
指定文件的块大小。
指定用于储存原始数据副本的块数。
使用机器数
指定群集中存储文件的原始或冗余块的机器数。
副本
指定数据的冗余块副本数。
区块详细信息视图选项卡上,您可以选择一个区块编号。这样您就可以查看共有多少区块副本,以及储存这些区块的机器的主机名。总副本数列中的值等于块冗余副本数加上原始块的数量。您可以选择列标题对行排序。在理想的分布中,所有块的总副本数都是相同的。
主机详细信息视图选项卡上,您可以展开某个主机名称节点,然后查看存储在该机器上的块编号。选择块编号后,该主机名称以及存储该块副本的其他任何机器都会标识在主机名称列表中。

如何引入其他目录

您使用的每个并置 HDFS 目录必须由使用 SASHDAT 引擎的逻辑库以元数据的形式表示。要创建必需的元数据,请参见 SAS Intelligence Platform: Data Administration Guide 中的 Connecting to Common Data Sources
下面是几个要点:
  • 并置 HDFS 中的每个目录还必须具有对应的 LASR 逻辑库。请参见添加 LASR 逻辑库
  • 对应的 LASR 逻辑库的服务器标记必须为采用逗点分隔格式的源路径。请参见服务器标记
  • 为方便并行加载,请使用仅具有 8 个或更少字符的单级别路径。例如,使用 /sales 而非 /dept/sales/sales_department。该路径是服务器标记的基础,该服务器标记在并行加载中用作逻辑库引用名。

如何删除 HDFS 表

  1. 右击文件夹窗格中的表,然后选择删除
  2. 在确认窗口中,若您想删除物理表以及代表它的元数据对象,选中从 HDFS 存储删除复选框。
提示
您还可以从 HDFS 选项卡删除 HDFS 表。选择表,然后点击选项卡工具栏中的 从 HDFS 删除
上一页|下一页|页首
上次更新时间: 2018年10月24日