분산 서버: 배치된 HDFS

소개

HDFS 탭 정보

소개

시스템 속성

소개

배치된 HDFS는 다음의 조건을 충족하는 Hadoop 배포입니다.

배포는 분산 SAS LASR Analytic Server와 동일한 하드웨어로 실행됩니다.
배포는 SAS High-Performance Deployment of Hadoop이 제공하는 서비스를 통합합니다.

SAS High-Performance Deployment of Hadoop은 Apache Hadoop(및 기타 지원 Hadoop 배포)에 서비스를 추가하여 다음 통합 기능을 제공합니다.

SAS는 파일 이름 접미어가 SASHDAT인 특수 파일 출력형식을 사용하여 테이블을 HDFS에 저장합니다. HDFS에 저장되는 다른 모든 파일과 마찬가지로 SASHDAT 파일도 일련의 블록으로 분산됩니다. 중복된 데이터를 제공하기 위해 블록 사본이 저장됩니다.
SAS는 향상된 블록 분포 알고리즘을 사용하여 블록을 고르게 분산합니다. SAS LASR Analytic Server가 데이터 블록을 직접 읽기 때문에 고른 블록 분포는 클러스터에 있는 컴퓨터의 고른 작업량에 기여합니다.

이 통합을 통해 분산 SAS LASR Analytic Server는 HDFS를 사용하여 매우 효율적으로 SASHDAT 테이블을 병렬로 읽을 수 있습니다.

팁

기본적인 HDFS 명령에 대한 설명은 SAS LASR Analytic Server: Reference Guide를 참조하십시오.

HDFS 탭 정보

소개

HDFS 탭을 열려면 Administrator의 기본 메뉴에서 도구

HDFS 탐색을 선택합니다.

주: HDFS 탭은 배치된 HDFS를 사용하는 배포에서만 사용할 수 있습니다. HDFS 찾아보기 기능이 있는 사용자만 HDFS 탭에 액세스할 수 있습니다.

HDFS 탭에서는 HDFS 폴더와 테이블의 호스트 계층 뷰를 제공합니다. 이 뷰는 메타데이터나 권한을 통해 조정되지 않습니다. 대신 권한 있는 Hadoop 계정이 이 탭에 표시되는 정보를 검색합니다.

HDFS 탭을 사용하여 다음 작업을 수행할 수 있습니다.

HDFS 폴더 및 테이블을 찾아볼 수 있습니다.
HDFS에 추가된 테이블의 행 개수, 칼럼, 칼럼 정보 및 블록 정보를 볼 수 있습니다. 블록 분포, 블록 중복 및 블록 사용률 측도에 대한 정보가 제공됩니다.
SASHDAT 출력형식으로 저장된 HDFS 테이블을 삭제할 수 있습니다. SASHDAT 파일이 아닌 파일이 리스트에 나열되지만 삭제할 수는 없습니다.

시스템 속성

HDFS 시스템 속성을 보려면

을 클릭합니다. 다음 테이블에서는 필드에 대해 설명합니다.

HDFS 시스템 속성
속성	설명
권한 설정 명령	이 설정은 사용되지 않습니다.
루트로 권한 설정 여부	이 설정은 사용되지 않습니다.
파일 정보 가져오기 명령	이 설정은 사용되지 않습니다.
데이터 디렉터리	블록을 저장하는 데 사용되는 디렉터리를 지정합니다.
네임 노드	Hadoop NameNode로 사용되는 컴퓨터의 호스트 이름을 지정합니다.
사용 중인 데이터 노드	연결할 수 있는 Hadoop 데이터 노드 수를 지정합니다.
사용하지 않는 데이터 노드	사용할 수 없는 Hadoop 데이터 노드 수를 지정합니다.

기본 파일 정보

기본 파일 정보를 보려면 파일을 선택합니다. 다음 정보가 제공됩니다.

기본 파일 정보
필드	설명
이름	파일의 이름을 지정합니다.
크기	파일 크기를 지정합니다. 이 값에는 파일에 대한 메타데이터와 데이터를 블록으로 저장하는 데 필요한 디스크 공간이 포함됩니다.
수정일	파일이 생성되거나 바뀐 날짜를 지정합니다.
경로	HDFS 디렉터리를 지정합니다.
설명	데이터와 함께 저장되는 설명을 지정합니다. 설명은 탐색기 인터페이스에서 테이블 이름 옆에 표시됩니다.
사본	데이터의 중복 사본 개수를 지정합니다.
블록 크기	각 데이터 블록을 저장하는 데 사용되는 바이트 수를 지정합니다.
변수 개수	HDFS 테이블의 칼럼 수를 지정합니다.
소유자	HDFS에 데이터를 추가한 사용자 계정을 지정합니다.
그룹	사용자 계정의 주 UNIX 그룹을 지정합니다.
권한	소유자, 그룹 및 기타 개체에 대한 읽기, 쓰기 및 실행 액세스 권한을 지정합니다.
SASHDAT 파일 여부	파일이 SASHDAT 출력형식인지의 여부를 지정합니다. `예`는 파일이 SASHDAT 출력형식임을 나타냅니다.
압축	파일이 압축되었는지의 여부를 지정합니다. `예`는 파일이 압축되었음을 나타냅니다.
암호화	파일이 암호화되었는지의 여부를 지정합니다. `예`는 파일이 암호화되었음을 나타냅니다.

주: 테이블이 HDFS에 추가되는 동안 HDFS탭에 해당 테이블에 대한 파일이 여러 개 표시될 수 있습니다. 테이블이 추가된 후에는 여러 파일이 사라집니다.

테이블 정보

칼럼 정보를 보려면 테이블을 선택하고

를 클릭합니다. 다음 정보가 제공됩니다.

칼럼 정보
필드	설명
칼럼 이름	소스 테이블의 칼럼 이름을 지정합니다.
레이블	테이블을 HDFS에 추가했을 때의 데이터셋 칼럼에 대한 레이블을 지정합니다.
유형	숫자 또는 문자입니다. 숫자 변수는 `1`로 인코딩됩니다.
오프셋	SASHDAT 파일에 있는 변수의 시작 위치를 지정합니다.
길이	변수에 사용되는 저장소를 지정합니다.
Format	변수와 연결된 출력형식을 지정합니다.
출력형식 길이	변수를 HDFS에 추가할 때 변수에 있었던 출력형식의 길이를 지정합니다. 변수를 HDFS에 추가할 때 변수에 출력형식이 없었다면 이 값은 0입니다.
정밀도	숫자 출력형식의 출력형식 정밀도 부분을 지정합니다.
길이(서식화됨)	출력형식이 적용되었을 때의 변수 길이를 지정합니다.

행 개수를 보려면 테이블을 선택하고

를 클릭합니다. 다음 정보가 제공됩니다.

행 개수 정보
필드	설명
행	데이터의 행 개수를 지정합니다.
블록	데이터를 저장하는 데 사용되는 HDFS 블록 개수를 지정합니다.
할당됨	데이터를 저장하기 위해 할당된 바이트 수를 지정합니다. 이 값은 블록 크기와 블록 개수를 곱한 것입니다. 이 값은 SASHDAT 파일 머리글에 필요한 공간을 포함하지 않기 때문에 파일 크기보다 작습니다.
사용됨	할당된 블록 내에서 데이터 행 저장에 사용된 바이트 수를 지정합니다.
사용률	데이터 행 저장에 사용된 할당된 공간의 백분율을 지정합니다.

블록 상세 정보

블록 상세 정보를 보려면 파일을 선택하고

를 클릭합니다. 다음 정보가 제공됩니다.

블록 상세 정보
필드	설명
호스트 이름	클러스터에서 데이터 블록을 저장하는 컴퓨터를 지정합니다.
블록 이름	블록의 파일 이름을 지정합니다.
경로	블록의 디렉터리를 지정합니다.
레코드 길이	데이터에 있는 변수에 대한 칼럼 길이의 합계를 지정합니다.
레코드	블록에 저장된 행 개수를 지정합니다. 테이블에 중복 블록이 나열되기 때문에 나열되는 레코드의 합계는 데이터의 행 개수와 일치하지 않습니다.
소유자	HDFS에 데이터를 추가한 사용자 계정을 지정합니다.
그룹	데이터를 저장한 사용자 계정의 주 UNIX 그룹을 지정합니다.
권한	소유자, 그룹 및 기타 개체에 대한 읽기, 쓰기 및 실행 액세스 권한을 지정합니다.

칼럼 머리글을 기준으로 정렬하여 잘못된 부분을 식별할 수 있습니다. 한 컴퓨터에 여러 블록이 저장되는 것은 정상입니다. 그러나 레코드 길이, 소유자, 그룹 또는 권한이 행마다 다른 것은 비정상입니다.

HDFS에 추가된 파일은 블록으로 저장됩니다. 한 블록은 기본 블록이고 해당 블록의 추가 사본은 중복된 데이터를 제공하기 위해 사용됩니다. 블록 분포 대화 상자에는 이 정보를 보는 두 가지 방법이 있습니다. 블록 상세 뷰 탭에서 블록 번호를 선택하고 원래 또는 중복 블록을 저장하는 호스트 이름을 확인할 수 있습니다. 노드 상세 정보 뷰에서는 호스트 이름을 선택하고 컴퓨터에 저장된 블록 번호를 확인할 수 있습니다.

블록 분포 정보

블록 분포를 보려면 테이블을 선택하고

를 클릭합니다. 다음 정보가 제공됩니다.

블록 분포 정보
필드	설명
파일 크기	파일의 크기(바이트)를 지정합니다.
블록 크기	파일의 블록 크기를 지정합니다.
블록	데이터의 원본을 저장하는 데 사용되는 블록 개수를 지정합니다.
사용된 컴퓨터	클러스터에서 파일에 대한 원래 또는 중복 블록이 있는 컴퓨터 대수를 지정합니다.
사본	데이터의 중복 블록 사본 개수를 지정합니다.

블록 상세 뷰 탭에서 블록 번호를 선택할 수 있습니다. 이는 해당 블록의 사본 수와 블록을 저장하는 컴퓨터의 호스트 이름을 확인할 수 있습니다. 총 사본 수 칼럼의 값은 원래 블록 수와 블록의 중복 사본 수를 더한 것과 동일합니다. 칼럼 머리글을 선택하여 행을 정렬할 수 있습니다. 이상적인 분포에서는 모든 블록의 총 사본 수가 동일합니다.

호스트 상세 뷰 탭에서 호스트 이름 노드를 펼쳐 해당 컴퓨터에 저장된 블록 번호를 확인할 수 있습니다. 블록 번호를 선택하면 호스트 이름 리스트에서 해당 호스트 이름과 블록 사본이 있는 모든 추가 컴퓨터가 확인됩니다.

추가 디렉터리를 사용하는 방법

사용하고 있는 배치된 각 HDFS 디렉터리는 SASHDAT 엔진을 사용하는 라이브러리를 통해 메타데이터에 표시되어야 합니다. 필요한 메타데이터를 생성하려면 SAS Intelligence Platform: Data Administration Guide의 Connecting to Common Data Sources 장을 참조하십시오.

주요 내용은 다음과 같습니다.

배치된 HDFS의 각 디렉터리에는 해당 LASR 라이브러리가 있어야 합니다. 자세한 내용은 LASR 라이브러리 추가를 참조하십시오.
해당 LASR 라이브러리의 서버 태그는 점으로 구분된 출력형식의 소스 경로에 있어야 합니다. 자세한 내용은 서버 태그를 참조하십시오.
병렬 로드가 용이하려면 문자가 8개 이하인 단일 레벨 경로만 사용해야 합니다. 예를 들어, /dept/sales 또는 /sales_department 대신 /sales를 사용합니다. 경로는 병렬 로드에서 라이브러리 참조로 사용되는 서버 태그의 기초가 됩니다.

HDFS 테이블을 삭제하는 방법

폴더 영역에서 테이블을 마우스 오른쪽 버튼으로 클릭하고 삭제를 선택합니다.
확인 창에서 물리적 테이블을 나타내는 메타데이터 개체를 물리적 개체와 함께 삭제할 때는 HDFS 저장소에서 제거 체크 박스를 선택합니다.

팁

HDFS 탭에서도 HDFS 테이블을 삭제할 수 있습니다. 테이블을 선택하고 탭의 도구 모음에서 HDFS에서 제거

를 클릭합니다.