SAS LASR Analytic 서버 또는 SAS Data in HDFS 라이브러리를 출력 라이브러리로 지정할 때 테이블의 분할 키를 지정할 수 있습니다. 파티션 기준 메뉴에서 사용할 칼럼을 선택할 수 있습니다.
분할 기능에서는 분할 키의 출력형식 값을 사용하여 해당 키에 대해 동일한 값을 갖는 행을 그룹화합니다. 키에 대해 동일한 값을 갖는 모든 행이 클러스터에서 한 컴퓨터에 로드됩니다. 따라서 SAS LASR Analytic
서버 라이브러리의 경우, 키에 대해 동일한 값을 갖는 행이 한 컴퓨터의 메모리에 존재하게 됩니다. SAS Data in HDFS 라이브러리 경우에는 키에 대해 동일한 값을 갖는 모든 행이 한 컴퓨터의 단일 파일 블록에
기록됩니다. (중복을 위해 블록이 다른 컴퓨터에 복제됩니다.) 분할된 테이블이 서버에 로드되는 경우, 메모리에 있는 테이블은 분할된
상태가 그대로 유지됩니다.
분할 키를 선택하고 칼럼 편집기 탭에서 칼럼에 대한 정렬 옵션도 지정한 경우, 정렬 옵션이 ORDERBY= 옵션으로 현재 엔진에 전달됩니다. 이 향상된 기능은 SAS LASR Analytic 서버 및 SAS Data in HDFS 라이브러리에 적용되며
데이터가 메모리에 있을 때 성능이 개선됩니다.
분할 키를 지정할 때 고유 값 수가 적은 변수를 사용하지 마십시오. 예를 들어, 부울에 해당하는 플래그 칼럼을 기준으로 분할하면 사용할 수 있는 값이 두 개뿐이기 때문에 모든 행이 두 컴퓨터에 로드됩니다. 반면에 고유
키를 기준으로 큰 테이블을 분할하면 행 개수가 적은 분할이 많이 발생하게 됩니다.
최적의 분할 키를 결정하는 것은 어려운 작업입니다. 예를 들어, 고객 ID를 기반으로 데이터에 액세스하는 일이 많다면 고객을 기준으로 데이터를 분할하면 성능이 향상될 수 있습니다.