將 SAS LASR Analytic Server 或 HDFS 中的 SAS 資料資料館指定作為輸出資料館時,可以指定表格的分區索引鍵。可以從 [分區依據] 功能表選取要使用的欄。
「分區」使用分區索引鍵的格式化值,對於包含相同索引鍵值的列進行分組。所有包含相同索引鍵值的列都會載入到叢集中的單一電腦。就 SAS LASR Analytic Server
資料館而言,這表示包含相同索引鍵值的列會儲存在同一部電腦的記憶體中。就 HDFS 中的 SAS 資料 資料館而言,所有包含相同索引鍵值的列都會寫入至同一部電腦的單一檔案區塊中。(此區塊會複寫到其他備援的電腦。)當分區的表格載入到伺服器之後,若表格存在記憶體中,則保留分區。
如果您在選取分區索引鍵之後,同時在 [欄編輯器] 標籤上指定欄的排序選項, 則將這些排序選項傳送到 ORDERBY= 選項中目前的引擎。這項強化功能適用 SAS LASR Analytic Server 和 HDFS
中的 SAS 資料資料館,可以改善資料在記憶體的效能。
當指定分區索引鍵時,請避免使用包含少數唯一值的變數。例如:作為分區依據的旗標欄若是布林值,則導致所有的列分配在兩部電腦上,因為只有兩個值可以使用。在頻譜的另一端,依據幾近唯一的索引鍵分區大型表格,則造成許多包含少數列的分區。
確定最佳分區索引鍵是一項具有挑戰性的工作。但是,如果您傾向根據客戶 ID 存取資料,則可以依據客戶分區資料,改善效能。