上一页|下一页

高基数约束

简介

高基数数据有一列或多列包含大量的唯一值。例如,用户名、电子邮件地址和银行帐号可以是高基数数据项。
SAS Visual Analytics 支持数十亿值聚合为上千值。若表中的数十亿值有数百万个唯一标识符,则包含这些标识符的列为高基数数据项。
要确保用户及时获得有用的结果,可为特定可视化视图和报表对象返回的唯一值数应受到限制。当用户选择高基数数据项时,结果由任意适用的阈值、数据中的唯一值数,以及用户的选择确定。
下列主题提供了有关两个非重复水平阈值的信息:客户端阈值和中间层阈值。

高基数数据的客户端阈值

客户端阈值特定于单个应用程序(如探索器),或一组应用程序(如设计器和查看器)。对于某些超过客户端阈值的请求,将显示错误,且不返回结果。对于某些超过客户端阈值但没超过中间层阈值的请求,返回适合的结果。
注: 通常,客户端阈值是固定的。一个例外是,用户可选择低、中或高阈值级别作为探索器中的用户参数选择。在较低内存的计算机上,将客户端阈值设置为有助于阻止诸如系统崩溃之类的事件。
可视化视图和报表对象的客户端阈值在 SAS Visual Analytics:用户指南中的数据限制附录中说明。附录解释了客户端为某些超过客户端阈值(但没超过中间层阈值)的请求提供的适用响应。

高基数数据的中间层阈值

中间层阈值的范围更广,会影响指定可视化视图或报表对象的所有实例。与客户端阈值相比,中间层阈值粒度更小且具有更少的限制。对于超过中间层阈值的请求,将显示一条错误消息,且不返回结果。默认阈值在几乎所有环境中都有效。通常情况下,用户过滤或分组任何高基数数据项,因此请求很少超出中间层阈值。
在下表中,第二列指出唯一值的最大个数(而非最大数据量)。
中间层阈值
可视化视图或报表对象
决策树1
10,000
交叉表
50,000
表(在设计器和查看器中)
50,000
盒形图:至少有一个测度,无类别2
50,000
条形图:单个类别
50,000
热图:单个类别
50,000
线图:至少有一个测度,单个类别(数值、日期、时间,或字符串)
50,000
气泡图:三个测度,分组
50,000
气泡图:三个测度,用动画类别分组
50,000
气泡图:三个测度,不分组,水平或垂直序列(或两者)
50,000
气泡图:三个测度,无类别
100,000
散点图
100,000
表(在探索器中)
100,000
1决策树调用还有一个超时期间。请参见vae.DecisionTreeTimeout
2若没有类别,将为每个测度(最多 400 个测度)应用一个框。

高基数阈值的配置属性

警告:
增加中间层阈值可影响性能和稳定性。
默认设置在多数环境中都适用。不要设置过高的阈值。若对调整以下属性有疑问,请联系 SAS 技术支持。
注: 有关说明,请参见如何设置配置属性
以下属性影响中间层阈值:
va.DistinctCountServerLimit
设置图形的非重复值计数限制。默认情况下,图形没有非重复值计数限制。默认值为 -1。
范围:整个套件
va.DistinctCountDataPanelLimit
为数据面板中显示的数据设置非重复值计数限制。该属性仅影响数据面板,而不是图形内的非重复值计数限制。默认值为 5,000。
范围:整个套件
va.CardinalityLimitForGroupByTempTable
对于所有超过指定限制(唯一值的数量)的高基秩请求,阻止处理并返回错误。仅在非正常情况下(高基秩导致 SAS LASR Analytic Server 中止)设置该属性。例如,要阻止对包含 2,000,000 个唯一值的数据的秩请求,请将该属性设置为 2000000。若选择设置该属性,建议值为 3000000
范围:整个套件
va.CardinalityLimitForGroupByCountDistinctTempTable
仅对超过指定限制(唯一值的数量)的非重复值计数的高基秩请求,阻止处理并返回错误。仅在非正常情况下(非重复值计数高基秩导致 SAS LASR Analytic Server 中止)设置该属性。(该属性仅影响非重复值计数请求,且提供比 va.CardinalityLimitForGroupByTempTable 属性更严格的限制。)若选择设置该属性,建议值为 1000000
范围:整个套件
va.SortResultServerLimit
设置可为详细查询(带排序)返回的最大值个数。该属性仅影响显示详细信息的简单表中的结果。
范围:整个套件,探索器除外
va.CategoryCardinalityServerLimit
设置类别交叉点的最大值个数。仅支持固定(且有限)的类别交叉点数。例如,若您将“First name”和“Last name”拖放至美国的人口,则服务器可能生成 2 亿个不同的值。该属性确定基数可以为多高,且仍允许服务器处理并向客户端返回结果。若类别交叉的值个数超过该限制,则不运行查询。
范围:整个套件,探索器除外
va.SummaryServerRowLimit
设置可返回给中间层以进一步处理的最大的值个数。例如,对于按名字排序的高基数数据,计算的值个数可以很多。
范围:整个套件,探索器除外(使用 vae.SummaryServerLimit)
va.MidtierCellLimit
设置交叉表的最大大小。
范围:整个套件,探索器除外
va.maxPeriodCalculations
指定构成期间计算的最大计算列数。若某个期间测度超过该限值,多余的计算将被排除,现有的计算(针对这一特定的期间测度)将由缺失值取代。系统将提示用户应用过滤器以减少计算数。默认值为 800。
注: 软件优化可在应用该限值之前减少计算数,所以很少超过该限值。该属性效果的一个示例就是累积期间的非重复值计数计算(可见的唯一日期值的个数不能超过指定限值)。
范围:设计器、查看器、传输服务
va.MaxSparkTables
设置迷你图表的最大个数。默认值为 300。
范围:整个套件,探索器除外
va.CheckCardinalityBeforeQuery
控制基数预检查是否发生。默认值为 -1(禁用该约束)。默认情况下,预检查不发生。
范围:整个套件,探索器除外
va.CheckCardinalityWithinQuery
控制 SAS LASR Analytic Server 是否强制基数限制。默认情况下,执行这些检查。
范围:整个套件,探索器除外
vae.BoxPlotServerLimit
设置至少有一个测度且不超过一个类别的盒形图的中间层阈值。
范围:仅限探索器
vae.DecisionTreeServerLimit
设置决策树的中间层阈值
范围:仅限探索器
vae.FetchRowsServerLimit
设置表的中间层阈值。
范围:仅限探索器
vae.FrequencyServerLimit
设置有单个类别的条形图的中间层阈值。该约束在显示值的选择列表前应用。
范围:仅限探索器
vae.modeling.ClassCardinalityLimit
设置模型中的最大非重复级别数。该属性限制模型中的累积总分类效应数和交互操作项数。例如,若您将该属性设置为 800,则用户不能指定包含 800 个以上的非重复级别的效应变量,也不能添加会导致非重复级别总数超过 800 的效应变量。初始值为 2048
范围:SAS Visual Statistics 附加模块(若已许可)
vae.modeling.DecisionTreePredictorBinsCardinalityLimit
设置决策树中测度变量的最大箱数。初始值为 1024
范围:SAS Visual Statistics 附加模块(若已许可)
vae.modeling.DecisionTreePredictorCardinalityLimit
设置决策树中类别变量的最大非重复级别数。初始值为 1024
范围:SAS Visual Statistics 附加模块(若已许可)
vae.modeling.DecisionTreeResponseCardinalityLimit
设置决策树中响应类别变量的最大非重复级别数。在初始配置中,未设置该属性,因此会使用默认值 (100)。
范围:SAS Visual Statistics 附加模块(若已许可)
vae.modeling.GroupByCardinalityLimit
设置模型中分组依据变量的最大非重复级别数。该属性限制模型中分组依据变量的累积总数。例如,若该属性的设置值为 800,则用户不能指定包含 800 个以上的非重复级别的分组依据变量,也不能添加会导致非重复级别总数超过 800 的分组依据变量。初始值为 1024
范围:SAS Visual Statistics 附加模块(若已许可)
vae.RealScatterServerLimit
设置有三个测度且无类别的散点图和气泡图的中间层阈值。
范围:仅限探索器
vae.ScatterPlotServerLimit
设置有且仅有一个类别的热图的中间层阈值。
范围:仅限探索器
vae.SummaryServerLimit
设置以下可视化视图类型的中间层阈值:
  • 交叉表
  • 至少有一个测度和单个类别(数值、日期、时间,或字符串)的线图
  • 不使用序列而分组、使用动画分组,或使用序列而未分组的气泡图
范围:仅探索器(其他应用程序使用 va.SummaryServerRowLimit)
上一页|下一页|页首
上次更新时间: 2018年10月24日