目录
|
使用可视化视图
上一页
|
下一页
使用词云
关于词云
词云的数据角色
关于词云的数据角色
使用文本分析的词云的数据角色
使用类别值的词云的数据角色
指定词云的属性
探索文本分析结果
将选定的文档作为新可视化视图探索
关于词云
词云显示字符数据项中的一组词。根据词云的类型以及您的数据角色,云中每个词的大小可指示该词的重要性(主题词权重)、该词的频率或是某个测度的值。
您可以创建两类词云:
使用文本分析的词云
使用文本分析的词云将文本集合数据项中的每个值都分析为可包含多个词的文本文档。经常在文本集合中一起出现的字词被标识为主题。对于选定的主题,词云显示词汇及其最大主题词汇权重值。主题词汇权重指示了词汇在该主题中的重要性。
使用文本分析的词云也可以显示主题中的文档表达的是正面、负面还是中性的情感。
文本分析词云的详细信息表包含了词云中关于词汇、主题和文档的其他信息。
详细信息,请参见
。
要启用文本分析,必须设置唯一行标识符并定义一个或多个类别作为文档集合。
请参见
定义用于文本分析的数据项
。
注:
文本分析只能用于英语和德语文本。
注:
根据数据源中的行数以及文档集合中值的长度,使用文本分析的词云可能需要大量时间才能显示。
注:
SAS Visual Analytics 中的文本分析使用与 SAS Text Miner 不同的算法。您的结果可能不同于 SAS Text Miner 生成的结果。
使用类别值的词云
使用类别值的词云将类别数据项中的每个值作为单个文本字符串进行分析。词云可以显示具有最高频数的字符串值或是具有最大测度值的字符串值。每个词的颜色可指示测度的值。
词云的数据角色
关于词云的数据角色
词云的数据角色取决于您选择的词云的类型。
显示词云
选项用于选择是使用文本分析生成词云还是使用类别值生成词云。
使用文本分析的词云的数据角色
使用文本分析的词云的基本角色为
文档集合
。文档集合是一个包含您要分析的字词的类别数据项。
注:
要启用文本分析,必须设置唯一行标识符并定义一个或多个类别作为文档集合。
请参见
定义用于文本分析的数据项
。
除了基本角色,您还可以指定以下角色:
文档详细信息
指定在详细信息表的
文档
选项卡中显示为列的数据项。
使用类别值的词云的数据角色
使用类别值的词云的基本角色为
字词
。指定在词云中使用其值的类别。
除了基本角色,您还可以指定以下角色:
大小
指定确定每个词的大小的测度。若未指定测度,则字词大小指示每个词的频数。
颜色
指定确定每个词的颜色的测度。
指定词云的属性
在
属性
选项卡上,您可以指定以下选项:
名称
指定可视化视图的名称。
标题
指定图形上方显示的标题。
注:
若选择
生成图形标题
,
标题
选项将被禁用。
生成图形标题
指定将根据可视化视图中的数据项自动生成图形标题。
频数
(仅适用于类别值)
指定频数显示为计数(
计数
)还是百分比(
百分比
)。
注:
频数值基于在可视化视图中显示的数据(在应用过滤器和其他数据选择项之后)。
注:
若将某个测度分配给
大小
角色,则该选项不起作用。
字词显示限值
指定在词云中显示的字词的最大数量。
字体尺度
指定云中最大词和最小词之间的字体大小差异。数字值指定最大字体大小与最小字体大小的比值(字体磅值之比)。
对于使用类别值的词云,您可以指定以下更多选项:
颜色渐变
选择可视化视图的渐变色。
您可以点击
,选择用于分配颜色的值。
请参见
指定自定义数据范围
。
对于使用文本分析的词云,您可以指定以下更多基本选项:
分析文档倾向性
启用词云的情感分析。
情感分析基于文档的内容决定一个文档具有正面情感、负面情感还是中性情感。
当启用了情感分析后,主题中正面、负面和中性文档的数量将显示在词云的顶部。此外,情感值显示在详细信息表的
主题
和
文档
选项卡中。
标识词汇角色
根据词性标识词汇。此外,该选项将名词组标识为单个词汇并且标识例如名字、地址、电话号码等文本实体。
注:
该选项等效于高级选项
包括词性
、
提取名词组
和
使用实体抽取
。
最大主题数
指定要创建的最大主题数。指定 4 到 20 之间的数字。
对于使用文本分析的词云,您可以指定以下更多高级选项:
分析文档倾向性
启用词云的情感分析。
情感分析基于文档的内容决定一个文档具有正面情感、负面情感还是中性情感。
当启用了情感分析后,主题中正面、负面和中性文档的数量将显示在词云的顶部。此外,情感值显示在详细信息表的
主题
和
文档
选项卡中。
最大主题数
指定要创建的最大主题数。指定 4 到 20 之间的数字。
分辨率
指定用于标识主题的分辨率。
低
分辨率标识较少的主题。
高
分辨率标识较多的主题。
单元格权重
指定是否为每个词所在的每个文档衡量每个词出现的频率。选择
对数
可弱化在较少文档中多次出现的字词。
词汇权重
为文档集合中的词汇指定权重算法。
熵
权重算法会强调在文档集合中出现频率较低的词汇。
文档阙值
指定必须出现某个词汇的文档的最小数目。指定 1 到 20 之间的数字。若出现某个词汇的文档数未达到最小文档数,则该词不会包括在词云中。
主题标签长度
指定包括在主题名称中的词汇数目。指定 2 到 8 之间的数字。该属性不影响用于选择主题的词汇数目;仅更改主题名称。
包括词性
指定词汇根据词性分类(例如,名词、动词或形容词)。每个词汇的词性显示在该词汇的数据提示中。
提取名词组
指定是否将名词组标识为词汇。
使用实体提取
指定是否标识文本实体(如名称、地址、电话号码等)。若禁用此选项,则不会将文本实体与其他文本区别对待。
词干
指定是否将给定词的所有形式都标识为单个词。例如,若选择
词干
,则“sell”、“sells”、“selling”和“sold”这些词都将标识为单个词“sell”。
使用停用词列表(若可用)
指定在标识词汇时是否使用停用词列表来排除“the”、“with”和“is”之类的常用词。若没有可用的停用词列表,则词云底部会显示一条消息。
停用词列表
指定使用的停用词列表(若启用
使用停用词列表
选项)
探索文本分析结果
对于使用文本分析的词云可视化探索,详细信息表中会提供大量的其他信息。要显示详细信息表,请从可视化视图工具栏点击
下拉列表,然后选择
显示详细信息
。
文本分析词云的详细信息表包含了以下选项卡:
结果
显示当前主题中的所有词汇。对于每个词汇,
主题词汇权重
值指示了在当前主题中该词汇的重要性。
若启用
标识词汇角色
属性或者
包括词性
属性,则
角色
值标识了每个词汇的语法角色。
注:
您可以通过点击列标题对任意列排序。
主题
显示文档集合中的所有主题。若启用了情感分析,则将显示每个主题的正面、中性和负面文档数量。
注:
您可以通过点击列标题对任意列排序。
文档
显示每个包含选定词汇的文档。对于每个文档,
相关度
值指示文档与当前主题的相关程度。
要查看文档的完整文本,右击该文档,然后选择
查看完整文档
。
若启用了情感分析,则
情感
值指示了文档的正面或负面程度。您可以过滤文档以排除带正面、负面或中性情感的文档。
注:
您可以通过点击列标题对任意数值列排序。
分析
提供了文本分析的关键概念的定义。
将选定的文档作为新可视化视图探索
您可以将一组选定的文档作为新的表可视化视图探索。要从选定的文档中创建新的可视化视图,请执行以下步骤:
选择您想探索的主题和词汇。
在详细信息表的
文档
选项卡中,选择您想在新的可视化视图中探索的文档。要选择所有文档,请右击任意文档,然后选择
全选
。
右击任意文档,然后选择
从选定的文档创建可视化视图
。
选定的文档值随新的表可视化视图一同显示。
上一页
|
下一页
|
页首
Copyright © SAS Institute Inc. All rights reserved.