上一页|下一页

SAS Text Miner

SAS Text Miner 14.2

SAS Text Miner 14.2 在 SAS 9.4M4 及更新版本上运行。SAS Text Miner 14.2 在运行节点和查看结果时提供性能增强功能。此外,高性能 HPTMINE 过程现在支持您使用另一种语言 — 瑞典语 — 解析文本数据。
有关 SAS Text Miner 14.2 中新增和增强功能的详细信息,请参见 SAS Text Miner 的软件产品页。

SAS Text Miner 14.1

SAS Text Miner 14.1 在 SAS 9.4M3 及更新版本上运行。
以下是 SAS Text Miner 14.1 中的一些新增和增强功能:
  • 新的 HPBOOLRULE 过程替代了文本规则生成器节点中的宏。
  • HPTMINE 过程的增强功能允许您选择或忽略词性、属性、实体以及生成搜索索引。
  • HP 文本挖掘节点现在使用 PROC HPTMINE 执行主题轮换并创建主题表。
  • 十一种解析语言已添至 HP 文本挖掘节点的语言属性。解析语言的完整列表包括中文、荷文、英文、芬兰文、法文、德文、意大利文、日文、韩文、葡萄牙文、俄文、西班牙文和土耳其文。
  • 新的宏变量 EM_TERM_LOC 允许用户指定 SAS Text Miner 节点写输出数据集的位置。SAS Text Miner 评分代码需要这些数据集作为输入。
  • 带有词条 | 角色信息的 _item_ 变量已添至从文本主题节点和文本过滤器节点导出的交易输出中。当数据分区节点在过程流程图中使用时,如输入数据节点(例如,NEWS)> 数据分区节点 > 文本解析节点 > 文本过滤器节点,该变量将添加至交易表 valid_trans 和 test_trans 中。
    在交易表中导出词条 | 角色信息的一个好处是,若节点在过程流程图中使用,如输入数据节点(例如,ABSTRACT)> 文本解析节点 > 文本过滤器节点 > 关联节点,则关联节点按照其生成的规则显示该信息。
以下是 SAS Text Miner 高性能过程的一些新功能和增强功能:
  • 新的 HPBOOLRULE 过程允许您从大规模交易数据中提取布尔规则。PROC HPBOOLRULE 将基本功能添加至高性能文本挖掘以用于基于规则的受监督建模。在当前版本中,您仅能在单机模式中使用 HPBOOLRULE 过程读取数据和提取规则。HPBOOLRULE 过程通过分析已由 HPTMINE 过程处理且以交易格式呈现的文本语料库可自动生成一组布尔规则。
  • HPTMINE 过程支持下列新的语言、语句和选项:
    • 您可以用以下新增的支持语言解析文本数据:中文、荷兰语、芬兰语、法语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语和土耳其语。
    • 您可以使用 HPTMINE 过程为文本语料库生成搜索索引。使用 TMUTIL 过程中的索引查询文本语料库。
    • 您可以使用新增的 SELECT 语句指定在分析中要包含或排除的词性、实体或属性。
    • 以仅 SVD 模式运行 HPTMINE 过程时,可以指定一个词条表。主题发现需要该词条表。

SAS Text Miner 13.2

SAS Text Miner 13.2 在 SAS 9.4M2 上运行。
以下是 SAS Text Miner 高性能过程的一些新功能和增强功能:
  • HPTMINE 过程支持下列新功能:
    • 您可以使用德语解析文本数据,并且可以指定文档输入数据集中使用的语言。
    • 您可以解析包含超过 32K 字符的文档。
    • 您可以在仅 SVD 模式中运行,当您想在文档解析后尝试 SVD 计算的不同参数时,该模式允许您在两个过程调用中分别解析文档和计算奇异值分解 (SVD)。
    • 您可以发现存在于文本语料库中的主题。
    • 您可以以 Base64 编码解析行 (BESR) 格式储存“词条-文档”矩阵。
    • 您可以使用默认坐标列表(COO 或事务)格式或 Base64 编码解析行 (BESR) 格式储存“词条-文档”矩阵。
    • 您可以指定自定义实体的自定义 LITI 文件和名词组提取。
    • 您可以指定是否在 OUTTERMS= 数据集和 OUTCHILD= 数据集中包括含有 _keep=N 的词条。
  • HPTMSCORE 过程支持下列新功能:
    • 您可以使用德语解析文本数据。
    • 您可以解析包含超过 32K 字符的文档。
    • 支持自定义实体的自定义 LITI 文件和名词组提取。

SAS Text Miner 13.1

SAS Text Miner 13.1 是一个在 SAS 9.4M1 及更新版本上运行的主要版本。该版本包括新增的文本剖析节点、针对节点性能和结果的多项增强功能,以及一项针对高性能 HPTMINE 过程的增强功能。
  • 新增的文本剖析节点支持您使用在文档中找到的词条来描述目标变量。
  • 文本解析节点包含新的选择语言属性,该属性支持您指定要在文档集合中保留的语言。
  • 文本主题节点的结果包含以下新项:
    • 一个词条表,其中显示各个词条以及它们在每个主题中所占的权重
    • 一个主题词矩阵图,其中显示分布在词条中的主题值
  • 高性能 HPTMINE 过程现在支持在 SVD 语句的 OUTDOCPRO= 选项中使用 NONORMDOC 关键字,用来控制是否对文档投影进行正规化处理。

SAS Text Miner 12.3

SAS Text Miner 12.3 包含了对节点性能和结果的增强。在不同的对话框中导入表信息时,导入按钮被替换表添加表按钮替换。您可以选择是替换当前选定的表还是添加至当前选定的表。文本规则生成器节点的结果包括新的“文档规则”表和“规则成功”图。
在 SAS 9.4 HP Text Miner 中,您可以在适当启用的 SAS Server 上使用 SMP 模式,以便在过程流程图中部署 HP Text Miner 节点,并且使用 HPTMINE 和 HPTMSCORE 过程。在很多情况下,在过程流程图中使用 HP Text Miner 节点可享有多线程处理的优势。详细信息,请参见 SAS Enterprise Miner High-Performance Data Mining Node Reference 中的 HP Text Miner Node 一章。
上一页|下一页|页首
上次更新时间: 2017年7月28日