10.12339/j.issn.1673-8578.2021.03.009
多策略融合的俄语文本词语提取方法研究
俄语是联合国工作语言之一,是俄罗斯等多个国家的官方语言.随着"一带一路"倡议的推进和全球化进程的加快,俄语文本数据成为有关组织管理决策的重要信息来源,俄语文本挖掘也因而成为重要的管理决策支持方法.然而,俄语文本挖掘方法研究目前还远未成熟,尤其是其关键基础——俄语文本词语提取的性能较低,阻碍着俄语文本建模的准确性.因此,文章提出一种多策略融合的俄语文本词语提取方法,结合俄语词性分析、语法规则和串频统计等多种方法,自动提取包含单词和短语在内的俄语词语.在联合国平行语料库和Taiga Corpus语料库上的实验结果表明,文章提出的方法在保证高召回率的同时,达到了85%以上的高准确率,显著优于常用的n-gram方法,能够为俄语文本主题发现和文本分/聚类等文本挖掘应用提供有效的词库.
俄语文本挖掘、词语提取、词性标注、频繁词串
23
G623.35;H08(初等教育)
国家自然科学基金71771054
2021-07-06(万方平台首次上网日期,不代表论文的发表时间)
共9页
59-67