10.3969/j.issn.1007-757X.2014.01.008
基于全文索引与余弦公式医学文本相似性分析
医学文本相似性问题是医学文本挖掘中的重要内容,如何能够快速计算出大数据量下的医学文本的相似性情况是医学文本相似性计算的重点.针对基于传统余弦公式医学文本相似性分析算法在性能上的缺陷,提出了一种基于全文索引技术与余弦公式医学文本相似性分析算法,对医学文本相似性进行分析.采用全文索引技术对医学文本数据相关关键词进行索引,并根据若干关键词在索引中检索出部分数据,从而减少计算复杂度,提高效率.实验表明,该方法比基于传统余弦公式医学文本相似性分析算法具有更优的性能.
医学文本相似性、余弦公式、全文索引、文本挖掘、向量空间模型
30
TP393(计算技术、计算机技术)
湛江市科技计划项目编号:2012C3102009广东医学院青年基金项目XQ1353
2014-04-10(万方平台首次上网日期,不代表论文的发表时间)
共3页
25-27