财务文档分词及文档相关性分析
搜集财务专业语料库,利用中科院的分词工具对专业语料库进行分词,计算分词的准确率和召回率,并将结果保存在文件中.计算文档中给定词的词频和反文档频率,并对专业词汇加权,提高专业词汇的重要性,利用数学模型进行文档的相似度匹配.设置阈值,若两篇文档的相似度大于指定阈值,即认定两篇文档相似,进而生成一个矩阵,求解矩阵的连通性,得到该本聚类的结果,并进行文章的相关性分析.该文有利于财务分析人员根据已分类好的财务文档,了解企业过去,评价企业现状,作出对企业有长远影响的决策.
准确率和召回率、财务文档相似度匹配、财务文档相关性分析
TP311(计算技术、计算机技术)
2013-06-20(万方平台首次上网日期,不代表论文的发表时间)
共2页
1718-1719