10.3969/j.issn.1673-629X.2010.07.019
基于多因素的中文文本主题自动抽取方法
提出了一种基于多因素的文本主题的提取方法,并着重讨论了相应的权值体系.根据概念间的相互关系,对同义概念进行语义归并和上下位概念进行语义聚焦.对于给定的文本,先进行特征词抽取进而生成代表主题概念的重要词汇.综合语句所在位置、语句中的标题、语句中所含重要词汇等多因素构造语句权值表达式,在此基础上,采用主题句选择算法保证每一个主题句被选中,同时解决了主题句的去重问题.实验结果表明,该方法具有较高的抽准率.
主题句、主题抽取、文本主题、重要词汇、语句权值
20
TP181(自动化基础理论)
淮安市科技项目HAG09061;江苏省大学生实践创新训练项目312509001
2010-09-02(万方平台首次上网日期,不代表论文的发表时间)
共5页
72-75,79