10.13266/j.issn.0252-3116.2014.19.002
中文科技文献切分的领域适应技术研究
以生物医学文献为实例对象,研究科技文献切分中的领域适应技术,通过以词典特征、领域词汇特征、子串标注和使用词典切分的粗切分语料作为训练语料等方法,实现基于序列标注的中文切分方法由新闻领域到科技领域的适应,并取得了较好的效果.研究表明,在科技文献切分中,充分利用领域知识获取领域相关特征,对于提高科技文献切分的准确率具有重要的作用.
中文切分、领域适应、科技文献信息处理
TP391.2(计算技术、计算机技术)
本文系科技部国际科技合作专项“面向科技文献的日汉双向实用型机器翻译合作研究”项目编号:2014DFA11350和国家社会科学基金项目“基于事实型科技大数据的情报分析方法及集成分析平台研究”项目编号:14BTQ038研究成果之一.
2014-11-17(万方平台首次上网日期,不代表论文的发表时间)
13-18