基于条件随机场的地质矿产文本分词研究
中文与英文不同,词与词之间没有类似空格的天然分隔符,致使中文分词成为中文信息处理中的难题.地质矿产文本中含有大量未登录地质专业术语,现阶段仍无效果较好的分词方法.本文探讨了一种基于双语料库条件随机场模型的方法对地质矿产文本进行分词,并与通用领域分词方法、单语料库条件随机场模型分词方法进行对比实验.实验表明,本文提出的方法在开放测试下分词效果明显优于其他方法,准确率为94.80%,召回率为92.68%,F-值为93.73%.本文对地质矿产文本进行了中文分词研究,既能够很好地识别未登录地质专业术语,又保证了普通词汇的识别率,为对地质领域的自然语言处理工作奠定了基础.
中文分词、地质矿产文本、条件随机场、语料、地质词典
27
P5;G254.9
国土资源部公益性行业科研专项项目"地质大数据技术研究与应用试点"资助编号201511079-02;国家重点研发计划项目"基于'地质云'平台的深部找矿知识挖掘"资助编号2016YFC0600510
2018-10-12(万方平台首次上网日期,不代表论文的发表时间)
共7页
69-74,101