10.3969/j.issn.1003-0077.2020.09.002
基于高斯混合模型的现代汉语构式成分自动标注方法
现代汉语构式成分自动标注作为文本自动标注任务之一,其最大的困难在于,当不存在标注语料作为训练数据时,如何从生语料中挖掘不同类型的构式成分相关的知识并进行标注,特别是面对构式序列在句中的边界难以判断的情况.该文试图借助高斯混合模型聚类方法,结合句中每一个字的位置特征与构式形式本身的语言学特征,融合正则表达式匹配结果信息,挖掘句子中的构式实例序列,并对构式内部成分进行自动标注.相较于仅基于正则表达式匹配和词性匹配的自动标注结果,该方法的F1分别至少提高了17.9%(半凝固型构式)、19.3%(短语型构式)、14.9%(复句型构式).
现代汉语构式、自动标注、高斯混合模型、数据挖掘
34
TP391(计算技术、计算机技术)
教育部人文社科基地2015年度重大项目;国家自然科学基金
2020-11-27(万方平台首次上网日期,不代表论文的发表时间)
共8页
1-8