10.3969/j.issn.1003-0077.2023.01.003
基于主动学习与众包的农业知识标注体系及语料库构建
农业书籍与网络知识库作为领域专家撰写的蕴含了大量农学常识与农事经验的数据源,具有高可信、知识丰富、结构规范等特点.为了挖掘此类文本源中的农学知识,该文讨论了农业命名实体和实体关系的相关问题,首次提出了主动学习与众包相结合的农业知识标注体系.在农学专家的指导和参与下,构建了包含9类实体以及15大类、37小类语义关系的多源农业知识标注语料库,其中农业书籍源共3.7万个实体、3.5万个实体关系,百度百科源含1.1万个实体以及1.5万个实体关系.在实验部分,我们利用标注一致性评价标准对比了两类数据源的标注质量,并从实体识别、关系抽取两个方面证明了主动学习能够节约标注成本、提升标注效率和模型训练效果,为后续研究打下了坚实基础.
语料构建、农业知识图谱、标注体系
37
TP391(计算技术、计算机技术)
新一代人工智能重大项目;国家自然科学基金;黑龙江省博士后自然基金
2023-03-30(万方平台首次上网日期,不代表论文的发表时间)
共13页
33-45