10.13335/j.1000-3673.pst.2018.0266
电网设备缺陷文本的质量评价与提升方法
文本质量直接影响着文本挖掘效果的优劣.在总结电网企业缺陷文本存在的质量问题基础上,提出了缺陷文本质量评价和提升方法.首先,通过对大量实际缺陷文本的分析,总结出电网设备缺陷文本的格式及容易出现的不完整、不具体、冗余度过高等问题.然后,基于相应问题,定义了缺陷文本质量的评价指标,并提出了基于“层次-自适应灰色关联分析法”的评价方法.接下来,针对历史缺陷文本中质量较差和缺陷等级与缺陷描述不匹配的文本,利用潜在狄利克雷分布方法,结合国家电网有限公司的缺陷分类标准,进行修正以提升质量;针对新录入文本,利用文本质量评价方法进行质量问题提示,利用词向量映射方法给出修正建议,保证新录入缺陷文本的质量.最后,结合实例对修正前后的缺陷文本进行质量对比,算例表明,修正后的历史缺陷文本在文本质量得分上有较大提升,新录入文本存在的问题也能较为准确地识别并给出对应修正建议.
电网设备缺陷文本、文本质量评价、层次-自适应灰色关联分析法、文本质量提升、潜在狄利克雷分布
43
TM721(输配电工程、电力网及电力系统)
2019-05-17(万方平台首次上网日期,不代表论文的发表时间)
共8页
1472-1479