10.11896/j.issn.1002-137X.2016.10.051
中文病理文本的结构化处理方法研究
病理文本作为一类重要的非结构化临床文档,对临床诊断至关重要.针对具体的中文病理文本数据,提出一种简单有效结构化处理方法.首先对中文病理历史文本数据进行预处理,包括数据清洗、短句切分及主干提取等步骤,从中提取出各个样本所对应的文本信息;然后通过短句聚类和统计参数筛选实现样本描述模板的提取;最后利用模板对病理文本进行即时结构化处理,得到最终的结构化处理结果.实验证明,该方法对同类文本可以达到很好的结构化效果;同时提取的模板会被定期优化以适应最新的数据结构化需求.
中文病理文本、结构化、短句聚类、模板提取
43
TP391.1(计算技术、计算机技术)
上海市科委科技创新行动计划:基于“互联网+”技术的多病种多中心临床大数据行业应用15511106900
2016-11-10(万方平台首次上网日期,不代表论文的发表时间)
共5页
272-276