10.3772/j.issn.1674-1544.2019.06.013
科技大数据背景下的中英双语语料库的构建及其特点研究
首先通过对双语语料库全过程构建的描述,提出基于专业领域词库快速构建双语语料库的方式,并用于快速发现科技大数据基础语料的多属性,完成语料的标注,这对于科技大数据知识检索、知识图谱方面的应用具有基础性支撑作用.然后通过分析新时期科技大数据对语料库构建的要求,从期刊、专利中选择"分布式能源"主题数据集,结合"神经网络机器翻译+统计机器翻译"的机器翻译技术,构建形成20834个双语词对初试语料集,利用中国科学技术信息研究所专利数据库、德温特专利数据库形成6428条专利数据对双语词对初试语料集进行测试应用.最后从忠实度、流畅度、可理解度3个方面进行人工评测.
科技大数据、双语语料库、机器学习、语料库构建、机器翻译引擎
51
G354.4(情报学、情报工作)
中国科学技术信息研究所重点工作"面向中信所资源大数据建设的多源异构数据库内容获取与融合平台建设二期"ZD2019-04
2020-03-25(万方平台首次上网日期,不代表论文的发表时间)
共6页
87-92