语料库短语序列提取系统的设计与开发
语料库短语序列提取一直是短语学研究的关键技术环节.囿于计算和操作的复杂性,前人研究多使用相对单一的统计方法测量和提取短语序列,导致提取的数据包含大量噪音.文章使用前沿的大数据处理手段和计算技术,实现了基于频数、互信息、边界熵等多种统计手段的短语序列提取方法,并研制开发了相应的系统.实验结果表明,该系统能够在普通计算机上支持千万词级规模的大型语料库运算,并能显著提高短语序列的提取质量.
语料库驱动、短语序列、自动提取、设计与开发
H319.3(英语)
国家社会科学基金;国家社会科学基金;北京市社会科学基金
2017-10-30(万方平台首次上网日期,不代表论文的发表时间)
共8页
9-16