10.3969/j.issn.1001-3695.2015.04.006
文本挖掘中一种基于参数估计的语句分块方案研究
若想从文本中获得高质量信息,一般来讲需要处理大量数据集,还需使用自然语言处理方法及参数估计统计模型.针对该问题,首先针对数据遵守幂律分布的统计参数估计模型进行了优化;然后提出一种统计学方法用于文本挖掘中的语句分块,通过迭代估计词组概率,将大型语料库中的语句分成更小的有意义词组.该方法要求生成并存储大量词组频率数据,并在每次迭代时支持计算节点快速访问数据.实验评估表明,该方案显著降低了远程数据库查询次数,其端到端应用运行时间要比只基于HBase的原始分布式部署快出6倍.
数据集、参数估计、文本挖掘、幂律、词组、运行时间
32
TP391.1(计算技术、计算机技术)
国家自然科学基金面上项目61173051/F020104
2015-05-26(万方平台首次上网日期,不代表论文的发表时间)
共7页
986-991,995