DOI：10.3969/j.issn.1001-3695.2015.04.006

文本挖掘中一种基于参数估计的语句分块方案研究

引用

摘要：

若想从文本中获得高质量信息,一般来讲需要处理大量数据集,还需使用自然语言处理方法及参数估计统计模型.针对该问题,首先针对数据遵守幂律分布的统计参数估计模型进行了优化;然后提出一种统计学方法用于文本挖掘中的语句分块,通过迭代估计词组概率,将大型语料库中的语句分成更小的有意义词组.该方法要求生成并存储大量词组频率数据,并在每次迭代时支持计算节点快速访问数据.实验评估表明,该方案显著降低了远程数据库查询次数,其端到端应用运行时间要比只基于HBase的原始分布式部署快出6倍.

关键词：数据集、参数估计、文本挖掘、幂律、词组、运行时间

所属期刊栏目：32

分类号：TP391.1(计算技术、计算机技术)

资助基金：国家自然科学基金面上项目61173051/F020104

在线出版日期：2015-05-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：986-991,995

英文信息展示

期刊专题