基于语情语料库的主题标签研究——以汉语国际传播主题为例
主题标签可为人工采集和智能采集语情信息提供检索词,提高检索效率.基于自建的小型汉语国际传播主题语料库,借助LancsBox语料分析工具,分析该主题下的高频词;结合T值计算高频词的高频搭配.据此可得到汉语国际传播主题下的主题标签.为了验证主题标签检索文本的准确度,可选取其中一组标签为检索词在光明网上搜集新闻语料,并创建验证语料库.借助QUITA文本计量工具,计算两个语料库文本的h点及主题集中度.经检验发现,两个语料库在主题集中度这一指标上没有显著差异,说明采用主题标签检索出来的新闻语篇具有很高的话题拟合性,利用主题标签进行搜索可以提高检索效率.
语言监测、语料库、主题标签
H109.4
2022-07-20(万方平台首次上网日期,不代表论文的发表时间)
共4页
96-98,107