10.3969/j.issn.1003-0077.2018.05.003
面向文本聚类的实体—动作关联模型研究
该文提出面向文本聚类分析的实体—动作关联模型EARM,探讨汉语语义实体及其行为的描述方法.汉语属于非形态语言,语句没有时态及语态的变化,词类跟句法成分之间也不是简单的一一对应关系.该文提出一种句法成分识别机制,根据词汇类别特征及位置特征识别实体及动作.在句法成分识别的基础上展开句法分析,通过匹配句型特征建立实体—动作关联模型EARM,描述实体的行为及状态.对于嵌套句型等较为复杂的句型结构,需要在句法分析过程中实施动作层次分解,将复杂语句分解为简单的基本句型,以便于挖掘实体—动作关联.考虑到汉语语法比较灵活,语句成分缺省和倒装现象相对普遍,该文提出了倒装句的识别机制,通过匹配接近的句型进行实体移位,调整语序.论述了基于统计模型的EARM权重量化策略,借助语法树的最大公共子图量化文本的相似度并实施聚类,设计并开展了EARM实体—动作分析实验和EARM聚类实验.实验结果表明EARM的分析是准确有效的,聚类结果是合理的.
文本表示模型、实体—动作关联、句型识别、动作层次分解
32
TP391(计算技术、计算机技术)
国家自然科学基金61363028
2018-07-02(万方平台首次上网日期,不代表论文的发表时间)
共9页
22-30