DOI：10.13266/j.issn.0252-3116.2016.13.017

基于相似网页文本演化的数据溯源

引用

摘要：

[目的/意义]为解决现有网页文本缺乏起源标注的问题,提出一种借助PROV本体发现相似网页文本起源关系的方法.[方法/过程]通过聚类算法、自动语义标注和关联数据构建等技术的综合应用,结合PROV-POL溯源模型,检测网页文本实体的演变过程,实现文本级和属性级两级溯源方案.[结果/结论]实验验证了借助语义网技术和数据溯源模型实现网页文本数据溯源的可行性,但实验过程中聚类算法的召回率有待提高.

关键词：PROV模型、内容追溯、关联数据

分类号：TP391(计算技术、计算机技术)

资助基金：本文系北京市社会科学基金项目“社交网络中谣言的数据溯源与监控对策”项目编号:14SHB010和教育部人文社会科学研究规划基金项目“社交网络舆情演化的数据溯源及信任机制研究”项目编号:15YJAZH052研究成果之一.

在线出版日期：2016-09-05（万方平台首次上网日期，不代表论文的发表时间）

页码：134-140,148

英文信息展示

期刊专题