基于Python的通用论坛正文提取研究
该文主要探讨BBS类论坛网页的文本数据的爬取与分析.首先,对该类论坛网页的HTML结构进行研究分析.在该类在论坛类网页中,文本数据主要包含链接页面中的全部主贴、全部回帖.其次,结合正则表达式、网络文本挖掘、Python工具、HTML等工具构建该类型论坛网页文本数据的抓取算法.为了便于用户阅读文本,还需要构建整理、清洗网页文本数据的算法,将抓取的网页文本数据整理为主题和回帖对应的json终极数据格局.
通用网络爬虫、BBS、正则表达式、Python语言
14
TP3(计算技术、计算机技术)
2018-10-12(万方平台首次上网日期,不代表论文的发表时间)
共2页
259-260