10.3969/j.issn.1672-9722.2021.03.007
基于TF-IDF算法的分层搜索引擎设计
随着网络信息的迅速增长以及深层网络结构的广泛应用,人们对于覆盖率广、检索效率高的搜索引擎提出了愈来愈高的要求.据此,论文提出了一种两阶段的搜索引擎设计方案.在第一阶段利用网络爬虫爬取相关的网络信息,并构成词条语料库,在第二阶段基于TF-IDF算法搜索词条语料库,得到与待查询语句最相近的词条.该引擎利用Flask框架构建本地Web界面,实现简洁明了的界面显示与快速的数据传输,且该框架易于维护.实验结果表明,该搜索引擎采用的爬虫技术所形成的语料库覆盖率广,TF-IDF算法具有计算速度快、匹配精度高的特点.
搜索引擎、网络爬虫、TF-IDF算法、Flask框架
49
TP301.6(计算技术、计算机技术)
2021-04-07(万方平台首次上网日期,不代表论文的发表时间)
共6页
456-461