10.3969/j.issn.1672-6944.2021.03.033
基于自然语言处理的新冠疫情文献分析与研究
随着时间推移,COVID-19对人类的影响与日俱增,人们很难迅速找到自己需要的文章,缺少合适的检索工具,浪费大量的时间和精力,文章提出了一种新的检索方法.该方法首先采用线性化归一对文章数据进行预处理,其次使用NLP从每个文档的正文中解释文本,然后使用TF-IDF将每个文档实例转换为特征向量,接着用t-SNE对每个特征向量进行降维,将相似的文章聚集在二维平面中,再使用PCA将数据投影到多个维,采用K-means聚类,最后用LDA建模,从每个聚类中发现关键字,在可视化图形上可视地查找聚类.该方法可以帮助专业人员更容易地筛选出许多与病毒有关的出版物,并快速找到他们需要的文章.
自然语言处理、机器学习、python
18
2018年度江苏省教育厅高校哲学社会科学研究基金项目;项目名称:新工科背景下的软件人才培养研究;探索;项目
2021-03-31(万方平台首次上网日期,不代表论文的发表时间)
共2页
66-67