生成词向量的三种方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

生成词向量的三种方法

引用
在人工智能时代,神经网络已成为自然语言处理的一种重要工具.为了建立用于自然语言处理的神经网络系统,必须进行词向量的生成.本文讨论生成词向量的三种方法:连续跳元和连续词袋的方法、奇异值分解的方法、布劳恩聚类的方法.使用这些方法可以生成稠密的词向量,从而改进自然语言处理中神经网络的性能.这种稠密的词...>>详细在人工智能时代,神经网络已成为自然语言处理的一种重要工具.为了建立用于自然语言处理的神经网络系统,必须进行词向量的生成.本文讨论生成词向量的三种方法:连续跳元和连续词袋的方法、奇异值分解的方法、布劳恩聚类的方法.使用这些方法可以生成稠密的词向量,从而改进自然语言处理中神经网络的性能.这种稠密的词向量具有很多潜在优点.它们容易作为连续的实数值特征被纳入深度学习系统中,并在自然语言处理的神经网络系统中更好地发挥词嵌入的作用.连续跳元和连续词袋的方法通过发现嵌入的方式来学习词嵌入,在这样的嵌入中,邻近的单词具有较高的点积,而噪声词则具有较低的点积.因而这种方法可以训练一个神经网络来预测邻近的单词.在语义上相似的单词在文本中出现时常常是彼此邻近的,所以,如果能够很好地预测邻近单词的词嵌入,就可以较好地表示单词之间的相似性.在计算词嵌入时,这种方法得到广泛的采用,而且是行之有效的.奇异值分解是发现数据集合中最为重要的维度的方法.这种方法能够用于从完整的词项一词项矩阵或词项一文献矩阵中构建维度较低的词嵌入.布劳恩聚类方法是推导词向量表示的一种聚类算法.这种方法根据前面单词和后面单词之间的关联特征来对单词进行聚类.其算法使用了基于类别的语言模型.布劳恩聚类可以用来给单词建立二进制符号的向量,使其具有句法表示的功能.

词向量、神经网络、连续跳元、连续词袋、奇异值分解、布劳恩聚类

H319.3(英语)

2022-11-02(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn