一种识别数据的方法和装置
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

一种识别数据的方法和装置

引用
本发明公开了一种识别数据的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:从语料库中获取多个文本数据,采用所述文本数据训练序列到序列模型,得到训练后的序列到序列模型;将待识别的文本数据转换为待识别的拼音格式数据;将所述待识别的拼音格式数据输入到所述训练后的序列到序列模型中,以输出目标文本数据。该实施方式能够解决无法准确识别专业领域内的词汇的技术问题。

发明专利

CN201911013912.1

2019-10-23

CN112786014A

2021-05-11

G10L15/02(2006.01)

北京京东振世信息技术有限公司

陈生泰

100086 北京市海淀区知春路76号6层

中原信达知识产权代理有限责任公司

张一军%王安娜

北京;11

1.一种识别数据的方法,其特征在于,包括: 从语料库中获取多个文本数据,采用所述文本数据训练序列到序列模型,得到训练后的序列到序列模型; 将待识别的文本数据转换为待识别的拼音格式数据; 将所述待识别的拼音格式数据输入到所述训练后的序列到序列模型中,以输出目标文本数据。 2.根据权利要求1所述的方法,其特征在于,采用所述文本数据训练序列到序列模型,得到训练后的序列到序列模型,包括: 对所述文本数据依次进行去除符号处理和分字处理; 将分字处理后的所述文本数据转换为拼音格式数据; 以拼音格式数据作为输入、以分字处理后的文本数据作为输出,训练序列到序列模型,从而得到训练后的序列到序列模型。 3.根据权利要求2所述的方法,其特征在于,将分字处理后的所述文本数据转换为拼音格式数据,包括: 若分字处理后的所述文本数据中含有汉字,则仅将所述汉字转换为无音调的拼音。 4.根据权利要求2所述的方法,其特征在于,对所述文本数据进行分字处理,包括: 若所述文本数据中含有汉字,则将所述汉字切分为单个汉字; 若所述文本数据中含有数字,则将所述数字切分为单个数字; 若所述文本数据中含有英文,则将所述汉字切分为单个字母。 5.根据权利要求1所述的方法,其特征在于,将待识别的文本数据转换为待识别的拼音格式数据,包括: 对待识别的文本数据依次进行去除符号处理和分字处理; 将分字处理后的所述待识别的文本数据中的汉字转换为无音调的拼音,从而得到待识别的拼音格式数据。 6.根据权利要求1所述的方法,其特征在于,将待识别的文本数据转换为待识别的拼音格式数据之前,还包括: 通过语音识别技术将待识别的语音数据转换为待识别的文本数据。 7.根据权利要求1所述的方法,其特征在于,所述序列到序列模型为Transformer模型,Bi-LSTM+Attention模型,或者,ConvS2S模型。 8.一种识别数据的装置,其特征在于,包括: 训练模块,用于从语料库中获取多个文本数据,采用所述文本数据训练序列到序列模型,得到训练后的序列到序列模型; 转换模块,用于将待识别的文本数据转换为待识别的拼音格式数据; 识别模块,用于将所述待识别的拼音格式数据输入到所述训练后的序列到序列模型中,以输出目标文本数据。 9.一种电子设备,其特征在于,包括: 一个或多个处理器; 存储装置,用于存储一个或多个程序, 当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。 10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
相关文献
评论
法律状态详情>>
2021-05-11公开
相关作者
相关机构