一种识别数据的方法和装置

引用

摘要：

本发明公开了一种识别数据的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：从语料库中获取多个文本数据，采用所述文本数据训练序列到序列模型，得到训练后的序列到序列模型；将待识别的文本数据转换为待识别的拼音格式数据；将所述待识别的拼音格式数据输入到所述训练后的序列到序列模型中，以输出目标文本数据。该实施方式能够解决无法准确识别专业领域内的词汇的技术问题。

专利类型：发明专利

申请/专利号：CN201911013912.1

申请日期：2019-10-23

公开/公告号：CN112786014A

公开/公告日：2021-05-11

主分类号：G10L15/02(2006.01)

申请/专利权人:北京京东振世信息技术有限公司

发明/设计人:陈生泰

主申请人地址:100086 北京市海淀区知春路76号6层

专利代理机构:中原信达知识产权代理有限责任公司

代理人:张一军%王安娜

国别省市代码:北京;11

权利要求：

1.一种识别数据的方法，其特征在于，包括：从语料库中获取多个文本数据，采用所述文本数据训练序列到序列模型，得到训练后的序列到序列模型；将待识别的文本数据转换为待识别的拼音格式数据；将所述待识别的拼音格式数据输入到所述训练后的序列到序列模型中，以输出目标文本数据。 2.根据权利要求1所述的方法，其特征在于，采用所述文本数据训练序列到序列模型，得到训练后的序列到序列模型，包括：对所述文本数据依次进行去除符号处理和分字处理；将分字处理后的所述文本数据转换为拼音格式数据；以拼音格式数据作为输入、以分字处理后的文本数据作为输出，训练序列到序列模型，从而得到训练后的序列到序列模型。 3.根据权利要求2所述的方法，其特征在于，将分字处理后的所述文本数据转换为拼音格式数据，包括：若分字处理后的所述文本数据中含有汉字，则仅将所述汉字转换为无音调的拼音。 4.根据权利要求2所述的方法，其特征在于，对所述文本数据进行分字处理，包括：若所述文本数据中含有汉字，则将所述汉字切分为单个汉字；若所述文本数据中含有数字，则将所述数字切分为单个数字；若所述文本数据中含有英文，则将所述汉字切分为单个字母。 5.根据权利要求1所述的方法，其特征在于，将待识别的文本数据转换为待识别的拼音格式数据，包括：对待识别的文本数据依次进行去除符号处理和分字处理；将分字处理后的所述待识别的文本数据中的汉字转换为无音调的拼音，从而得到待识别的拼音格式数据。 6.根据权利要求1所述的方法，其特征在于，将待识别的文本数据转换为待识别的拼音格式数据之前，还包括：通过语音识别技术将待识别的语音数据转换为待识别的文本数据。 7.根据权利要求1所述的方法，其特征在于，所述序列到序列模型为Transformer模型，Bi-LSTM+Attention模型，或者，ConvS2S模型。 8.一种识别数据的装置，其特征在于，包括：训练模块，用于从语料库中获取多个文本数据，采用所述文本数据训练序列到序列模型，得到训练后的序列到序列模型；转换模块，用于将待识别的文本数据转换为待识别的拼音格式数据；识别模块，用于将所述待识别的拼音格式数据输入到所述训练后的序列到序列模型中，以输出目标文本数据。 9.一种电子设备，其特征在于，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。 10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。

专利专题