文字标记方法、装置、电子设备及计算机可读存储介质
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

文字标记方法、装置、电子设备及计算机可读存储介质

引用
本发明涉及数据处理技术,揭露一种文字标记方法,包括:获取原始语音数据集,对所述原始语音数据集进行静音切除处理,得到初始语音数据集;对所述初始语音数据集进行特征提取,得到特征向量集;利用预先构建的声学模型、语言模型以及预设的字典对所述特征向量集进行语音识别转换处理,得到文字集;根据预构建的感情色彩库对所述文字集进行标注,得到标识文字集。本发明还涉及区块链技术,所述标识文字集可以存储在区块链节点中。本发明还揭露一种文字标记装置、电子设备及存储介质。本发明可以解决传统的会议记录生成方法不能对会议记录中的重点内容进行标记的问题。

发明专利

CN202011242256.5

2020-11-09

CN112201253A

2021-01-08

G10L15/26(2006.01)

平安普惠企业管理有限公司

齐秀

518000 广东省深圳市前海深港合作区前湾一路1号A栋201室(入驻深圳市前海商务秘书有限公司)

深圳市沃德知识产权代理事务所(普通合伙)

高杰%于志光

广东;44

1.一种文字标记方法,其特征在于,所述方法包括: 获取原始语音数据集,对所述原始语音数据集进行静音切除处理,得到初始语音数据集; 对所述初始语音数据集进行特征提取,得到特征向量集; 利用预先构建的声学模型、语言模型以及预设的字典对所述特征向量集进行语音识别转换处理,得到文字集; 根据预构建的感情色彩库对所述文字集进行标注,得到标识文字集。 2.如权利要求1所述的文字标记方法,其特征在于,所述对所述初始语音数据集进行特征提取,得到特征向量集,包括: 对所述初始语音数据集进行预加重处理、分帧处理、加窗处理以及快速傅里叶变换,得到所述初始语音数据集的频谱; 对所述频谱取模平方,得到所述初始语音数据集的功率谱; 利用一组预设的梅尔尺度的三角形滤波器组对所述功率谱进行计算并得到对数能量,对所述对数能量进行离散余弦变换,得到特征向量集。 3.如权利要求2所述的文字标记方法,其特征在于,所述分帧处理包括: 根据预设的采样点N对所述原始语音数据集进行分帧,得到分帧集; 根据预设的取样点M从所述分帧集获取多个帧,并将所述多个帧进行重叠,得到分帧语音数据集。 4.如权利要求2所述的文字标记方法,其特征在于,所述快速傅里叶变换包括: 及 所述对所述频谱取模平方包括: 其中,s(k)为频谱,p(k)为功率谱,S′(n)为加窗信号,N为帧的大小,n为帧的个数,k为频谱上的预设参数。 5.如权利要求1所述的文字标记方法,其特征在于,所述利用预先构建的声学模型、语言模型以及预设的字典对所述特征向量集进行语音识别转换处理,得到文字集,包括: 利用所述声学模型对所述特征向量集进行音素处理,得到音素信息; 根据预设的字典,获取与所述音素信息相对应的单个字或者词; 利用所述语言模型识别所述单个字或者词相互关联的概率值,根据所述概率值将所述单个字或者词识别成完整的文字集。 6.如权利要求5所述的文字标记方法,其特征在于,所述利用所述语言模型识别所述单个字或者词相互关联的概率值,包括: 利用预设的One Hot编码方式将所述音素信息相对应的单个字或者词转化为对应的字向量; 根据所述语言模型中的前向长短记忆网络层以及后向长短记忆网络层对所述字向量进行转换处理,得到向量矩阵; 将所述向量矩阵发送至分类器网络层,得到与所述音素信息相对应的单个字或者词的概率值。 7.如权利要求1所述的文字标记方法,其特征在于,所述根据预构建的感情色彩库对所述文字集进行标注,得到标识文字集,包括: 通过遍历操作选择所述文字集中的单个字或者词; 将选择的所述单个字或者词在所述感情色彩库进行匹配查找; 当选择的所述单个字或者词在所述感情色彩库中找到相匹配的字或者词时,获取所述相匹配的字或者词对应的情绪及颜色标识; 根据获取的所述情绪及颜色标识对所述进行标注; 重复上述的通过遍历操作选择所述文字集中的单个字或者词的步骤,直到所述文字集中所有的单个字或者词都执行选择动作时,得到标识文字集。 8.一种文字标记装置,其特征在于,所述装置包括: 静音切除模块,用于获取原始语音数据集,对所述原始语音数据集进行静音切除处理,得到初始语音数据集; 特征提取模块,用于对所述初始语音数据集进行特征提取,得到特征向量集; 语音识别转换模块,用于利用预先构建的声学模型、语言模型以及预设的字典对所述特征向量集进行语音识别转换处理,得到文字集; 标注模块,用于根据预构建的感情色彩库对所述文字集进行标注,得到标识文字集。 9.一种电子设备,其特征在于,所述电子设备包括: 至少一个处理器;以及, 与所述至少一个处理器通信连接的存储器;其中, 所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的文字标记方法。 10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文字标记方法。
相关文献
评论
法律状态详情>>
2021-01-08公开
2021-01-08公开
相关作者
相关机构