一种基于粒子滤波算法的语音机器人控制方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

一种基于粒子滤波算法的语音机器人控制方法

引用
本发明涉及一种基于粒子滤波算法的语音机器人控制方法,属于计算机领域。该方法包括以下步骤:第一步:语音识别,设计一种基于深度卷积神经网络算法的语音识别算法,通过训练与测试,得到最终的识别结果;第二步:目标检测识别,设计一种基于快速卷积神经网络的目标检测算法;第三步:通过改进的粒子滤波算法对目标物体进行跟踪;第四步:基于深度强化学习的机械臂控制算法。通过对传统的粒子滤波算法进行改进,提出了一种分组优化权重+变异的新型粒子滤波算法,减少了采样粒子数量,延缓了粒子退化问题,减少在粒子重采样阶段造成的样本多样性和有效性的损失,优化了重采样过程,克服了粒子匮乏问题,使其检测精度更高。

发明专利

CN202010826410.7

2020-08-17

CN111986667A

2020-11-24

G10L15/22(2006.01)

重庆大学

陈刚;陈旺怡

400044 重庆市沙坪坝区沙坪坝正街174号

北京同恒源知识产权代理有限公司

赵荣之

重庆;50

1.一种基于粒子滤波算法的语音机器人控制方法,其特征在于:该方法包括以下步骤: 第一步:语音识别,设计一种基于深度卷积神经网络算法的语音识别算法,通过训练与测试,得到最终的识别结果; 第二步:目标检测识别,设计一种基于快速卷积神经网络的目标检测算法; 第三步:通过改进的粒子滤波算法对目标物体进行跟踪; 第四步:基于深度强化学习的机械臂控制算法。 2.根据权利要求1所述的一种基于粒子滤波算法的语音机器人控制方法,其特征在于:所述第一步具体为: 首先,将语音信号进行一系列预处理操作后提取能代表此信号的特征参数;其次,根据提取出来的特征参数进行模型训练,分别建立相对应的语言模型和声学模型;最后,提取待识别的语音信号中的特征参数并放入已经建立好的模型中进行匹配,得到识别结果; 1.语音信号的预处理 在特征参数的提取之前,需要对输入的语音进行一系列的预处理,目的是得到一段高保真、去噪的高质量语音信号; (1)分帧:语音信号从整体上来讲是不平稳的,但在一个极短的时间内,语音信号特性基本保持不变,可以看做是一个准稳态过程,因此要对声音进行分析,就需要对声音分帧,也就是把声音切开成一小段一小段,每小段称为一帧,分帧一般采用交叠分段的方法,这是为了使帧与帧之前平滑过渡,保持其连续性; (2)预加重:对输入的数字语音信号进行预加重,其目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,以增加语音的高频分辨率; (3)加窗:减少分帧后导致的帧起始位置与结束位置不连续问题,使信号在分帧后不偏离原始信号; 2.特征参数的提取 通过梅尔频率倒谱系数参数对信号特征进行提取; 3.语言模型的建立 语言模型能够估算代表文字序列本身的最大概率,对语音识别率有着直观的影响;一段自然语言文本看作是一个离散序列,给定长度为N的词的序列a1,a2,...,an,语言模型的目标就是评估该序列是否合理,即计算该序列的概率: P(a1,a2,...an) (1.1) 一段含有3个词的文本序列的概率: P(a1,a2,a3)=P(a1)P(a2|a1)P(a3|a1,a2) (1.2) 语言模型的参数就是词的概率以及给定前几个词的情况下的条件概率,P(a1)即a1词出现的概率,P(a2|a1)表示在a1词出现的情况下a2词出现的概率,P(a3|a1,a2)则表示为在a1与a2词共同出现的情况下a3词出现的概率; 统计语言模型采用大规模的训练预料对模型的参数进行自主的学习,认为给定句子出现的概率是句中每个词出现概率的乘积,用如下公式表示: P(A)=P(a1,a2,a3,.....,an)=P(a1)P(a2|a1)...P(an|a1,a2,...,an-1) (1.3) P(A)表示给定句子出现的概率,P(a1,a2,...an)表示给定句子中N个词出现的概率,P(an|a1,a2,...,an-1)代表在a1,a2,...an-1词都出现的情况下an词出现的概率; 4.声学模型的建立 在声学模型的选择上采用深度神经网络-隐马尔科夫系统,对于输入的语音信号采用连续的拼接帧,对海量数据进行有效建模,将每个时刻的观察即声学特征参数作为输入,以对输入信号的后验概率进行建模,并将后验概率与先验概率进行积分以获得状态的观察概率,再通过底层网络把噪声滤去,把需要的语音信息保存在上层;对于包含L个隐层的深度神经网络,假设输入为l0=a,整个模型表示为: l0=a (1.4) ln=f(dn+Wnln-1)1≤l≤L (1.5) y=Softmax(dN+1+WN+1lN) (1.6) 式中:a表示输入的语音声学特征;”dn,Wn”分别表示N层的偏量与连接权重;f()为隐含层的非线性激活函数,深度神经网络-隐马尔科夫系统采用整流线性单元作为激活函数,f(a)=max(0,a);ln为各隐层的输出向量;Softmax函数代表不同单元对应的后验概率。 3.根据权利要求2所述的一种基于粒子滤波算法的语音机器人控制方法,其特征在于:所述第二步具体为: 1.目标检测数据集的建立 采用PASCALVOC数据集,在训练神经网络模型时,需要用到目标物体的类别信息以及在图像上的位置信息;类别信息为目标物体的英文名称,位置信息为目标物体的边界框,即包含目标物体的适当矩形框,在目标数据集中,每张图像都对应一个xml文件,需要通过xml文本形式将训练所需信息进行记录;文件中记录图像名称、数据来源、图像大小及通道数、图像中包含的参与目标检测的目标物体名称及各个目标物体边界框的左上角与右下角坐标; 除了目标类别与位置信息,网络模型的训练中还需要有标签信息,即判断是否为目标物体,当图像中包含目标物体时,需在图像名称后标注“1”,否则标注为“-1”,标注文件以txt文本形式记录; 采用LabelImg图像标注工具创建所需目标检测数据集,打开图像标注工具后选择需要进行标注的图像,在图像中框选出目标物体并赋予其相应的类别;标注完成后就能获得与图像对应的xml文件; 2.快速卷积神经网络目标检测 使用快速卷积神经网络模型进行目标检测时,输入的数据为一张彩色的图像,输出的是图像中包含的物体类别和判断是否为该物体的概率,以及包含目标物体的矩形框的右下角和左上角的坐标; 区域选取网络是一个由两层神经元构成的神经网络,同时预测每个位置上的对象边界和对象分数;网络的第一层是一个卷积层,其将n×n的不同卷积核视为不同的滑动窗口在特征图F上进行卷积运算并在相应的区域生成多个256维的特征向量;接着所有的特征向量都被分别输入到第二层的两个全连接层,即边框回归层和边框分类层中;边框回归层的作用是预测候选区域的坐标位置,边框分类层的作用是判断当前候选区域内是否包含目标物体; 在神经网络的边界框回归步骤中,采用线性回归方法,用于微调预测边界框的回归边界,从而获取更加准确的目标定位信息;边界回归采用平移缩放的方法,参数计算如下: tx=(x-xa)/wa ty=(y-ya)/ha tw=(w-wa)/wa th=(h-ha)/ha 其中x,y,w,h分别表示预测边界框的中心坐标值,宽度和高度;xa,ya,wa,ha分别表示锚框的中心坐标值,宽度和高度;x*,y*,w*,h*分别表示真实边界框的中心坐标值,宽度和高度;tx,ty,tw,th表示预测边界框回归的四个坐标,t*x,t*y,t*w,t*h表示真实边界框回归的四个坐标; 快速卷积神经网络由ImageNet数据集预训练模型进行初始化,训练过程大致为: (1)区域选取网络训练 第一步,下载一个ImageNet数据集预训练的ZF卷积网络来初始化区域选取网络;ImageNet训练的ZF模型是一个8层卷积模型;RPN已针对区域提议任务进行了端到端的微调; 在RPN中,在图像中随机采样256个锚点框,正锚点和负锚点的比率为1:1;锚框是不同大小的矩形框,可帮助检测各种大小的物体;将锚框的重叠阈值设置为0.7,与任何标定好的真实数据框的重叠度小于0.3的锚框被视为负面示例;真实标签的正锚为1,负锚为0;这些带有标签和真实数据的坐标示例用于区域选取网络的监督训练;在此阶段,负锚不会导致回归损失;在对区域选取网络进行训练之后,将测试图像输入到经过微调的区域选取网络中,并输出一组2+4个值作为特定目标的分数和候选框的位置,每个预测框具有2个得分,这些得分估计对象与非对象的概率,候选框的位置是4个坐标;每个位置会产生k个候选框,对应为2k得分和4k坐标;由于锚点经常重叠,最终也会在同一个目标上重叠,为解决重复建议的问题,采了非最大值抑制法; (2)快速卷积神经网络训练 在第二步中,使用上面生成的建议来训练单独的检测快速卷积神经网络;快速卷积神经网络由ImageNet数据集预训练的ZF卷积网络模型初始化;在此步骤中,为每个批量设置2张图像;对于每个批量图像,随机选择64个建议,包括16个正面示例和48个负面示例;与区域选取网络不同,将提案的重叠阈值设置为0.5,其他则作为背景示例;通过MATLAB接口将数据传递给快速特征嵌入的卷积架构,以通过反向传播和随机梯度下降训练快速卷积神经网络; (3)网络融合 第三步,使用快速卷积神经网络初始化区域选取网络并修复卷积层,同时使用训练样本微调区域选取网络特有的层;最后,使用生成的区域提议来微调快速卷积神经网络的完全连接层,同时保持共享卷积层固定;两个网络共享相同的卷积层,并形成一个统一的网络。 4.根据权利要求3所述的一种基于粒子滤波算法的语音机器人控制方法,其特征在于:所述第三步具体为: 第三步:通过改进的粒子滤波算法对目标物体进行跟踪 目标跟踪描述为根据带有噪声的观测值去递归估计非线性系统状态的后验概率密度p(x0:k|z1:k);其中x0:k=(x0,x1,...,xk)表示到k时刻系统所产生的状态序列,z1:k=(z1,z2,...,zk)表示观测值序列;其核心思想就是利用带权值的粒子表示系统状态的条件后验概率密度p(xk|z1:k),从重要性采样密度函数中抽取N个独立同分布的样本通过加权逼近: 其中为k时刻粒子的权值,为k时刻粒子状态,δ()为狄拉克函数; 标准粒子滤波算法以序贯重要性采样和重采样为基础,引入重要性方法,利用重要性采样密度函数q(xk|z1:k)来抽取样本,避免直接从后验概率分布中抽取有效样本; 传统粒子滤波算法: 步骤1重要性采样 For i=1,2,...,N,根据采样新粒子 步骤2更新权值 根据当前的观测zk,计算新粒子集的权值: 归一化: 步骤3重采样 计算有效粒子数: 若有效粒子数小于给定阈值Nth,则重采样得到新的粒子集 步骤4状态估计 根据所有粒子的权值和状态计算得到目标状态估计; 方差估计: 返回步骤2; 采用改进的粒子滤波算法: 步骤1:初始化:粒子集为i=1,...,Np,时间步长为t=1,...,T,设置好适当的高权重阈值ωH与低权重阈值ωL,并对于每个时间t都执行下列步骤2-4; 步骤2:重要性采样与权重更新 与传统粒子滤波算法的步骤1和步骤2描述相同; 步骤3:重采样 (i)计算有效样本大小:用有效粒子数目来决定是否执行重采样操作,有效粒子数目Neff表示粒子集的退化程度,值越小,退化越严重, Np为粒子数目; (ii)如果粒子有效数目小于给定阈值,Neff<Nth,则执行如下重采样,否则执行(iii); a)通过分别与高权重阈值ωH与低权重阈值ωL相比较,根据粒子的权重将粒子分为,权重过高,中度与权重过低三组;粒子权重高于阈值ωH或低于阈值ωL则被认为是过重与可忽略的,则需要重新采样,转入b);否则,如果粒子权重在高权重阈值ωH与低权重阈值ωL之间则被视为中等粒而不需要进行重采样,通过获得中度粒子相应的权重然后转入(iii); b)对于权重过高与权重过低的粒子,通过权重优化运算来优化其相应的权重,优化权重公式如下: 当或则 其中,Nh与Nl分别表示权重高于ωH或权重低ωL的粒子数; (iii)所有粒子均通过以下粒子突变操作: 其中,pm是突变因子,是过程噪声的标准偏差,pm可通过的非归一化权重来计算; cx相对因子,它是通过实验预先定义的;是归一化因子 步骤4:根据所有粒子的权值和状态计算得到目标状态估计; 让t=t+1并替换旧粒子和权重,并转到步骤2。 5.根据权利要求4所述的一种基于粒子滤波算法的语音机器人控制方法,其特征在于:所述第四步具体为: 首先,使用时间差分偏差来衡量每个经验的学习价值;其次,通过时间差分偏差的绝对值来对经验池里的经验进行排序,更加频繁地回放那些高偏差的经验;基于优先级的经验回放可以显著减少深度确定性策略梯度算法的训练时间,提高训练过程的稳定性,并提升模型的鲁棒性;步骤如下: 输入:行为者当前网络μ,行为者目标网络μ”,评论者当前网络Q,评论者目标网络Q”,相对应的网络参数θμ,θμ’,θQ,θQ’,软更新系数τ,衰减因子γ,随机噪声N,迭代次数T,批量梯度下降的样本数N; 输出:最优行为者当前网络参数θμ,最优评论者当前网络参数θQ; 1.用θQ和θμ随机初始化评论者网络Q和行为者网络μ,以θQ’←θQ,θμ’←θμ初始化目标网络Q”和μ”,清空经验回放区R 2.以步长为1开始,循环训练T次: (1)初始化随机过程噪声N,初始化s1作为当前状态序列的第一个状态; (2)在行为者当前网络基于状态st得到动作at=μ(st|θμ)+Nt; (3)在环境中执行动作at,得到新状态St+1,奖励rt; (4)将本次动作执行获得的一组数据(st,at,rt,St+1)保存到经验回放区R,并且设置Dt=maxj<tDj,其中rank(j)是经验j在经验回放区中的等级,H为经验回放区的大小;如果t≤H,则跳到(5),否则循环重复下列步骤(a)-(c): (a)通过Pj采样经验j,Pj是采样经验j的概率 (b)计算相关的重要性采样权重Wj和误差δj 经验j的误差δj计算公式为: δj=r(st,at)+γQ”(st+1,at+1,rt+1)-Q(st,at,rt) (1.20) 参数α控制使用校正的程度; (c)通过绝对误差|δj|来更新j的优先级 (5)st=St+1 (6)从回放区经验池中随机采样的多组数据(st,at,rt,St+1),计算当前目标Q值yi: yi=ri+γQ”(si+1,μ”(si+1|θμ’|θQ’)) (1.22) (7)使用最小化损失函数L,通过神经网络的梯度方向传播来更新评论者当前网络参数θQ: (8)通过使用采样策略梯度更新行为者策略网络: (9)更新评论者目标网络和行为者目标网络参数: θQ’←τθQ+(1-τ)θQ’ (1.25) θμ’←τθμ+(1-τ)θμ’ (1.26) 语音服务机器人设计: 采用自然语言识别系统,包括获取模块、解析模块和处理模块三部分,自然语言识别系统通过老年人的声音获悉目标物品,通过双目摄像头对周围环境进行扫描识别,找到老年人所需物品的位置,机器人通过双目传感器捕捉的位置,上层核心控制器进行策略分析,下发指令,最后底层控制主板通过对电机等设备的控制使机器人移动到相应位置;机器人移动到策略决策后的位置,对目标进行精准识别,最终确定目标物品的精确位置,将位置数据返还给核心控制器;系统核心控制器经过空间坐标变换和解析,得出机械臂的控制策略,驱动机械臂实现跟踪和抓取任务;在完成抓取之后,机器人按照规划好的路线返回老人身边,将物品交给老人。
相关文献
评论
法律状态详情>>
2020-11-24公开
2020-11-24公开
相关作者
相关机构