一种基于大数据的视频文件处理方法和装置

引用

摘要：

本发明涉及一种基于大数据的视频文件处理方法和装置，获取待处理视频文件，将待处理视频文件进行初步处理，得到音频数据和图像数据，将音频数据进行语音识别，得到当前文本数据，并获取历史文本数据，获取当前文本数据的当前特征以及历史文本数据的历史特征，融合当前特征和历史特征，获取当前文本数据的文本语义，将图像数据逐帧分割，得到多帧图像，对各帧图像进行人脸识别，得到各帧图像中存在的各人脸图像，并获取各人脸图像的身份信息，将当前文本数据的文本语义以及各人脸图像的身份信息存储至处理结果数据表中。本发明提供的视频文件处理方法能够对视频文件进行较为全面的数据处理，提升视频文件处理的全面性和准确性。

专利类型：发明专利

申请/专利号：CN202110356087.6

申请日期：2021-04-01

公开/公告号：CN112908331A

公开/公告日：2021-06-04

主分类号：G10L15/22(2006.01)

申请/专利权人:高小雯

发明/设计人:高小雯;陈之衎

主申请人地址:518048 广东省深圳市福田区福保街道福保社区深圳市福田保税区紫荆道2号顺通安科技厂房2栋七层

国别省市代码:广东;44

权利要求：

1.一种基于大数据的视频文件处理方法，其特征在于，包括：获取待处理视频文件；将所述待处理视频文件进行初步处理，得到所述待处理视频文件的音频数据和图像数据；将所述音频数据进行语音识别，得到当前文本数据，并根据所述当前文本数据，获取历史文本数据；获取所述当前文本数据的当前特征，以及所述历史文本数据的历史特征；融合所述当前特征和所述历史特征，获取所述当前文本数据的文本语义；将所述图像数据逐帧分割，得到多帧图像；对各帧图像进行人脸识别，得到所述各帧图像中存在的各人脸图像；将所述各人脸图像输入至预设的人脸图像库中，获取所述各人脸图像的身份信息；将所述当前文本数据的文本语义以及所述各人脸图像的身份信息存储至预设的处理结果数据表中。 2.根据权利要求1所述的基于大数据的视频文件处理方法，其特征在于，所述获取所述当前文本数据的当前特征，以及所述历史文本数据的历史特征具体为：将所述当前文本数据进行词语划分，得到所述当前文本数据中的各个词语；获取所述当前文本数据中各个词语的词特征；获取所述历史文本数据的文本特征。 3.根据权利要求2所述的基于大数据的视频文件处理方法，其特征在于，所述融合所述当前特征和所述历史特征，获取所述当前文本数据的文本语义具体为：按照所述各个词语在所述当前文本数据中的由先至后的正向顺序，分别将所述各个词语的词特征和所述历史文本数据的文本特征输入至预设的记忆网络模型中，得到与所述各个词语一一对应的正向融合特征；按照所述各个词语在所述当前文本数据中的由后至先的反向顺序，分别将所述各个词语的词特征和所述历史文本数据的文本特征输入至所述记忆网络模型中，得到与所述各个词语一一对应的反向融合特征；将所述正向融合特征和所述反向融合特征输入至语义分析网络模型中，分析得到所述当前文本数据的文本语义。 4.根据权利要求3所述的基于大数据的视频文件处理方法，其特征在于，所述按照所述各个词语在所述当前文本数据中的由先至后的正向顺序，分别将所述各个词语的词特征和所述历史文本数据的文本特征输入至预设的记忆网络模型中，得到与所述各个词语一一对应的正向融合特征具体为：按照所述各个词语在所述当前文本数据中的由先至后的顺序，逐个提取第i个词语的词特征，并获取第i个词语的正向附加融合特征，所述第i个词语的正向附加融合特征为第i-1个词语的正向融合特征；将第i个词语的词特征、所述历史文本数据的文本特征以及第i个词语的正向附加融合特征，输入至所述记忆网络模型中进行特征处理，得到第i个词语的正向融合特征，以此得到与所述各个词语一一对应的正向融合特征。 5.根据权利要求4所述的基于大数据的视频文件处理方法，其特征在于，所述将所述正向融合特征和所述反向融合特征输入至语义分析网络模型中，分析得到所述当前文本数据的文本语义，包括：根据所述各个词语在所述当前文本数据中的由先至后的正向顺序，确定在所述正向顺序下所述各个词语中的第一个词语和最后一个词语；从所述各个词语一一对应的正向融合特征中，确定所述最后一个词语的正向融合特征；从所述各个词语一一对应的反向融合特征中，确定所述第一个词语的反向融合特征；将所述最后一个词语的正向融合特征和所述第一个词语的反向融合特征输入至所述语义分析网络模型中，分析得到所述当前文本数据的文本语义。 6.根据权利要求1所述的基于大数据的视频文件处理方法，其特征在于，所述对各帧图像进行人脸识别，得到所述各帧图像中存在的各人脸图像之后，所述视频文件处理方法还包括：对所述各人脸图像进行表情识别，得到所述各人脸图像的表情信息；相应地，所述将所述当前文本数据的文本语义以及所述各人脸图像的身份信息存储至预设的处理结果数据表中具体为：将所述当前文本数据的文本语义、所述各人脸图像的身份信息以及所述各人脸图像的表情信息存储至所述处理结果数据表中。 7.根据权利要求6所述的基于大数据的视频文件处理方法，其特征在于，所述对所述各人脸图像进行表情识别，得到所述各人脸图像的表情信息具体为：获取第一样本集和第二样本集，所述第一样本集中的第一表情样本图像为正面表情样本图像，所述第二样本集中的第二表情样本图像为负面表情样本图像；对所述第一样本集中的各第一表情样本图像进行标注，得到第一表情类别，对所述第二样本集中的各第二表情样本图像进行标注，得到第二表情类别，所述第一表情类别为正面表情，所述第二表情类别为负面表情，所述第一表情类别和第二表情类别构成标注数据；将所述第一样本集和第二样本集输入至表情识别编码器中进行特征提取，表情识别编码器输出的特征向量输入给Flatten层，经Flatten层处理得到一维特征向量，一维特征向量作为全连接层的输入，全连接层将一维特征向量映射到特征标记空间，然后输出给softmax函数，通过softmax函数输出两个表情类别的概率，根据输出的两个表情类别的概率确定对应的初始表情类别；将所述初始表情类别与所述标注数据通过交叉熵损失函数进行运算，优化表情识别网络模型中的参数；将所述各人脸图像输入到所述表情识别网络模型中，得到所述各人脸图像的表情信息。 8.一种基于大数据的视频文件处理装置，其特征在于，包括用于执行实现如权利要求1-7任一项所述的基于大数据的视频文件处理方法的计算机程序的处理器。

专利专题