专利 视频拆条方法、装置、计算机设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210824194.1 (22)申请日 2022.07.14 (71)申请人湖南四方天箭信息科技有限公司地址 410000 湖南省长沙市高新开发区岳麓西大道58 8号芯城科技园8栋13 01房 (72)发明人郭建京　周忠诚　黄九鸣　张圣栋　 (51)Int.Cl. G06F 16/783(2019.01) G06F 16/78(2019.01) G06F 16/75(2019.01) G06V 20/40(2022.01) G06V 20/62(2022.01) G06V 40/16(2022.01) G06V 10/762(2022.01) H04N 21/845(2011.01) (54)发明名称视频拆条方法、装置、计算机设备和存储介质 (57)摘要本发明涉及计算机视觉技术领域，提供一种视频拆条方法、装置、计算机设备和存储介质，包括：对待处理视频进行时间节点采样，提取各时间节点对应的视频图像特征、视频人脸特征、视频语音特征和视频字幕特征；将各时间节点作为聚类节点两两分组，基于视频图像特征、视频人脸特征、视频语音特征和视频字幕特征的相似度进行聚类，分别确定每组节点之间的聚类距离；根据聚类距离和时间区间的重叠对各时间节点合并，从合并后的时间节点中选择满足阈值要求的时间节点作为新的聚类节点返回聚类步骤进行迭代聚类，直至时间节点无法合并，得到最终的合并时间节点；基于最终的合并时间节点进行视频拆条。采用本方法能够提高拆条效率和准确性。权利要求书3页说明书12页附图2页 CN 115080793 A 2022.09.20 CN 115080793 A 1.一种视频拆条方法，其特征在于，包括：对待处理视频进行时间节点采样，提取各所述时间节点对应的视频图像特征、视频人脸特征、视频语音特征以及视频字幕特征；将各所述时间节点作为聚类节点两两分组，基于所述视频图像特征、所述视频人脸特征、所述视频语音特征以及所述视频字幕特征的相似度进行聚类，分别确定每组节点之间的聚类距离；根据所述聚类距离和时间区间的重叠对各所述时间节点合并，从合并后的时间节点中选择满足阈值要求的时间节点作为新的聚类节点，返回将聚类节点两两分组进行聚类的步骤，直至时间节点无法合并，得到最终的合并时间节点；基于最终的所述合并时间节点进行视频拆条。 2.根据权利要求1所述的方法，其特征在于，所述提取各所述时间节点对应的视频图像特征、视频人脸特征，包括：根据各所述时间节点进行视频帧提取，得到视频图像集合；分别对所述视频图像集合中各视频图像进行图像特征编码转化为高维度特征向量，得到各所述时间节点对应的视频图像特征；分别对各所述视频图像进行人脸检测得到人脸子图，对所述人脸子图进行人脸编码转化为高维度特征向量，得到各所述时间节点对应的视频人脸特征。 3.根据权利要求1所述的方法，其特征在于，所述提取各所述时间节点对应的视频语音特征，包括：对所述待处理视频进行音轨提取，得到所述待处理视频的音频文件；将所述音频文件分割为音频片段，分别对各所述音频片段进行特征编码，得到对应的音频特征；根据各所述音频片段包含的时间范围确定各所述时间节点的所属音频片段，得到各所述时间节点对应的视频语音特征。 4.根据权利要求1所述的方法，其特征在于，所述提取各所述时间节点对应的视频字幕特征，包括：获取所述待处理视频的视频图像集合， OCR识别所述视频图像集合中的各视频图像，得到各所述视频图像的字幕位置和字幕文本内容作为视频字幕特征；根据各所述视频图像与各所述时间节点以及所述视频字幕特征的对应关系，确定各所述时间节点对应的所述视频字幕特征。 5.根据权利要求1所述的方法，其特征在于，所述根据所述聚类距离和时间区间的重叠对各所述时间节点合并，从合并后的时间节点集中选择满足阈值要求的时间节点作为新的聚类节点，包括：当所述聚类距离中的最小距离值小于预设聚类阈值时，将所述最小距离值对应的时间节点合并，若合并后的时间节点所构成的时间区间与非合并时间节点重叠，则将所述非合并时间节点进行二次合并；从二次合并后的时间节点中选择最小时间和最大时间与预设时间约束阈值构建时间节点并集，选择属于所述时间节点并集内的时间节点；将选择的时间节点与当前剩余的非合并时间节点共同作为新的聚类节点。权　利　要　求　书 1/3 页 2 CN 115080793 A 26.根据权利要求1所述的方法，其特征在于，所述聚类距离计算公式包括：其中， Dis_KF(ti,tj)是时间节点ti和tj的聚类距离， K是聚类节点集合， dt是预设时间约束阈值， dis_c(ti,tj)是时间节点ti和tj的视频图像相似度， dis_F(ti,tj)是时间节点ti和tj 的视频人脸相似度， dis_a(ti,tj)是时间节点ti和tj的视频语音相似度， dis_Q(ti,tj)是时间节点ti和tj的视频字母相似度。 7.根据权利要求6所述的方法，其特征在于，所述视频图像相似度，视频人脸相似度，视频语音相似度以及视频字母相似度的计算公式如下：其中， ci和cj分别表示时间节点ti和tj的视频图像特征， Fi和Fj分别表示时间节点ti和tj 的视频人脸特征， ai和aj分别表示时间节点ti和tj的视频语音特征， Qi和Qj分别表示时间节点ti和tj的视频字幕特征， edit_dis()为字符串编辑距离， loc_dis()为空间中两个矩形框的中心位置欧式距离。 8.一种视频拆条装置，其特征在于，包括：特征提取模块，用于对待处理视频进行时间节点采样，提取各所述时间节点对应的视频图像特征、视频人脸特征、视频语音特征以及视频字幕特征；聚类模块，用于将各所述时间节点作为聚类节点两两分组，基于所述视频图像特征、所述视频人脸特征、所述视频语音特征以及所述视频字幕特征的相似度进行聚类，分别确定每组节点之间的聚类距离；合并模块，用于根据所述聚类距离和时间区间的重叠对各所述时间节点合并，从合并后的时间节点中选择满足阈值要求的时间节点作为新的聚类节点，返回将聚类节点两两分组进行聚类的步骤，直至时间节点无法合并得到最终的合并时间节点；权　利　要　求　书 2/3 页 3 CN 115080793 A 3

专利 视频拆条方法、装置、计算机设备和存储介质

专利视频拆条方法、装置、计算机设备和存储介质