(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210824194.1
(22)申请日 2022.07.14
(71)申请人 湖南四方天箭信息科技有限公司
地址 410000 湖南省长 沙市高新 开发区岳
麓西大道58 8号芯城科技园8栋13 01房
(72)发明人 郭建京 周忠诚 黄九鸣 张圣栋
(51)Int.Cl.
G06F 16/783(2019.01)
G06F 16/78(2019.01)
G06F 16/75(2019.01)
G06V 20/40(2022.01)
G06V 20/62(2022.01)
G06V 40/16(2022.01)
G06V 10/762(2022.01)
H04N 21/845(2011.01)
(54)发明名称
视频拆条方法、 装置、 计算机设备和存储介
质
(57)摘要
本发明涉及计算机视觉技术领域, 提供一种
视频拆条方法、 装置、 计算机设备和存储介质, 包
括: 对待处理视频进行时间节点采样, 提取各时
间节点对应的视频图像特征、 视频人脸特征、 视
频语音特征和视频字幕特征; 将各时间节点作为
聚类节点两两分组, 基于视频图像特征、 视频人
脸特征、 视频语音特征和视频字幕 特征的相似度
进行聚类, 分别确定每组节点之间的聚类距离;
根据聚类距离和时间区间的重叠对各时间节点
合并, 从合并后的时间节点中选择满足阈值要求
的时间节点作为新的聚类节点返回聚类步骤进
行迭代聚类, 直至时间节点无法合并, 得到最终
的合并时间节 点; 基于最终的合并时间节点进行
视频拆条。 采用本方法能够提高拆条效率和准确
性。
权利要求书3页 说明书12页 附图2页
CN 115080793 A
2022.09.20
CN 115080793 A
1.一种视频拆条 方法, 其特 征在于, 包括:
对待处理视频进行时间节点采样, 提取各所述时间节点对应的视频图像特征、 视频人
脸特征、 视频语音特 征以及视频字幕特 征;
将各所述时间节点作为聚类节点两两分组, 基于所述视频图像特征、 所述视频人脸特
征、 所述视频语音特征以及所述视频字幕特征 的相似度进行聚类, 分别确定每组节点之间
的聚类距离;
根据所述 聚类距离和时间区间的重叠对各所述 时间节点合并, 从合并后的时间节点中
选择满足 阈值要求的时间节点作为新的聚类节点, 返回将聚类节点两两 分组进行聚类的步
骤, 直至时间节点无法合并, 得到最终的合并时间节点;
基于最终的所述 合并时间节点进行视频拆条。
2.根据权利要求1所述的方法, 其特征在于, 所述提取各所述 时间节点对应的视频图像
特征、 视频人脸特征, 包括:
根据各所述时间节点进行视频帧提取, 得到 视频图像集 合;
分别对所述视频图像集合中各视频图像进行图像特征编码转化为高维度 特征向量, 得
到各所述时间节点对应的视频图像特 征;
分别对各所述视频图像进行人脸检测得到人脸子图, 对所述人脸子图进行人脸编码转
化为高维度特 征向量, 得到各 所述时间节点对应的视频 人脸特征。
3.根据权利要求1所述的方法, 其特征在于, 所述提取各所述 时间节点对应的视频语音
特征, 包括:
对所述待处 理视频进行音轨提取, 得到所述待处 理视频的音频文件;
将所述音频文件分割为音频片段, 分别对各所述音频片段进行特征编码, 得到对应的
音频特征;
根据各所述音频片段包含的时间范围确定各所述 时间节点的所属音频片段, 得到各所
述时间节点对应的视频语音特 征。
4.根据权利要求1所述的方法, 其特征在于, 所述提取各所述 时间节点对应的视频字幕
特征, 包括:
获取所述待处理视频的视频图像集合, OCR识别所述视频图像集合中的各视频图像, 得
到各所述视频图像的字幕位置和字幕文本内容作为视频字幕特 征;
根据各所述视频图像与各所述 时间节点以及所述视频字幕特征的对应关系, 确定各所
述时间节点对应的所述视频字幕特 征。
5.根据权利要求1所述的方法, 其特征在于, 所述根据所述 聚类距离和时间区间的重叠
对各所述时间节点合并, 从合并后的时间节点集中选择满足 阈值要求的时间节点作为新的
聚类节点, 包括:
当所述聚类距离 中的最小距离值小于预设聚类阈值 时, 将所述最小距离值对应的时间
节点合并, 若合并后的时间节点所构成的时间区间与非合并时间节点重叠, 则将所述非合
并时间节点进行二次合并;
从二次合并后的时间节点中选择最小时间和最大时间与预设时间约束阈值构建时间
节点并集, 选择属于所述时间节点并集内的时间节点;
将选择的时间节点与当前剩余的非合并时间节点共同作为 新的聚类节点。权 利 要 求 书 1/3 页
2
CN 115080793 A
26.根据权利要求1所述的方法, 其特 征在于, 所述聚类距离计算公式包括:
其中, Dis_KF(ti,tj)是时间节点ti和tj的聚类距 离, K是聚类节点集合, dt是预设时间约
束阈值, dis_c(ti,tj)是时间节点ti和tj的视频图像相似度, dis_F(ti,tj)是时间节点ti和tj
的视频人脸相似度, dis_a(ti,tj)是时间节点ti和tj的视频语音相似度, dis_Q(ti,tj)是时
间节点ti和tj的视频字母相似度。
7.根据权利要求6所述的方法, 其特征在于, 所述视频图像相似度, 视频人脸相似度, 视
频语音相似度以及视频字母相似度的计算公式如下:
其中, ci和cj分别表示时间节点ti和tj的视频图像特征, Fi和Fj分别表示时间节点ti和tj
的视频人脸特征, ai和aj分别表示时间节点ti和tj的视频语音特征, Qi和Qj分别表示时间节
点ti和tj的视频字幕特征, edit_dis()为字符串编辑距离, loc_dis()为空 间中两个矩形框
的中心位置欧式距离 。
8.一种视频拆条装置, 其特 征在于, 包括:
特征提取模块, 用于对待处理视频进行时间节点采样, 提取各所述时间节点对应的视
频图像特 征、 视频人脸特征、 视频语音特 征以及视频字幕特 征;
聚类模块, 用于将各所述 时间节点作为聚类节点两两分组, 基于所述视频图像特征、 所
述视频人脸特征、 所述视频语音特征以及所述视频字幕特征 的相似度进行聚类, 分别确定
每组节点之间的聚类距离;
合并模块, 用于根据所述聚类距离和时间区间的重叠对各所述时间节点合并, 从合并
后的时间节点中选择满足 阈值要求的时间节点作为新的聚类节点, 返回将聚类节点两两分
组进行聚类的步骤, 直至时间节点无法合并得到最终的合并时间节点;权 利 要 求 书 2/3 页
3
CN 115080793 A
3
专利 视频拆条方法、装置、计算机设备和存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:59:45上传分享