(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210653792.7
(22)申请日 2022.06.09
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518000 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 舒秀军 许良晟 谯睿智
(74)专利代理 机构 北京市立方律师事务所
11330
专利代理师 张筱宁
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/75(2022.01)
G06V 10/762(2022.01)
G06V 10/82(2022.01)
(54)发明名称
视频处理方法、 装置、 电子设备及存 储介质
(57)摘要
本申请实施例提供了一种视频处理方法、 装
置、 电子设备及计算机可读存储介质, 涉及人工
智能及音视频处理技术领域。 该方法包括: 对目
标视频中的至少部分视频帧, 获得第一图像集、
第二图像集以及参考视频帧集; 确定属于同一个
目标对象的第一图像和第二图像的对应 关系; 获
得至少一个第一图像簇和第二图像簇, 并对每个
第一图像簇设置对象标签; 对于每个第二图像
簇, 根据第二图像簇中匹配图像对应的第一图像
的对象标签, 确定第二图像簇的对象标签; 从目
标视频中确定各个对象标签对应的目标视频片
段。 本申请实施例在第一部位不可见时, 第二部
位提供了额外的指导信息, 提高了获得任务集锦
的准确率和召回率。
权利要求书4页 说明书27页 附图8页
CN 115115976 A
2022.09.27
CN 115115976 A
1.一种视频处 理方法, 其特 征在于, 包括:
对目标视频中的至少部分视频帧, 进行目标对象的第一部位和第二部位的检测, 获得
第一图像集、 第二图像集以及参考视频帧集; 所述第一图像集中的每个第一图像为一个视
频帧中一个目标对象的第一部位的子区域; 所述第二图像集中的每个第二图像为一个视频
帧中一个目标对象的第二部位的子区域; 所述参考视频帧集中的每个参考视频帧同时存在
至少一个第一图像和至少一个第二图像;
对于每个所述参考视频帧, 确定属于同一个目标对象的第 一图像和第 二图像的对应关
系;
对所述第一图像集中的图像进行聚类, 获得至少一个第一图像簇, 对所述第二图像集
的图像进行聚类, 获得至少一个第二图像簇, 并对每 个所述第一图像簇设置对象标签;
对于每个所述第 二图像簇, 根据所述第 二图像簇中匹配图像对应的第 一图像的对象标
签, 确定所述第二图像簇的对 象标签; 所述匹配图像为所述第二图像簇中具有所述对应关
系的第二图像;
根据各个第 一图像簇和已确定对象标签的第 二图像簇对应的对象标签, 从所述目标视
频中确定各个对象标签对应的目标视频片段。
2.根据权利要求1所述的方法, 其特 征在于, 还 包括:
以人物为单元将所述目标视频对应的音频切分为多个音频片段, 对所述多个音频片段
进行聚类, 获得至少一个音频片段簇;
对于每个音频片段簇, 确定所述音频片段簇与各个待匹配图像簇的匹配程度, 所述待
匹配图像簇包括所述第一图像簇或第二图像簇中的至少一个图像簇;
对于每个第二图像簇, 根据所述第二图像簇中匹配图像对应的第一图像的对象标签,
确定所述第二图像簇的对象标签, 包括:
对于每个第二图像簇, 根据所述第二图像簇中匹配图像对应的第一图像的对象标签,
以及所述第二图像簇与各个音频片段簇的匹配程度, 确定所述第二图像簇的对象标签。
3.根据权利要求1所述的方法, 其特征在于, 所述对目标视频中的部分视频帧, 进行目
标对象的第一部位和第二部位的检测, 之前还 包括:
以镜头为单元将所述目标视频切分为多个视频片段, 从每个所述视频片段中确定预设
数目的视频帧, 作为所述至少部分视频帧;
所述从所述目标视频中确定各个对象标签对应的目标视频片段, 包括:
对于每个对象标签, 将具有所述对象标签的第 一图像簇以及第 二图像簇均作为目标图
像簇, 将所述目标图像簇中每个图像所对应的视频片段作为所述对象标签对应的目标视频
片段。
4.根据权利要求1 ‑3任意一项所述的方法, 其特征在于, 所述根据 所述第二图像簇 中匹
配图像对应的第一图像的对象标签, 确定所述第二图像簇的对象标签, 包括:
若所述第二图像簇中的所述匹配图像的数量以及所述匹配图像对应的第一图像的对
象标签的离散程度符合第一预设条件, 则将所有 所述匹配图像的对象标签中最多 数量的对
象标签, 作为所述第二图像簇的对象标签。
5.根据权利要求4所述的方法, 其特征在于, 根据 所述第二图像簇 中匹配图像对应的第
一图像的对 象标签, 以及每个音频片段簇与各个待匹配图像簇的匹配程度, 确定所述第二权 利 要 求 书 1/4 页
2
CN 115115976 A
2图像簇的对象标签, 包括:
若所述第二图像簇中匹配图像的数量或所述匹配图像对应的第一图像的对象标签的
离散程度中的至少一项不符合所述第一预设条件, 则根据每个所述音频片段簇与各个待匹
配图像簇的匹配程度, 确定所述第二图像簇的对象标签。
6.根据权利要求5所述的方法, 其特征在于, 所述根据每个所述音频片段簇与 各个待匹
配图像簇的匹配程度, 确定所述第二图像簇的对象标签, 包括:
若所述第二图像簇和一个第一图像簇均与同一个音频片段簇的匹配程度符合第二预
设条件, 则将所述 一个第一图像簇对应的对象标签, 作为所述第二图像簇对应的对象标签。
7.根据权利要求5所述的方法, 其特征在于, 所述根据每个所述音频片段簇与 各个待匹
配图像簇的匹配程度, 确定所述第二图像簇的对象标签, 之前还 包括:
对于所述第 二图像簇中的每个匹配图像, 确定所述匹配图像对应的第 一图像的目标对
象标签, 将所述匹配图像移动至具有所述目标对象标签的目标第二图像簇中。
8.根据权利要求6所述的方法, 其特征在于, 所述根据每个所述音频片段簇与 各个待匹
配图像簇的匹配程度, 确定所述第二图像簇的对象标签, 包括:
若所述第二图像簇与 所有音频片段簇的匹配程度均不符合第 二预设条件, 则对于所述
第二图像簇中的每个非匹配图像, 确定所述 非匹配图像与各个第二图像簇的簇中心的相似
度, 若最大相似度与次大相似度的差值大于预设阈值, 则将所述非匹配图像移动至最大相
似度的第二图像簇;
其中, 所述非匹配图像为所述第二图像簇中不具有所述对应关系的第二图像。
9.根据权利要求3所述的方法, 其特征在于, 所述以镜头为单元将目标视频切分为多个
视频片段, 包括:
通过预先训练的镜 头分割模型 预测每一视频帧的切分置信度;
通过滑动窗口统计多个视频帧内切分置信度高于切分阈值的视频帧的数量, 若所述数
量超过预设值, 则将所述滑动窗口中切分置信度最高的视频帧作为视频切分点;
根据所述视频切分点对所述目标视频进行切分。
10.根据权利要求1所述的方法, 其特征在于, 所述对所述第一图像集中的图像进行聚
类, 获得至少一个第一图像簇, 对所述第二图像集的图像进 行聚类, 获得至少一个第二图像
簇, 包括:
获得每个第一图像的第一特 征以及每 个第二图像的初始第二特 征;
根据每个第一图像的第一特征, 确定各个最邻近第一图像对, 根据每个第二图像的初
始第二特征, 确定各个最邻近第二图像对, 每个所述最邻近第一图像对中的两个第一图像
互为最邻近图像; 每 个所述最邻近第二图像对中的两个第二图像互为 最邻近图像;
根据所述各个最邻 近第一图像对中的两个第 一图像的对应关系, 更新所述两个第 一图
像对应的第二图像所在的最邻近第二图像对;
对于每个第 二图像, 将所述第 二图像的所有更新后的最邻 近第二图像对中的最邻 近图
像作为目标最邻近图像, 根据所述 目标最邻近图像的初始第二特征, 获得所述第二图像的
目标第二特 征;
对所有第一图像的第一特征进行聚类, 获得至少一个第一图像簇; 对所有第二图像的
目标第二特 征进行聚类, 获得至少一个第二图像簇 。权 利 要 求 书 2/4 页
3
CN 115115976 A
3
专利 视频处理方法、装置、电子设备及存储介质
文档预览
中文文档
40 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共40页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:59:44上传分享