专利 视频处理方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210653792.7 (22)申请日 2022.06.09 (71)申请人腾讯科技（深圳）有限公司地址 518000 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人舒秀军　许良晟　谯睿智　 (74)专利代理机构北京市立方律师事务所 11330 专利代理师张筱宁 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/75(2022.01) G06V 10/762(2022.01) G06V 10/82(2022.01) (54)发明名称视频处理方法、装置、电子设备及存储介质 (57)摘要本申请实施例提供了一种视频处理方法、装置、电子设备及计算机可读存储介质，涉及人工智能及音视频处理技术领域。该方法包括：对目标视频中的至少部分视频帧，获得第一图像集、第二图像集以及参考视频帧集；确定属于同一个目标对象的第一图像和第二图像的对应关系；获得至少一个第一图像簇和第二图像簇，并对每个第一图像簇设置对象标签；对于每个第二图像簇，根据第二图像簇中匹配图像对应的第一图像的对象标签，确定第二图像簇的对象标签；从目标视频中确定各个对象标签对应的目标视频片段。本申请实施例在第一部位不可见时，第二部位提供了额外的指导信息，提高了获得任务集锦的准确率和召回率。权利要求书4页说明书27页附图8页 CN 115115976 A 2022.09.27 CN 115115976 A 1.一种视频处理方法，其特征在于，包括：对目标视频中的至少部分视频帧，进行目标对象的第一部位和第二部位的检测，获得第一图像集、第二图像集以及参考视频帧集；所述第一图像集中的每个第一图像为一个视频帧中一个目标对象的第一部位的子区域；所述第二图像集中的每个第二图像为一个视频帧中一个目标对象的第二部位的子区域；所述参考视频帧集中的每个参考视频帧同时存在至少一个第一图像和至少一个第二图像；对于每个所述参考视频帧，确定属于同一个目标对象的第一图像和第二图像的对应关系；对所述第一图像集中的图像进行聚类，获得至少一个第一图像簇，对所述第二图像集的图像进行聚类，获得至少一个第二图像簇，并对每个所述第一图像簇设置对象标签；对于每个所述第二图像簇，根据所述第二图像簇中匹配图像对应的第一图像的对象标签，确定所述第二图像簇的对象标签；所述匹配图像为所述第二图像簇中具有所述对应关系的第二图像；根据各个第一图像簇和已确定对象标签的第二图像簇对应的对象标签，从所述目标视频中确定各个对象标签对应的目标视频片段。 2.根据权利要求1所述的方法，其特征在于，还包括：以人物为单元将所述目标视频对应的音频切分为多个音频片段，对所述多个音频片段进行聚类，获得至少一个音频片段簇；对于每个音频片段簇，确定所述音频片段簇与各个待匹配图像簇的匹配程度，所述待匹配图像簇包括所述第一图像簇或第二图像簇中的至少一个图像簇；对于每个第二图像簇，根据所述第二图像簇中匹配图像对应的第一图像的对象标签，确定所述第二图像簇的对象标签，包括：对于每个第二图像簇，根据所述第二图像簇中匹配图像对应的第一图像的对象标签，以及所述第二图像簇与各个音频片段簇的匹配程度，确定所述第二图像簇的对象标签。 3.根据权利要求1所述的方法，其特征在于，所述对目标视频中的部分视频帧，进行目标对象的第一部位和第二部位的检测，之前还包括：以镜头为单元将所述目标视频切分为多个视频片段，从每个所述视频片段中确定预设数目的视频帧，作为所述至少部分视频帧；所述从所述目标视频中确定各个对象标签对应的目标视频片段，包括：对于每个对象标签，将具有所述对象标签的第一图像簇以及第二图像簇均作为目标图像簇，将所述目标图像簇中每个图像所对应的视频片段作为所述对象标签对应的目标视频片段。 4.根据权利要求1 ‑3任意一项所述的方法，其特征在于，所述根据所述第二图像簇中匹配图像对应的第一图像的对象标签，确定所述第二图像簇的对象标签，包括：若所述第二图像簇中的所述匹配图像的数量以及所述匹配图像对应的第一图像的对象标签的离散程度符合第一预设条件，则将所有所述匹配图像的对象标签中最多数量的对象标签，作为所述第二图像簇的对象标签。 5.根据权利要求4所述的方法，其特征在于，根据所述第二图像簇中匹配图像对应的第一图像的对象标签，以及每个音频片段簇与各个待匹配图像簇的匹配程度，确定所述第二权　利　要　求　书 1/4 页 2 CN 115115976 A 2图像簇的对象标签，包括：若所述第二图像簇中匹配图像的数量或所述匹配图像对应的第一图像的对象标签的离散程度中的至少一项不符合所述第一预设条件，则根据每个所述音频片段簇与各个待匹配图像簇的匹配程度，确定所述第二图像簇的对象标签。 6.根据权利要求5所述的方法，其特征在于，所述根据每个所述音频片段簇与各个待匹配图像簇的匹配程度，确定所述第二图像簇的对象标签，包括：若所述第二图像簇和一个第一图像簇均与同一个音频片段簇的匹配程度符合第二预设条件，则将所述一个第一图像簇对应的对象标签，作为所述第二图像簇对应的对象标签。 7.根据权利要求5所述的方法，其特征在于，所述根据每个所述音频片段簇与各个待匹配图像簇的匹配程度，确定所述第二图像簇的对象标签，之前还包括：对于所述第二图像簇中的每个匹配图像，确定所述匹配图像对应的第一图像的目标对象标签，将所述匹配图像移动至具有所述目标对象标签的目标第二图像簇中。 8.根据权利要求6所述的方法，其特征在于，所述根据每个所述音频片段簇与各个待匹配图像簇的匹配程度，确定所述第二图像簇的对象标签，包括：若所述第二图像簇与所有音频片段簇的匹配程度均不符合第二预设条件，则对于所述第二图像簇中的每个非匹配图像，确定所述非匹配图像与各个第二图像簇的簇中心的相似度，若最大相似度与次大相似度的差值大于预设阈值，则将所述非匹配图像移动至最大相似度的第二图像簇；其中，所述非匹配图像为所述第二图像簇中不具有所述对应关系的第二图像。 9.根据权利要求3所述的方法，其特征在于，所述以镜头为单元将目标视频切分为多个视频片段，包括：通过预先训练的镜头分割模型预测每一视频帧的切分置信度；通过滑动窗口统计多个视频帧内切分置信度高于切分阈值的视频帧的数量，若所述数量超过预设值，则将所述滑动窗口中切分置信度最高的视频帧作为视频切分点；根据所述视频切分点对所述目标视频进行切分。 10.根据权利要求1所述的方法，其特征在于，所述对所述第一图像集中的图像进行聚类，获得至少一个第一图像簇，对所述第二图像集的图像进行聚类，获得至少一个第二图像簇，包括：获得每个第一图像的第一特征以及每个第二图像的初始第二特征；根据每个第一图像的第一特征，确定各个最邻近第一图像对，根据每个第二图像的初始第二特征，确定各个最邻近第二图像对，每个所述最邻近第一图像对中的两个第一图像互为最邻近图像；每个所述最邻近第二图像对中的两个第二图像互为最邻近图像；根据所述各个最邻近第一图像对中的两个第一图像的对应关系，更新所述两个第一图像对应的第二图像所在的最邻近第二图像对；对于每个第二图像，将所述第二图像的所有更新后的最邻近第二图像对中的最邻近图像作为目标最邻近图像，根据所述目标最邻近图像的初始第二特征，获得所述第二图像的目标第二特征；对所有第一图像的第一特征进行聚类，获得至少一个第一图像簇；对所有第二图像的目标第二特征进行聚类，获得至少一个第二图像簇。权　利　要　求　书 2/4 页 3 CN 115115976 A 3

专利 视频处理方法、装置、电子设备及存储介质

专利视频处理方法、装置、电子设备及存储介质