西电通院在国际顶会CVPR2020视频压缩挑战赛获得全球第四(高校第二)
(通讯稿:何刚)一年一度的计算机视觉学术盛宴CVPR(IEEE Conference on Computer Vision and Pattern Recognition)近日刚刚落下帷幕。在本届CVPR大会中,为了促进机器学习与计算机视觉技术在图像和视频压缩领域的发展,由Google,Nvidia等公司联合举办的CVPR-CLIC(Challenge on Learned Image Compression)竞赛吸引了大量的队伍参与,其中也包括图鸭科技、阿里达摩院等在业内处于领先地位的科技公司与组织。
在历经三个多月的激烈角逐后,西安电子科技大学通信工程学院何刚老师(https://web.xidian.edu.cn/ghe/)带领团队WestWorld在视频压缩赛道(P-frame track)中获得了全球第四,高校排名第二的优异成绩。何刚老师是通信工程学院图像传输与处理研究所(图像所)骨干成员,图像所隶属于ISN国家重点实验室,负责人为李云松教授。下图为各队伍成绩排名情况(队伍名蓝色为认定有效参赛队及有效参赛成绩)。http://challenge.compression.cc/leaderboard/pframe/test/
图1 CVPR-CLIC视频压缩赛道比赛结果
视频流量占据了全球互联网流量的主要部分,并且将在2022增长至79%。视频压缩是必不可少的,该领域的研究开发也从未停止脚步。越来越成熟且先进的视频压缩标准例如H.266、AV1等都已被提出。而深度学习在该领域的发展也是飞速的,其压缩性能已经可以赶超部分传统压缩标准。
本次大赛中,基于深度学习的视频压缩作为一个全新的赛道,在对传输码流大小进行严格限制的情况下,以MS-SSIM作为主要评价指标衡量方案的压缩性能。何刚老师带领WestWorld团队结合传统编解码的特性,创新性地将深度学习“过拟合”方式应用于视频压缩,并且设计出鲁棒的码率控制算法大幅提升压缩效率,在竞赛中主观评价指标MS-SSIM的结果在所有参赛队伍中处于前列(与第一名TUCODEC_SSIM仅差0.00025)。此外,该方案在解码器的轻量化及解码速度上取得了重大突破,在与前三名MS-SSIM相近的情况下,该方案的解码器大小在所有队伍中最小,如图2所示;且该方案的解码速度均快于前三名,如图3所示。
图2 解码器大小与MS-SSIM的对比
图3 解码速度与MS-SSIM的对比
深度学习给压缩领域带来了全新的方向,甚至有取代传统方法之势。何刚老师及其科研团队一直致力于基于深度学习的图像视频压缩及增强处理的研究,已有多项相关专利与论文发表。最新设计的基于深度学习的视频压缩框架可结合现有任意视频编解码器使其再降低13.1%-20.5%的码率,并通过网络轻量化可实现1080P视频的实时解码。
WestWorld团队成员:
老师简介:
何刚,现工作于西安电子科技大学通信工程学院图像传输与处理研究所(图像所)。图像所是ISN国家重点实验室成员单位,负责人是李云松教授。本科毕业于西安交通大学,博士毕业于日本早稻田大学,师从后藤敏教授(IEEE Life Fellow),研究方向是基于人工智能的未来高效视频编码,基于深度学习卷积网络和对抗技术的图像增强处理,虚拟现实VR系统设计,视频编码算法及VLSI结构设计等研究,发表SCI论文及国际会议40余篇。主持了国家自然科学基金,陕西省自然基金,及国家一等博士后基金。同时,与工业界广泛合作促进产学研结合,包括腾讯公司联合开发图像增强系统,与中科院联合开发4K编解码系统,与快手开发高动态视频处理,与数码视讯合作AI视频增强系统等。此外,与数码视讯开发的AI视频增强2019年被CCTV13《朝日新闻》采访报道。担任IEEE会员,IEEE T-IP, T-CSVT, T-VLSI, T-MM, ICIP, ISCAS, IET等期刊会议审稿人,AVS专家组成员,未来视频编码组(FVC)成员。
学生简介:
吴畅,西安电子科技大学通信工程学院图像传输与处理研究所(图像所)硕士二年级研究生,导师何刚。研究方向为视频图像压缩与增强处理。
李磊,西安电子科技大学通信工程学院图像传输与处理研究所(图像所)硕士二年级研究生,导师何刚。研究方向为视频图像压缩与增强处理。