酷应用

多媒体顶会ACM Multimedia 2023各大奖项揭晓！浙大获最佳论文，昆士兰获最佳学生论文

百家作者：大数据文摘 2023-11-13 16:16:59

【导读】第31届ACM国际多媒体会议（ACM MM）于2023年10月29日至11月2日加拿大渥太华举行。最佳论文，最佳学生论文，最佳demo，最佳开源软件在内的所有多媒体领域大奖都已出炉。

大数据文摘受权转载自专知

ACM国际多媒体会议（ACM International Conference on Multimedia, 简称自1993年首次召开以来，ACMMM每年召开一次，已经成为多媒体领域顶级会议，也是中国计算机学会推荐的A类国际学术。会议热门方向有大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像等等。

最佳论文

标题：CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation（CATR:面向音视频分割的组合依赖音频查询Transformer）

作者：Kexin Li, Zongxin Yang, Lei Chen, Yi Yang, Jun Xiao

摘要：视频视频分割（AVVS）旨在生成图像帧内发声对象的像素级映射，并确保这些映射忠实地依附于给定的音频，例如识别和分割视频中唱歌者。然而，现有方法存在两个局限性：1) 它们单独处理了视频时序特征和音视频交互特征，未考虑到组合音频和视频固有的时空依赖性；2) 它们在解码阶段未充分引入音频约束和对象级信息，导致分割结果无法遵守音频指示。为了解决这些问题，提出了一种解耦的音视频转换器，从各自的时间和空间维度结合音频和视频特征，捕获它们之间的组合依赖关系。为了优化内存消耗，在堆叠时设计了一个块以高效地捕获音频和视频之间细粒度的组合依赖性。此外，在解码阶段引入了包含丰富对象级信息的音频约束查询，以确保解码掩码与声音一致。实验结果证实该方法有效性，并使用两个骨干网络在所有三个数据集上取得新颖SOTA性能。

论文地址：

https://www.zhuanzhi.ai/paper/d90e50de331dc03fa4c502788075626b

最佳学生论文

标题：Cal-SFDA: Source-Free Domain-adaptive Semantic Segmentation with Differentiable Expected Calibration Error（Cal-SFDA:基于可微期望校准误差的无源域自适应语义分割）

作者：Zixin Wang, Yadan Luo, Zhi Chen, Sen Wang, Zi Huang

摘要：领域自适应语义分割的流行引发了对源域数据泄露的担忧，其中源域可能会在目标域中无意间暴露隐私信息。为了避免对源数据的需求，无源域自适应已成为一种可行解决方案，它利用自训练方法伪标记高置信度区域，并使模型适应目标数据。然而，由于过度置信和类不平衡问题，获得的置信度分数往往存在显著偏差，这导致模型选择和优化都面临问题。本文提出了一种新的校准引导的无源域自适应语义分割（Cal-SFDA）框架。其核心思想是从分割预测中估计预期校准误差（ECE），作为评估模型在未标记目标域上泛化能力强弱的重要指标。通过估计得到的ECE分数，在源训练和目标自适应阶段辅助模型训练并进行公平选择。在源域模型预训练期间，采用LogSumExp技巧并使用ECE分数来选择最佳源检查点以实现自适应，并确保ECE目标具有可微性。为了在目标域上实现ECE估计而无需使用标签，我们训练了一个值网络用于进行ECE估计，并通过统计热身方法在其BatchNorm层上保持稳定性。通过估算得到的ECE分数有助于确定预测结果可靠性，并积极引导自适应过程以抑制潜在错误累积并实现类平衡伪标签生成。广泛实验表明，在两个常见合成到真实转移任务中，所提出方法相比之前最先进方法，在公正选取模型时mIoU提升高达5.25%。