阿里巴巴CVPR2018顶会视觉技术亮点:行为预测与场景分割

需积分: 9 2 下载量 59 浏览量 更新于2024-07-17 收藏 3.84MB PDF 举报
"阿里巴巴在2018年CVPR会议上展示了其在视觉技术领域的最新研究成果,共发表了18篇论文,其中精选7篇论文集结成册。这些论文涵盖了在线行为预测、场景分割、跨模态检索、图像内容编辑、卷积超分辨率和本征图像分解等多个方向,展示了深度学习技术在计算机视觉中的应用。 1. 基于时间尺度选择的在线行为预测:此论文提出了一个多子网络的尺度选择网络,用于解决视频中行为预测的时间维度选择问题。通过一维卷积子网络进行时间序列建模,尺度回归子网络确定最佳时间窗口,以及行为预测子网络进行预测,实现在两个公开数据集上的优秀性能。 2. 基于语境对比特征和门控多尺度融合的场景分割:论文介绍了结合语境对比局部特征和门控多尺度融合策略的场景分割方法。语境对比特征增强了局部信息的理解,而门控机制允许在不同尺度上灵活融合信息,提高了分割精度。 3. 所见所想所找-基于生成模型的跨模态检索:该研究探索了如何使用生成模型进行跨模态检索,旨在通过视觉信息找到对应的文本描述或反之。论文详细介绍了模型架构、方法、实验和结果,展示了在图像到文本和文本到图像检索任务上的表现。 4. 整体还是局部?应用 Localized GAN 进行图像内容编辑、半监督训练和解决 mode collapse 问题:论文揭示了全局与局部坐标系统在研究 Generative Adversarial Networks (GANs) 中的作用,同时探讨了如何利用它们来解决模式塌陷问题,并在图像内容编辑和半监督学习中取得进展。 5. 处理多种退化类型的卷积超分辨率:针对图像超分辨率任务,研究了处理多种退化类型的卷积网络方法,包括引入新的网络结构和损失函数,以提高在低质量图像恢复上的效果。 6. 基于尺度空间变换的本征图像分解:此工作提出了一个利用尺度空间变换进行本征图像分解的新方法,通过网络结构的演化和残差块的设计,实现对图像的精细分解。 这些论文不仅反映了阿里巴巴在视觉技术的深入研究,还展现了其在电商、新零售、城市大脑等实际场景中的应用,如图像搜索、人车识别、商场数字化等,推动了计算机视觉技术的商业化进程。"