2017年计算机视觉进展:3D技术与应用

需积分: 9 2 下载量 143 浏览量 更新于2024-07-18 收藏 2.5MB PDF 举报
在2018年10月于北京大学举办的CSIG三维视觉讲习班中,计算机视觉专家吴毅红教授分享了自2017年以来的计算机视觉领域关键发展。讲座的主题聚焦于3D计算机视觉的进步,探讨了这一技术在AR、VR、自动驾驶、机器人以及自动引导车(AGV)等领域的应用。 讲座分为几个主要部分: 1. **视觉计算理论回顾**:从早期的奠基人David Marr(1945-1980)开始,回顾了视觉计算理论的发展历程,强调了从2D到3D模型构建的重要性,这包括图像匹配、特征提取和环境建模。 2. **3D视觉基础**:介绍了三维重建技术,如结构光方法(SfM)、学习方法以及使用RGBD数据的三维重建。这些技术在3D重建中起着关键作用,为现实世界的物体和场景提供精确的几何模型。 3. **AR和VR的兴起**:2016年和2017年是增强现实(AR)和虚拟现实(VR)技术的重要年份,推动了3D视觉的需求,尤其是在游戏、娱乐和交互设计中的应用。 4. **无人驾驶与机器人技术**:2017年及后续,自动驾驶汽车、机器人和AGV的发展显著,需要高精度的3D视觉技术进行环境感知和导航。例如,Apple的ARKit和Google的ARCore的推出,加速了这些技术的商业化进程。 5. **深度学习的应用**:深度学习在3D视觉中的应用成为趋势,它被用于图像匹配、视觉定位(PnP算法和SLAM)和更高级的三维模型构建任务,提高了系统的准确性和效率。 6. **实际案例展示**:吴毅红教授还提到了Boston Dynamics公司的Spotmini机器人,展示了3D视觉导航技术在实际场景中的成功应用,如自主导航和避障。 **主要内容总结**: - 讲习班着重讲解了从基础理论到实际应用的3D计算机视觉发展,包括特征检测、图像匹配、视觉定位、3D模型构建和深度学习技术的融合。 - 讲座内容紧跟行业发展趋势,尤其关注AR/VR技术对3D视觉的推动以及在自动驾驶、机器人和无人驾驶领域的应用。 - 通过讲解实际案例,参与者能够深入了解3D视觉技术如何在复杂环境中解决关键任务,如环境理解、导航和交互。 吴毅红的研究成果和分享对于理解当前和未来计算机视觉领域的发展趋势具有重要价值,不仅为科研人员提供了深入学习的框架,也为产业界提供了技术参考和应用指南。
2018-06-14 上传
# MOS-PESQ The project is a tool that can get MOS(PESQ) score for the voice. PESQ measure: ------------- Usage of the PESQ objective measure is as follows: [pesq_mos]=pesq(cleanfile.wav,enhanced.wav) where 'cleanfile.wav' contains the clean speech file and 'enhanced.wav' contains the enhanced file. Example: To run the PESQ objective measure with the example files provided, type in MATLAB: >> pesq('sp09.wav','enhanced_logmmse.wav') ans = 2.2557 Source code for the PESQ implementation is available from a CD-ROM included in the following book: Loizou, P. (2007) "Speech enhancement: Theory and Practice", CRC Press. COMPOSITE MEASURE: ----------------- Usage: [Csig,Cbak,Covl]=composite(cleanfile.wav,enhanced.wav) where 'Csig' is the predicted rating of speech distortion 'Cbak' is the predicted rating of background distortion 'Covl' is the predicted rating of overall quality. You may run example files included in the zip file. In MATLAB, type: >> [c,b,o]=composite('sp09.wav','enhanced_logmmse.wav') LLR=0.681368 SNRseg=3.991727 WSS=49.671978 PESQ=2.255732 c = 3.3050 b = 2.6160 o = 2.7133 where 'sp09.wav' is the clean file and 'enhanced_logmmse.wav' is the enhanced file. The predicted ratings for overall quality was 2.7133, for background was 2.61 and for signal distortion it was 3.3050. Operating steps: ----------------- >> ./matlab-PESQ/readme.txt Thank: ----------------- Any questions, please E_mail: kinglongbest@163.com/245051943@qq.com 操作步骤 1.将所录序列加载如当前工作路径,也可以按自己工作路径自行加载; 2.在read.m中修改参考序列,默认为ref.wav,16KHz采样; 3.利用wavdivide.m对所录多组序列文件进行拆分(支持多种采样频率),并按序保证至当前路径; 4.运行tongji.m计算PESQ_MOS得分并通过excel/txt输出至指定路径; NOTE: 对于步骤4,每次执行记得修改excel中输出列位置,如cellnames2=['B',num2str(k+1),':B',num2str(k+1)];, 指定写入B列,下次执行改为C列,以此类推; 其中ref_8k.wav为8KHz采样测试序列,ref.wav为16KHz,ref_3s.wav只是为方便测试在ref.wav语音前加3s静音;