没有合适的资源?快使用搜索试试~ 我知道了~
引文:高翔,崔海南,朱玲杰,石天欣,沈姝涵。基于多源数据的大型中国古建筑三维数字化保存案例研究。虚拟现实智能硬件,2019,1(5):525-541DOI:10.1016/j.vrih.2019.08.003虚拟现实智能硬件2019年第5期·案例报告·基于多源数据的大型中国古建筑三维数字化保护XianggGAO1,2,HaiinanCUI1,LingjieZHU1,2,TianxinSHI1,2,ShuhannSHEN1,2*1. 中国科学院自动化研究所模式识别国家重点实验室,北京1001902. 中国科学院大学,北京100049*通讯作者,shshen@nlpr.ia.ac.cn投稿时间:2019年5月7日修订日期:2019年7月18日接受日期:2019年8月2日国家自然科学基金项目(61632003,61873265).摘要中国古代建筑的复杂性和结构的精细性使得其三维数字化和文献化具有挑战性。为了生成这种架构的完整和详细的模型,最好是获取,处理和融合多源数据,而不是单源数据。本文介绍了基于多源数据的中国古建筑三维数字化保存的研究工作。我们首先简要介绍了两座被调查的中国古代寺庙,佛光寺和南禅寺。然后,我们报告了我们使用的数据采集设备和我们获得的多源数据。最后,我们提供了几个应用程序,我们进行了基于所获得的数据,包括地面和航空图像融合,图像和激光雷达(光探测和测距)数据融合,建筑场景表面重建和语义建模的概述。我们认为,这是必要的,涉及多源数据的三维数字保护的中国古代建筑,并在本文中的工作将作为一个启发性的指导方针,相关的研究社区。中国古建筑;三维数字保存;多源数据采集;建筑场景建模1引言与欧洲和伊斯兰建筑一样,中国古代建筑是世界建筑体系中最重要的组成部分之一,其最重要的特点是使用木材框架。虽然它允许实现更精致的结构,但与其他建筑风格相比,中国古代建筑更容易受到自然灾害的影响,例如。例如,在一个实施例中,火灾或地震。因此,迫切需要保护中国古代建筑,而实现这一目标的最佳方法之一就是通过重建其完整和详细的3D模型来数字化保护它。建筑场景建模一直是计算机视觉、计算机图形学、摄影测量学等领域的研究热点。虽然已经进行了许多令人兴奋的研究,但其中大多数都使用单源数据执行建模任务。一些方法仅从具有相似视点和比例的图像生成场景模型[1- 4],这些图像使用手持相机或安装在无人机(UAV)上的相机捕获,而其他方法则试图通过使用范围数据来获得模型,例如,RGB-D图像[5- 8]从使用激光采集的Kinect或LiDAR数据[9- 12]www.vr-ih.com虚拟现实智能硬件2019年第5期扫描仪但利用单源数据很难生成准确完整的建筑场景模型,尤其是对于结构复杂的中国古代建筑。本研究采用多光谱数据采集、处理与融合的方法,实现中国古建筑的三维数字化保存。有四种类型的采集数据:(1)由安装在UAV上的可互换镜头数字(ILD)相机捕获的航空图像;(2)由安装在机器人相机支架上的数字单镜头反光(DSLR)相机捕获的地面图像;(3)由激光扫描仪扫描的激光点云;以及(4)由差分GPS系统测量的地面控制点的地理坐标。前三种数据类型用于场景建模和互补:空中和地面图像提供大规模和近距离的场景捕获,而图像和LiDAR数据在灵活性和准确性方面互补。第三种数据类型用于图像地理参考和精度评估。在接下来的章节中,我们首先简要介绍我们调查的中国古代寺庙。然后,我们报告了所使用的数据采集设备和所获得的多光谱数据。最后,我们给出了几个应用程序,我们进行了基于所获得的数据的概述。2场景本文调查的建筑场景是两座中国古代寺庙,名为佛光寺(FGT)和南禅寺(NCT)(图1),这是中国现存的四座唐代木结构建筑中的两座。其中,FGT是最大的,而NCT是最古老的。这两座寺庙在下面介绍。图1 FGT和NCT的多视图立体(MVS)点云,使用[13]中提出的方法生成。左图中的红、绿、蓝三色长方形分别代表FGT的大东殿、文殊殿、伽蓝殿。右图中的红色长方形表示NCT的大佛厅(GBH)。2.1佛光Temple1FGT是一座佛教寺庙,位于中国山西省五台县,占地面积约34000平方米。它主要包括三个大厅:大东殿(GEH),文殊殿(MJH)和伽蓝殿(GRH)。2.1.1大东大厅始建于唐代857年,是中国第三古老但最大的木结构建筑。大殿位于寺庙的远东一侧。这是一个单层结构,测量7个海湾4,并支持由内部和外部的列集。每一列的顶部是一组复杂的括号,其中包含七种不同的括号类型。大厅内有36座雕塑,以及壁画,1 https://en.wikipedia.org/wiki/Foguang_Temple526高翔等:基于多源数据的中国大型古建筑三维数字化保存:案例报告每一面墙都可以追溯到唐代及以后的时期。2.1.2文殊殿在寺庙庭院的北侧是MJH,建于1137年,在金代,大致与GEH相同大小。它的特点是单檐四坡屋顶。大厅的内部只有四根支柱。为了支撑大屋顶,使用了对角梁。四面墙上都是明代1429年绘制的罗汉壁画。2.1.3加兰厅GRH位于FGT的西南角。它始建于1628年的明朝,重建于1661年的清朝,测量三个海湾的宽度。18大神的雕塑位于GRH。2.2NanchannTemple2NCT是一座佛教寺庙,也位于中国山西省五台县,占地面积约3100平方米。它只有一个大殿,名为大佛殿(GBH)。2.2.1大佛殿建于唐代782年,是中国现存最古老的保存木结构建筑。这是一个三开间的方形大厅。GBH不仅是一个重要的建筑结构,而且它还包含了一套原始的艺术重要的唐代雕塑,可以追溯到它的建设时期。十七座雕塑与一座小石塔共享大厅的内部空间。3设备数据采集设备按数据类型分为四类:例如,(1)航空图像;(2)地面图像;(3)激光雷达数据采集;(4)地面控制点(图2)。在下面的小节中,我们将介绍并简要描述我们使用的设备。3.1航空影像采集对于航空图像采集,我们使用了ILD相机,索尼NEX-5 R,安装在无人机,Microdrones Md 4 -1000上。3.1.1索尼NEX-5 R3索尼NEX-5 R是一款ILD相机,拥有1610万有效像素的互补金属氧化物半导体传感器。它具有类似的成像质量,但与标准DSLR相机相比重量轻得多。以上特性让索尼NEX-5 R更适合航拍。3.1.2Md 4 -1000微型无人机4Microdrones Md 4 -1000系统是一种领先的垂直起降、自主无人驾驶微型飞行器。无人机机身和摄像头支架均采用碳纤维材料,重量更轻,强度更高。2 https://en.wikipedia.org/wiki/Nanchan_Temple3www.sony.com/4www.microdrones.com/527虚拟现实智能硬件2019年第5期图2本研究中用于多光谱数据采集的设备。3.2地面图像采集对于地面图像采集,我们使用了DSLR相机Canon EOS 5D Mark III,安装在机器人相机支架GigaPanEpic Pro上。3.2.1Canon EOS 5D MarkIIICanon EOS 5D Mark III是最着名的数码单反相机之一。它配备了2230万像素全画幅CMOS传感器,在各种环境下都有出色的成像质量。因此,它是从地面进行场景捕获的合适选择。3.2.2GigaPan Epic Pro6GigaPan Epic Pro是一款机器人相机支架,几乎可以使用任何数码相机拍摄高清千兆像素的照片。通过设置所需全景的左上角和右下角,相机支架确定相机需要拍摄的照片数量,然后自动组织它们。3.3用于LiDAR数据采集的对于LiDAR数据采集,我们使用了Leica ScanStation P307激光扫描仪。Leica ScanStation P30以每秒100万个点的极快扫描速度提供高质量的3D数据和高动态范围成像,扫描范围可达270米,具有极高的精度。例如,其3D位置精度在50米处为3 mm,在100米处为6 mm。3.4GCP测量对于GCP测量,我们使用差分GPS系统Hi-Target V30 GNSS RTK8。V30 GNSS5www.usa.canon.com/6http://www.gigapan.com/7http://www.leica-geosystems.com/8 http://fr.hi-target.com.cn/528高翔等:基于多源数据的中国大型古建筑三维数字化保存:案例报告RTK 具有出 色的定位性能 。例如, 在高精度静 态情况下, 其水平和垂直 定位精度分别 为2.5mm+0.1ppm均方根(RMS)和3.5mm+ 0.4ppm RMS。4数据在本节中,我们将介绍在第2节中描述的场景中获取的多光谱数据。2、设备描述见图2。3.所获取的多光谱数据包括航空图像、地面图像、LiDAR数据和GCP。4.1航空影像我们手动驾驶Microdrones Md 4 -1000飞越FGT和NCT,并触发索尼NEX-5 R快门拍摄航拍图像。这些图像是在五个飞行路径上拍摄的,一个是最低点图像,另外四个是45°倾斜图像。这些图像的分辨率为4912×3264像素。我们采取了1596和772航空图像FGT和NCT,分别。图3中显示了空间图像的示例。此外,使用[1]中提出的方法计算FGT和NCT航空图像的运动恢复结构(SfM)点云和相机姿态,如图4所示。图3FGT和NCT的航空图像示例。图4使用[1]中提出的方法生成的FGT和NCT的空中SfM点云。红色的圆锥体表示航空相机的姿态。4.2地面图像我们将Canon EOS 5D Mark III安装在Gigapan Epic Pro上,并逐站拍摄地面图像。Gigapan Epic Pro被设置为捕捉俯仰范围为−40°−40°,步进20°和偏航的图像529虚拟现实智能硬件2019年第5期范围为0°-320 °,步长为40°,这使得每个台站可以拍摄45幅地面图像。拍摄的地面图像分辨率为5760×3840。FGT的室外场景和GEH、MJH和GRH的室内场景分别有155、55、32和6个图像采集站。此外,NCT的室外场景和GBH的室内场景分别有62个和19个图像采集站。FGT和NCT的地面图像示例分别如图5和图6所示。此外,FGT和NCT地面图像的SfM点云和相机姿态(如图7所示)是使用[1]中提出的方法计算的。图5FGT的室外地面图像示例,以及GEH、MJH和GRH的室内地面图像示例。图6 NCT地面图像示例,包括NCT室外图像示例和GBH室内图像示例4.3LiDAR数据我们使用Leica ScanStation P30采集FGT和NCT的LiDAR数据。在扫描之前,我们确定了激光扫描的位置。FGT的室外场景和GEH、MJH和GRH的室内场景分别有39、35、16和3个激光扫描站。此外,NCT室外场景和GBH室内场景分别有12个和8个激光扫描站。对于每个站点,我们获得了约1亿个具有RGB信息的高精度激光点。 FGT和NCT的激光点云示例如图8所示,FGT和NCT的室外激光扫描站的位置如图9所示。530高翔等:基于多源数据的中国大型古建筑三维数字化保存:案例报告图7采用[1]中提出的方法生成的FGT和NCT地面SfM点云,包括FGT和NCT室外SfM点云; GEH、MJH、GRH和GBH室内SfM点云。红色的圆锥体表示航空相机的姿态。图8 FGT和NCT的激光点云示例,包括FGT和NCT的室外激光点云示例; GEH、MJH、GRH和GBH的室内激光点云示例。4.4地面控制点使用V30全球导航卫星系统RTK系统测量了各地面控制点的地理坐标。在本研究中,GCP有两种用途:(1)用于地理参考(空中和地面)图像;(2)用作地面实况,用于评估(空中和地面)相机的校准结果。根据相机类型,存在两种类型的GCP:(1)航空相机的GCP,其在场景中手动选择并在航空图像中标记,因此通常是明显的拐角。FGT和NCT分别有53个和33个此类GCP,图9和图10提供了其中的几个示例(2)GCP531虚拟现实智能硬件2019年第5期菲古热E9 FGT和NCT航空相机的室外扫描统计和GCP样本定位,标记为“★“和“+“方向。Figur e10GCP示例用于所有CA的FGT和NCT,其中“+“表示GCP。室外地面摄像机,位于室外图像采集站,准确记录其地理坐标。因此,FGT和NCT的这种类型的GCP分别为155个和62个,与室外图像捕获站的数量相同。5应用基于所获取的多光谱数据,我们主要进行了四种类型的应用:(1)航空和地面图像融合[13];(2)图像和LiDAR数据融合[14];(3)表面重建[15];和(4)语义建模[16]。下文将介绍这些措施5.1航空与地面图像融合重建中国古代建筑的完整3D数字模型,捕捉复杂结构的细节,例如,飞檐和支架,通常是空中和地面两个图像源,涉及大范围和近距离场景捕获。当同时使用航空和地面图像时,通常的做法是分别进行重建,首先生成航空和地面点云,然后将它们融合。考虑到来自图像集合的重建的3D点云的噪声性质以及3D点云中2D图像的丰富纹理和上下文信息的丢失,优选的是经由2D图像特征点匹配而不是通过直接3D点云配准来融合点云,例如,迭代最近点(ICP)[17]。为了融合航空和地面图像以实现完整的场景模型重建,需要特别解决两个问题:(1)如何匹配具有显著视角和比例变化的航空和地面图像;(2)如何融合具有漂移现象以及噪声水平、密度和精度显著差异的航空和地面点云。532高翔等:基于多源数据的中国大型古建筑三维数字化保存:案例报告为了解决航拍图像与地面图像的匹配问题,文献[13]将地面图像变形为航拍图像的视点,消除了航拍图像与地面图像在视点和比例尺上的差异。与[18]中提出的通过利用空间离散的地面MVS点云来合成鸟瞰图图像的方法不同,[13]中提出的图像合成方法采用从地面SfM点云重建的空间连续的地面稀疏网格。对于一对航空和地面图像,在其共同可见的地面稀疏网格中的每个空间小平面诱导它们之间的局部单应性。利用诱导单应性将地面图像变形为航拍图像,从而合成航拍图像。注意,上述图像合成方法没有耗时的MVS过程,并且所得到的合成图像不会遭受空中和地面图像对的共同可见区域中的缺失像素。在图像合成之后,通过使用尺度不变特征变换[19]特征点提取和匹配将合成图像与目标航空图像进行匹配。在[13]中,不是通过最近邻距离比测试[20]过滤掉不可避免的点匹配离群值,该测试容易丢弃真阳性,而是使用以下两种技术实现:(1)点匹配之间的特征尺度和主方向的一致性检查;以及(2)点匹配之间的特征位置的仿射变换验证。注意与通常使用的基本原理基于矩阵的离群值过滤方案提供了点到线的约束,[13]中的基于仿射的方案提供了点到点的约束,因此对于离群值过滤更有效。图11给出了一对空中和地面图像的图像特征匹配示例。图11使用[13]中提出的方法对一对航空和地面图像进行图像特征匹配的示例。第一行是航拍图像和合成图像的共同可见区域之间的匹配结果,其中蓝色部分表示点匹配。第二行是原始的空中和地面图像匹配对,其中黑色矩形表示用于图像匹配的共同可见区域。为了解决空中和地面点云融合问题,而不是通过估计点云之间的相似性变换[21]来对齐点云,其中随机样本共识[22]在[18,23,24]中执行,点云通过全局光束平差(BA)[25]融合以处理可能的场景漂移现象。为了实现这一点,在[13]中,首先将获得的空中和地面点匹配与原始空中轨迹相关联。图12显示了一个交叉视图跟踪链接示例。然后,进行全局BA以将空中和地面SfM点云与增强的空中轨迹和原始地面轨迹融合。图13显示了FGT和NCT的空中和地面SfM点云融合结果。5.2图像与LiDAR数据融合在重建大型建筑场景时,有两个关键问题:准确性和完整性。虽然现有的许多方法主要关注重建精度问题,但对重建的完整性关注较少。当建筑场景复杂时,例如,中国古代建筑,533虚拟现实智能硬件2019年第5期图12使用[13]中提出的方法的横视航迹连接示例。第一行包含三个空中和三个地面图像补丁,其中蓝色部分表示跨视图的链接轨迹。第二行包含原始航空和地面图像,其中黑色矩形表示第一行中的图像块。图13采用[13]中提出的方法进行FGT和NCT的空中和地面SfM点云融合结果。第一行:NCT结果,第二行:FGT结果。从左到右:地面和航空图像示例、地面SfM点云、航空SfM点云和融合SfM点云。共用管线改造完整性难以保证。为了重建大规模复杂建筑场景的精确、完整的三维模型(点云或表面网格),需要对场景的整体结构和局部细节进行测量。目前,有两种常用的场景重建测量方法:基于图像的[1- 4]和基于激光扫描的[9- 12]。这两种方法在灵活性和准确性上是互补的:基于图像的重建方法方便灵活,但严重依赖于一些外部因素,如:例如,在一个实施例中,照明变化、纹理丰富性和结构复杂性,而基于激光扫描的重建方法具有高精度并且对不利条件具有鲁棒性,但是昂贵且耗时。为了通过融合图像和LiDAR数据来生成完整的场景重建,一种直接的方法是平等地处理图像和LiDAR数据。具体地说,首先分别从这两种类型的数据中获得建筑场景模型,然后与GCP[26]或使用ICP算法[27,28]融合。然而,这是不平凡的,因为从图像和激光扫描生成的点云在密度、准确性、完整性等方面具有显著差异,这导致不可避免的配准误差。此外,激光扫描位置需要仔细选择以保证扫描534高翔等:基于多源数据的中国大型古建筑三维数字化保存:案例报告为他们的自我注册。为了解决上述问题,我们在[14]中提出了一种更有效的数据收集和场景重建管道,该管道兼顾了数据收集效率和重建准确性和完整性。我们的流水线以图像为主,完全覆盖场景,激光扫描作为补充,处理低纹理、低光照或复杂结构的区域。与[13]类似,在[14]中,通过捕获的图像与从LiDAR数据合成的图像之间的2D图像特征点匹配来融合图像和LiDAR数据,而不是3D点云配准。在[14]中,我们首先从捕获的空中和(室外和室内)地面图像中获得融合的SfM点云。为此,需要空中和地面图像之间以及室外和室内图像之间的点匹配。然而,获得这两种类型的点匹配是不平凡的,这是由于(1)空中图像与地面图像之间的大的视点和比例差异以及(2)室外图像与室内图像之间的有限视图重叠。在[14]中,我们首先从空中,室外和室内图像分别生成SfM点云,然后使用交叉视点匹配融合它们。空中和地面点匹配是使用[13]中提出的方法获得的,而室外和室内点匹配是通过匹配门附近的室外和室内图像获得的。然后,从激光点云生成空中和地面视图合成图像,并与捕获的图像进行匹配,以获得跨域对应关系。图14和图15示出了一对合成的鸟瞰图和捕获的航拍图像以及一对合成的地面视图和捕获的地面图像的图像特征匹配示例,分别在跨域二维点匹配的基础上,采用由粗到精的方法对图像和LiDAR数据进行融合。每个扫描站的激光点云通过它们之间的相似性变换[21]分别粗略配准到融合的SfM点云,这是使用RANSAC[22]估计的。从获得的跨域2D点匹配转换用于相似性变换估计的3D点对应。然后,通过广义BA联合优化捕获图像的相机姿态、SfM点云的空间坐标和激光扫描的对准,以精细地合并图像图14使用[26]中提出的方法对一对合成图像和航拍图像进行图像特征匹配的示例。第一行是第二行中的绿色矩形的放大的合成和空间图像对,以说明点匹配,其由蓝色段表示。第二行是原始合成图像和空间图像对。图15使用[26]中提出的方法对合成图像和地面图像进行图像特征匹配的示例,其中蓝色部分表示点匹配。535虚拟现实智能硬件2019年第5期LiDAR数据[14]中所示的BA过程被称为广义过程,因为通过最小化2D- 3D重投影误差和3D- 3D空间误差来同时优化相机姿态和激光扫描对准。图16显示了FGT和NCT的SfM和激光点云融合结果。图16采用[26]中提出的方法,FGT和NCT的SfM和激光点云融合结果。第一行:NCT结果,第二行:FGT结果。从左至右:(空中-室外-室内)SfM点云、(室外-室内)激光点云以及融合的SfM和激光点云(红色表示激光点云,绿色表示空中SfM点云,蓝色表示地面SfM点云)。5.3曲面重构近年来,基于图像的建筑场景重建技术取得了很大的进展,但在大规模场景中,尤其是在涉及场景细节的情况下,现有的重建方法在重建的完整性和准确性方面还存在一定的问题。场景细节,如小规模的对象和对象的边缘是场景表面的重要组成部分。图17示出了在重构FGT时保留场景细节的示例。一般来说,表示场景细节,e。例如,在一个实施例中,图17中的括号,在文化遗产数字化项目中是最重要的任务之一。点云表示往往是冗余和噪声,而网格表示虽然简洁,但有时会丢失一些信息。因此,在多尺度场景重建中如何保持场景细节一直是曲面重建中的难题。现有的表面重建方法[29- 32]要么忽略场景细节,要么依赖于进一步的细化来恢复它们。 这可归因于以下原因。首先,与噪声相比,场景的这些部分中的支持点是稀疏的,使得难以区分真实表面点与虚假表面点。第二,现有方法中采用的可见性模型和相关参数并不特别适用于大范围,其中场景细节通常在总体准确性和完整性方面受到损害。由于缺乏足够的信息,第一种情况似乎无法解决,我们将重点放在[15]中的第二种情况。在许多先前的表面重建方法[29- 31]中,记录3D点的可见性信息由所使用的视图536看到图17使用[15]中提出的方法从冗余和噪声MVS点云(左)重建FGT的表面结果(右)。高翔等:基于多源数据的中国大型古建筑三维数字化保存:案例报告以生成精确的表面网格。为了使用可见性信息,对可见性模型进行假设,使得相机中心和3D点之间的空间是自由的,而沿着视线的点后面的空间是完整的。然而,上述可见性模型有两个缺点:(1)点常常被噪声污染;(2)全空间尺度常常难以确定。为了解决这些问题,我们在[15]中的方法的主要工作和贡献是三方面的。(1)为了在不降低噪声过滤能力的前提下保留场景细节,本文提出了一种具有容错性和自适应端点权重的可见性模型。(2)我们还引入了一个新的似然能量,表示错误地将一部分空间分类为自由或完整的惩罚,这有助于提高所提出的方法有效过滤噪声的能力(图18)。(3)我们通过使用密集可见性技术进一步提高了所提出方法的性能,这有助于保持对象边缘清晰(图19)。图18不使用和使用[15]中提出的似然能量的表面重建。从左到右:带有重噪声的MVS点云,不带和带似然能量的重建网格。图19不使用和使用[27]中提出的密集可见性技术的表面重建。从左到 右:原始图像及其深度图,不使用和使用密集可见性技术重建的网格。5.4语义建模近年来,从图像进行3D语义建模已经变得流行。它的目标是获得场景的三维结构和语义知识。3D语义模型帮助人类和自动化系统了解特定场景中的“什么”是“哪里”,这是计算机视觉的既定目标,并在自动驾驶,增强现实和服务机器人等领域有各种应用。在过去的十年中,三维几何重建领域取得了巨大的进展,使我们能够重建大规模的场景与高层次的细节。与此同时,深度学习技术极大地促进了2D图像理解,例如语义分割和实例识别。因此,结合深度学习和几何重建来获取3D语义模型目前正吸引着越来越多的研究兴趣。通常,有两种方法可以实现这一目标:(1)联合优化场景的3D结构和语义含义[31,33,34];以及(2)为估计的3D结构分配语义标签[35- 37]。我们在[16]中的工作属于第二类,即:例如,重点研究了现有三维几何模型的标注,特别是大规模网格537虚拟现实智能硬件2019年第5期模型使用最先进的SfM[1,38]和MVS[2,32]算法,可以从成百上千的图像中重建详细的3D模型。给这个模型贴标签的一个简单方法是直接给每个方面加注释。然而,这个过程非常繁琐,因为在3D空间中没有有效的手动注释工具,并且当前基于深度学习的标记管道,例如[39,40]中提出的,无法处理大规模的3D模型。因此,一个可行的方法,用于大规模的3D模型标记是首先执行2D图像上的逐像素的语义分割,然后使用校准的相机参数将这些标签后投影到3D空间中,并将它们融合。显然,以这种方式,3D语义标注的质量高度依赖于2D语义分割的质量。当前的2D语义分割方法倾向于在迁移学习框架内微调预训练的卷积神经网络(CNN),但仍然需要多个手动注释的跨域数据集图像。然而,在专业领域,如中国古代建筑的精细级标注,只有具有专业知识和技能的专家才能可靠地注释它们。因此,降低标注成本是有意义的。在[16]中,我们提出了一种新的方法,可以通过将主动学习(AL)集成到微调过程中来显着降低注释成本。AL是一种既定的方法,通过迭代地选择用于注释的图像来训练分类器以获得更好的性能,从而减少标记工作量。在[16]中,我们首先对CNN进行微调,用于有限数量的注释图像的图像语义分割,并使用它来分割所有其他未注释的图像。然后,将所有预测的图像标签反向投影到3D空间,并使用马尔可夫随机场融合到3D模型上。由于3D语义模型考虑了2D图像分割和3D几何形状,因此它可以用作可靠的中间体来选择最值得注释的图像候选者,然后进行下一次微调迭代。这个训练-融合-选择过程一直持续到模型的标签配置变得稳定。图20显示了我们在[16]中提出的方法的流水线,图21显示了FGT和NCT的语义建模结果。6结论图20[37]中提出的方法的流水线本文介绍了基于多源数据的大型中国古建筑三维数字化保存的研究工作。我们首先介绍了我们调查的两个著名的中国古代寺庙,FGT和NCT。然后,我们简要介绍了我们使用的数据采集设备:(1)Sony NEX-5 R和Microdrones Md 4 -1000用于航空图像;(2)Canon EOS 5D Mark III和GigaPanEpic Pro用于地面图像;(3)Leica ScanStation P30用于LiDAR数据;(4)Hi-Target V30 GNSS RTK用于GCP。随后,我们报告了使用上述设备获得的多源数据,并显示了几个538高翔等:基于多源数据的中国大型古建筑三维数字化保存:案例报告图21使用[37]中提出的方法对FGT和NCT进行语义建模的结果。第一行:NCT结果,第二行:FGT结果。这些例子。最后,我们概述了多源数据的几种应用,包括地面和航空图像融合[13],图像和LiDAR数据融合[15],以及建筑场景表面重建[27]和语义建模[16]。我们认为,多源数据的融合是中国古建筑三维数字化保护的有效途径,本文的研究成果对相关研究具有一定的借鉴意义。引用1崔宏南,高翔,沈世华,胡振元. HSfM:混合结构从运动。2017年IEEE计算机视觉与模式识别会议(CVPR)美国纽约,IEEE,2017DOI:10.1109/cvpr.2017.2572沈世华大规模场景中基于块立体的精确多视图三维重建。IEEE图像处理学报,2013,22(5):1901DOI:10.1109/tip.2013.22379213Ummenhofer B,Brox T.十亿个点的全球密集多尺度重建。国际计算机视觉杂志,2017,125(1/2/3):82DOI:10.1007/s11263-017-1017-74朱立军,沈世华,高翔,胡振元.基于MVS网格的大规模城市场景建模//计算机视觉-ECCV 2018。施普林格国际出版社,2018年,640DOI:10.1007/978-3-030-01252-6_385崔S,周庆英,Koltun V.室内场景的鲁棒重建。2015年IEEE计算机视觉和模式识别会议(CVPR)。美国马萨诸塞州波士顿,IEEE,2015DOI:10.1109/cvpr.2015.72991956Dai A,Nießner M,Zollhöfer M,Izadi S,Theobalt C. BundleFusion:使用动态表面重新整合的实时全局一致3D重建。ACM图形学报,2016,36(3):24DOI:10.1145/30547397董伟,王庆英,王新,查华斌. PSDF融合:用于实时3D数据融合和场景重建的概率符号距离函数//计算机视觉-ECCV,2018。Cham:Springer International Publishing,2018,714–730DOI:10.1007/978-3-030-01240-3_438刘延东,高伟,胡志元.在移动设备上进行基于深度图像的3D重建的几何稳定跟踪。ISPRS Journal ofPhotogrammetry and Remote Sensing 2018,143,222539虚拟现实智能硬件2019年第5期DOI:10.1016/j.isprsjprs.2018.03.0099郑清,沙夫A,王G,李Y,米特拉N J,科恩-奥尔D,陈B.三维城市场景的非局部扫描合并。ACM传输图,2010年,29(4),94DOI:10.1145/1833349.177883110[10]张宏,陈斌,张宏.智能盒用于交互式城市重建。ACM图形学报,2010,29(4):93DOI:10.1145/1833349.177883011李伟杰,李伟杰,李伟杰.从3D激光范围扫描中自动提取曼哈顿世界建筑质量。IEEE Transactions on Visualizationand Computer Graphics,2012,18(10):1627DOI:10.1109/tvcg.2012.3012李明良,王嘉,李南.从点云重建曼哈顿世界城市//计算机视觉-ECCV 2016。Cham:Springer InternationalPublishing,2016,54DOI:10.1007/978-3-319-46493-0_413高翔,沈世华,周勇,崔宏南,朱立军,胡振元.融合地面和空中点云的中国古代建筑三维保存。ISPRS Journalof Photogrammetry and Remote Sensing,2018,143,72-84 DOI:10.1016/j.isprsjprs.2018.04.02314高翔,沈松,朱磊,石涛,王忠,胡忠。通过合并图像和激光扫描完成场景重建。arXiv预印本,arXiv:1904.0956815周毅,沈世华,胡志元.基于点云数据的细节保留曲面重建。传感器,2019,19(6):1278 DOI:10.3390/s1906127816周毅,沈世华,胡志元.基于主动学习的大规模三维模型精细语义标注。2018年国际3D视觉会议(3DV)美国纽约,IEEE,2018DOI:10.1109/3dv.2018.0006617作者:J. J.一种三维形状配准方法。模式分析与机器智能学报,1992,14(2):239DOI:10.1109/34.12179118吴昌昌,吴俊,陈文。通过地空影像匹配实现精确的地理配准。2014第二届3D视觉国际会议美国纽约,IEEE,2014DOI:10.1109/3dv.2014.6919劳·D·G从尺度不变的关键点中提取独特的图像特征。国际计算机视觉杂志,2004,60(2):91-110DOI:10.1023/b:visi.0000029664.99615.9420放大图片作者:Mikolajczyk K,Schmid C.局部描述符的性能评估。IEEE模式分析与机器智能学报,2005,27(10):1615DOI:10.1109/tpami.2005.18821梅山湾两点模式间变换参数的最小二乘估计。模式分析与机器智能学报,1991,13(4):376DOI:10.1109/34.8857322作者:A.随机样本一致性:模型拟合应用于图像分析和自动制图的范例。ACM通讯,1981,24(6):381DOI:10.1145/358669.35869223周毅,沈世华,高翔,胡志元.地面和空中多视图立体模型的精确网格对齐。2017年IEEE International Conferenceon Image Processing(ICIP)。美国纽约,IEEE,2017 DOI:10.1109/2017.829675824高翔,胡立华,崔宏南,沈世华,胡振英.精确高效的地对空模型对准。模式识别,2018,76,288DOI:10.1016/j.patcog.2017.11.00325[10]李文辉,李文辉,李文辉.大规模的捆绑式调整。第11届欧洲计算机视觉会议论文集:第二部分,2010年,29540高翔等:基于多源数据的中国大型古建筑三维数字化保存:案例报告26Bastonero P,Donadio E,Chiabrando F,Spanainta A.融合来自TLS的3D模型和基于图像的技术,以增强CH文档。ISPRS Annals of Photogrammetry,Remote Sensing and Spatial Information Sciences,2014,II-5,73DOI:10.5194/isprsannals-ii-5-73-201427放大图片作者:A.整合影像与测距技术以测量复杂建筑物。ISPRS Annals of Photogrammetry.遥感与空间信息科学,2014,II-5,305-312 DOI:10.5194/isprsannals-ii-5-305-201428阿尔通塔斯角融合激光扫描仪和摄影测量图像的点云,用于历史建筑复杂细节国际摄影测量、遥感和空间信息科学,2015,XL-5/W 4,431DOI:10.5194/isprsarchives-xl-5-w4-431-201529吴伟杰,王晓刚,王晓刚.基于自适应四面体网格对偶图切割的多视点立体。2007年IEEE第11届计算机视觉国际会议。巴西里约热内卢,IEEE,2007 DOI:10.1109/iccv.2007.440899730Jancosek M,Pajdla T.利用可见性信息进行弱支撑曲面重构。国际学术研究通知,2014,2014,1DOI:10.1155/2014/79859531放大图片作者:Hane C,Zach C,Cohen A,Pollefeys M.密集语义三维重建。IEEE Transactions on PatternAnalysis and Machine Intelligence,2017,39(9):1730DOI:10.1109/tpami.2016.261305132[10]吴伟,李伟.高精度和清晰度一致的密集多视图立体。IEEE Transactions on Pattern Analysis and MachineIntelligence,2012,34(5):889DOI:10.1109/tpami.2011.17233[10]杨文,杨文.大规模语义3D重建:用于多类体积标记的自适应多分辨率模型。2016年IEEE计算机视觉与模式识别会议(CVPR)拉斯维加斯,内华达州,美国,IEEE,2016DOI:10.1109/cvpr.2016.34634李文辉,李文辉,李文辉.使用体素块的多标记语义3D重建。2016第四届3D视觉国际会议(3DV)斯坦福大学,加利福尼亚州,美国,IEEE,2016DOI:10.1109/3dv.2016.6835杨文忠,杨文忠.基于网格的室内和室外场景语义建模。2013年IEEE计算机视觉和模式识别会议。Portland,OR,USA,IEEE,2013 DOI:10.1109/cvpr.2013.26936Rouhani M,Lafarge F,Alliez P.城市场景分析的3D纹理网格的语义分割。ISPRS Journal of Photogrammetry andRemote Sensing,2017,123,124DOI:10.1016/j.isprsjprs.2016.12.00137杨伟杰,李伟杰,李伟杰. SemanticFusion:使用卷积神经网络进行密集的3D语义映射。2017 IEEE InternationalConference on Robotics and Automation(ICRA)新加坡,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功