作者:Jingyi Wang, Yu Liu, Hanlin Tan, Maojun Zhang
编译:董亚微@一点人工一点智能
原文:弱监督三维点云语义分割研究综述
随着3D点云数据采集技术和传感器的普及和进步,基于深度学习的3D点云研究取得了相当可观的进展。作为理解3D场景的关键步骤,点云的语义分割备受瞩目。
随着可访问数据集数量的增加,全监督语义分割任务的准确性和效果也得到了极大的提高。然而,这些成果却需要耗费大量时间和金钱进行全面标注。
为了解决这些问题,近来弱监督学习的研究如雨后春笋般涌现。这些方法通过训练神经网络,用更少的点标注来处理3D语义分割任务。
本文除了对3D点云弱监督语义分割的历史和当前状况的全面概述,还对最常用的数据采集传感器进行了详细描述,并列出了公开可访问的基准数据集,同时还展望了潜在的未来发展方向。
01 简介
在计算机视觉领域,我们会对图像进行广泛研究来帮助机器理解现实世界。然而,2D数据存在一些限制,比如物体遮挡和缺乏深度信息[1]。相比之下,3D数据可以提供更丰富的空间和深度信息。近年来,3D数据采集技术的发展增加了数据的可用性。点云是一种常用的3D数据格式,可以很好地保留原始的几何信息,因此在许多3D应用中被用于表示[2]。
对于遥感、自动驾驶、医学等领域来说,3D场景进行语义分割的研究做出了极大的贡献。学习点云的语义信息对于智能机器理解3D场景至关重要。由于PointNet [3]的提出,基于深度学习的点云语义分割工作在过去5年间蓬勃发展,并且文献中提出了许多网络架构的术语[4-6],以获得更好的语义估计结果。
由于点云数据的无序、非结构化和不均匀性质,对3D数据进行逐点注释是一项耗时且人力密集的工作。对于大规模数据集来说,手动注释是不切实际且不必要的[7]。文献研究[8-11]表明,弱监督方法在2D图像语义分割领域取得了成功应用。在这些先前工作的启发下,越来越多的研究人员开始关注3D点云的弱监督语义分割。特别是,在图1中,展示了从2018年至今弱监督3D点云语义分割方法的时间概览,图中展示了基于三个类别的弱监督3D点云语义分割方法的起源和发展时间。这些方法能够在使用更少的标签进行训练的情况下获得竞争性的结果,证明这个方向具有潜在的研究和应用价值。
本文回顾了弱监督3D点云语义分割的发展,并将可用方法分为三类:
a)基于2D标签的方法。这些方法不需要标记的3D数据,利用图像级别的ground truth作为约束来训练用于3D语义分割任务的模型;
b)基于有限3D标签的方法。为了减少注释成本,它们只需要对部分点云数据进行标注作为训练约束;
c)基于伪3D标签的方法。不同于前述方法,这些方法在未完全注释的点云基础上为未标注的点生成伪标签,然后使用伪标签和真实标签来约束模型的训练。
基于这三个类别,我们进一步分析它们并探索通用的框架,以便在算法层面上细致比较和技术总结现有方法。此外,我们的工作还回顾了最广泛使用的数据集和传感器,并对未来的工作进行了展望。
02 通用框架
点云的语义分割旨在为每个点生成语义标签,然后进行聚类。近年来,基于深度学习的监督算法在这方面取得了重要进展。然而,由于点的数量庞大,完全注释点云仍然是一个极具挑战性的问题。因此,引入弱监督方法到点云语义分割中具有重要意义。
本文提出了一个通用的算法框架,能够支持现有的三类方法,包括以下五个步骤:
1. 数据输入;
2. 特征嵌入;
3. 生成伪标签;
4. 弱监督语义分割;
5. 语义细化。
值得注意的是,前面提到的构造元素的选择和应用顺序在方法之间可能会有略微的差异。只有基于伪3D标签的方法需要生成伪标签(步骤3);有限3D标签方法和基于2D标签的方法之间的区别在于,后者充分利用2D信息,通常不需要专门设计的特征嵌入(步骤2),等等。
图2展示了3D语义分割方法的通用框架的大纲,总结了三类方法所使用的不同算法步骤,有助于在接下来的章节中进一步探索具体方法。此外,图3总结了五个步骤的组件和方法。每个步骤对应一个章节,并进一步对可用的方法进行了分类,同一类别中的多个方法被虚线框围起来。
从该图可以看出,近年来已经探索了相当大量的可能的算法设计空间。此外,表1总结了现有方法的框架,即每个步骤选择的策略。这些方法分为三类,对比了不同的输入数据(步骤1)、特征嵌入网络(步骤2)、生成伪标签的方法(步骤3)和语义细化方法(步骤4)。需要注意的是,语义分割步骤(步骤4)是复杂且多样化的,不容易用表格总结。
2.1 数据输入
本节将介绍弱监督三维点云语义分割任务中常用的输入类型以及如何对原始点云进行注释,扩展和预处理。需要注意的是,我们关注的是直接输入网络的数据。
现有方法的输入有两种情况:第一种情况是将点云和相关图像一起选择为输入[13, 15],而第二种情况则只需要3D点云。常见的3D数据有连续帧点云和时间信息以及断续的点云。
在使用连续帧点云的方法中,Mei等人[16]提取了动态点云的连续帧,并根据已知的手动注释数据在它们之间关联相同的对象,提供可以用作附加输入的成对约束。Shi等人[35]将每个点云序列分成由点云帧组成的众多子序列作为输入。Liu等人[40]使用启发式方法将每个序列划分为一组相关组件。显然,上述数据只适用于特定环境,并且缺乏鲁棒性。相反,断续帧数据被广泛使用,因此是最常见的输入选择。
为了减少注释的成本并从断续帧点云数据中获取更多可用信息,研究人员探索了三种处理原始点云的策略。
首先,对于现有的标记形式,最常用的是点级注释,需要对每个像素进行标注,非常繁琐而耗时。然而,最经济的场景级注释面临多种使用挑战。为了平衡这两种形式的利弊,Wei等人[25]提出了子点云级别的标签,即场景级标注点云的球形子采样。Tao等人[32]选择使用一系列带有语义注释的片段作为seg-level标签。使用新的标注策略可以减少所需的时间和努力,但最终结果的判断标准难以统一。
其次,为了增加可用样本的数量,现有算法提出了数据增强的方法,通过对原始数据应用随机噪声,进行随机旋转、缩放和抖动等操作来扩展训练样本 [17, 23, 34]。此外,为了更灵活地应用数据增强,并为大规模点云生成更多样化的变换,Li等人[34]提出了可学习的动态点云增强器。它通过对原始数据添加特定的噪声来生成不同的锚点、正负例,并以此提取它们之间的特定关系作为后续的约束。Zhang等人[19]设计了一种点扰动方法,结合场景变换、坐标偏移和属性关注。Wu等人[37]设计了区域自适应变形(RAD)模块和局部自适应扰动(LAP)模块,其中RAD模块使用自适应仿射变换生成变形样本,LAP模块通过对点坐标和属性应用自适应扰动生成扰动样本。在随后的工作中,Wu等人[42]选择了多种现成的增强方法和逐点插值来生成更强的增强数据。
除了数据增强策略之外,还存在一些通用的数据处理工具。例如,受二维研究[44-48]和其他方法的启发,Wei等人[18]选择具有共同标签的两个样本作为输入对,并利用它们之间的点关联进行标签传播。Yang等人[21]将原始点云与经过随机点采样的下采样点云相结合,利用点云之间的语义作为监督信号。Liu等人[24]引入了一种带有增强数据的区域屏蔽(Region-Mask)策略,生成包含有意义上下文的屏蔽点云。
最后,对点云的预处理可以更好地提取数据特征。Wang等人[12, 14]根据特定视角捕获了一个截断的点云,以获得相应的2D地面真值分割图。Wang和Yao [33]设计了一个基于特征约束的弱标签初始化框架。它使用流形学习来优化初始弱注释的选择,通过将提取的特征投影到更合适的特征空间进行组合,以保留更重要的语义数据。受到Superpoint图的影响[49],Cheng等人[28]和Lu等人[41]决定使用原始点云生成超级点,并构建超级点图来挖掘长距离依赖性和平衡不同类别之间的点数。
2.2 特征嵌入
特征嵌入的目标是将每个特征与其相关的表示进行关联,本节将研究现有方法在使用连续帧点云和不连续帧点云作为输入时选择特征嵌入网络的不同策略。需要注意的是,本节仅考察了现有方法专注于的场景或明确开发了模型的情况。
当输入数据是不连续帧点云时,研究人员需要根据不同情况选择合适的嵌入网络以更好地提取特征关系。一般而言,为了获得嵌入的点云特征,Xu和Lee [17]以及Su等人 [20]类似地选择了DGCNN作为编码器网络,它可以更好地提取点云的局部特征,并且可以轻松集成到现有的网络中。Wei等人[25]将ResNet[50]块与灵活的KPConv分类网络[6]相结合;为了进行公平比较,Yang等人[21]在几次尝试中选择了与最先进方法相同的主干网络。Cheng等人[28]使用门控图神经网络[51]来嵌入超级点的特征。
考虑到大规模点云的大量数据和近邻点之间的显著局部语义相似性,研究人员应该探索有效且特征中立的嵌入方法。RandLA-Net通过局部特征聚合模块和随机采样构建,在关键位置保留显著特征并高效管理大规模点云。因此,Zhang等人[19]选择了RandLA-Net作为主干网络,而Hu等人[7]也选择了它的编码器作为特征提取器。
当输入数据是连续帧点云时,为了更有效地挖掘特征,Shi等人[35]选择了42层的Minkowski-UNet[52]进行时空感知,它可以直接使用高维卷积处理这种连续帧数据,并且对噪声具有鲁棒性。
2.3 伪标签生成
第3步通常是伪三维标签方法的独有步骤,主要包括基于伪标签的全监督方法和基于伪标签的自训练方法。第一种方法旨在为未标记的点生成预测标签,并将已知信息和伪标签进行完全监督训练;第二种方法基于完整的分割网络预测和更新伪标签,从而完成网络的训练。
至于基于伪标签的全监督方法,优化伪标注的预测准确性是提高最终分割性能的关键。
受到Class Activation Map (CAM) [8]的启发,Wei等人[25]提出了一种使用点类激活图和多路径区域挖掘模块生成伪标签的策略。他们首先将提取的点云特征输入到四条路径中,集中于不同的网络属性,然后通过合并生成的PCAMs聚集各种有区别的特征,最后在最近邻上采样后生成更精确的点级伪标签。Tao等人[32]选择了分割级别的监督,并开发了一个分割组合网络(SegGroup)来降低注释成本。该网络由多个层次的分组操作组成,其中包括图卷积网络,通过将未标记的分割组合到相邻且相关的标记分割中,提供伪标签。然而,使用简单的伪标签生成策略很难保证分割结果的高质量。Shi等人[35]提出了一个两阶段的方法来提高模型的性能。第一阶段通过时序匹配获取少量高质量的伪标签,并用它们训练初始模型,第二阶段利用第一个模型提取特征,并结合时序匹配和空间图传播更新伪标签。Lu等人[41]设计了一种新颖的加权超图卷积网络(WHCN),它由超边注意力模块和谱超图卷积模块组成。加权超图卷积网络聚合特征并捕捉高阶语义关系,生成准确的点级伪标签。
基于伪标签的自训练方法使用伪标签来约束分割网络的训练。为了从伪标签中提取更重要的信息,这类方法提出了四种措施来提高模型的准确性。
第一种是标签传播(Label Propagation,一种生成伪标签的经典技术)。Yao等人[26]将伪标签与PointNet相结合,提出了一个交替进行分类网络训练和标签传播的过程,生成最终的语义标签。然而,该框架采用了传导学习,模型的性能仍有争议。Cheng等人[28]提出了SSPC-Net,它由动态标签传播策略和耦合注意机制组成。前者通过将带有标记的超点的信息扩展到具有高语义相似性的相邻超点来生成伪标签,然后采用丢弃策略来过滤高质量的伪标签。后者在带有标记和伪标记的超点上交替执行注意机制,提取两者的更具辨别性的上下文特征。Liu等人提出的OTOC方法[31]对原始点云进行超体素分割,然后通过为每个对象随机标注一个点来生成初始伪标签。或者,它基于3D U-Net [53]预测语义标签,并设计了一个关系网络进行相似性学习,然后通过结合两个网络的特征构建超体素图进行标签传播。他们后来[43]引入了图模型或Transformer来传播更可靠的伪标签。然而,这种方法比较复杂。为了简化这个过程,Liu等人[38]提出了将自训练和主动学习相结合的思路,只需通过超体素训练分割网络并进行标签传播。此外,主动学习可以改善标记样本的选择。
第二,在标签传播之外,先验知识也对模型训练有帮助。Zhang等人[27]提出了一种使用基于自监督的点云着色的知识传递方法,基于RandLA-Net。Kong等人[36]认为LiDAR扫描包含丰富的空间先验,并提出了LaserMix,一种将来自不同LiDAR激光束的扫描进行组合的方法。
第三,对比学习也成为常见的模型训练策略。COARSE3D [39]是一种使用对比学习技术从特征中获取高维语义嵌入并将其聚类到原型内存库中的方法,而Liu等人[40]将预分割与对比原型学习整合在一起,以获得更具辨别性的嵌入空间。
最后,正则化策略可以很好地约束网络训练。Wang和Yao[29]开发了一个基于KPConv的两阶段网络。第一阶段包括使用已知的稀疏标签信息训练一个初始模型,并使用该模型生成第一伪标签;第二阶段将已知标签和伪标签训练相结合,得到混合模型,并在模型收敛时更新伪标签。他们后来[30]对这项工作进行了一些完善,以增加模型的效率,包括加入熵正则化、当前和集成预测的一致性约束,以及一种在线伪标签策略。Li等人提出的HybridCR [34]将Siamese网络结合起来为原始和增强的点创建预测和伪标签。由于噪声的伪标签会影响分割的准确性,Wu等人[42]利用预测置信度和不确定性选择最可靠的伪标签。
2.4 语义分割
分割策略是所有方法的关键组成部分,也是框架部署中最关键的部分。本节将探讨三种不同方法选择的分割策略。
第一种是基于2D标签的方法。这些方法利用投影将图像和3D数据合并起来设计自己的网络。受DGCNN的启发,Wang等人[12]提出了一种基于图的金字塔特征网络,结合了K-NN动态图边卷积(K-NN dynamic graph edge convolution)。它旨在隐式推断截断点云的全局和局部特征,从而增强2D监督的性能。基于这项工作,他们在文献中进行了后续研究[14],提出了能够输出点云可见性的OBSNet解码器,从而优化了原始框架。另一项基于2D标记的工作[13]选择了Mask-RCNN来对图像进行分割,并通过耦合2D像素和3D点将预测扩展到点云空间。Kweon和Yoon [15]选择了ResNet38 [54]和PintNet ++作为分类器,提取图像和点云的特征,然后利用CAM生成预测。
第二,对于有限的基于3D标签的方法,一些分割是基于现有网络进行的,例如,刘等人[24]选择了共享权重的3D UNet以更好地强化特征一致性,而其他人则使用自创网络获得更高效的结果。在发现不完全监督学习梯度可以通过完全监督采样来近似时,Xu和Li[17]引入了一种具有softmax交叉熵损失的弱监督分割网络。Wei等人[18]基于KPConv引入了跨样本和内样本特征重新分配模块,实现了链接样本间和原始样本内的监督传播。受自监督学习的启发,Zhang等人[19]提出了基于RandLA-Net的扰动自蒸馏和上下文感知模块。前者引入了辅助监督的图拓扑构建,后者对其结构进行了细化。Hu等人[7]提出了一种简单的语义查询网络,可以为随机点位置的弱监督训练收集尽可能多的重要语义特征。为了解决在局部几何结构的语义类别内难以识别子类别的问题,Su等人[20]开发了一个多原型分类器,其中每个原型作为一个子类别的权重。Yang等人[21]通过集成Transformer模型[55]和匹配的点云将问题转化为多实例学习挑战,更有效地获取点云内部和点云间的信息。Cheng等人[22]提出了一种新的采样策略,并将其纳入到RandLA-Net中进行训练,实现了参数共享。Li等人[23]提出,通过减轻认识不确定性的技术可以使用弱监督信息生成高质量的特征表示,并基于此引入了基于图信息增益的GaIA注意力网络。
第三,大多数基于伪标签的全监督方法,如MPRM [25]、SegGroup [32]和WHCN [41],选择KPConv作为最终的分割网络;而对于基于伪标签的自我训练方法,他们的分割策略就是他们的标签预测方法。
2.5 语义细化
除了最常见的分割约束外,现有的弱监督3D点云语义分割方法采用了五种优化策略:2D-3D联合优化、一致性约束、类内约束、伪标签约束和对比约束。
为了更好地进行2D-3D联合优化,研究人员充分结合和利用2D和3D特征来优化模型训练。Wang等人[12]选择将预测的点云分割投影到2D空间中进行透视渲染,然后在优化之后使用2D地面真实分割图进行网络训练。他们建议将投影监督与点云可见性相结合,从而增强模型的性能[14]。相反,Wang等人[13]将2D标签扩散到点云空间并使用3D监督进行监督。Kweon和Yoon [15]认为来自2D和3D数据的信息是互补的;因此,在两个维度的弱监督基础上,他们利用2D预测来增强3D语义感知,并用3D特征训练图像分类器。
一致性约束常被用于增强模型精度,它充分考虑了不同网络分支与各种输入数据的一致性,以探索更重要的信息。Mei等人[16]使用手动标记的目标类别和带有成对约束的监督数据来训练基于CNN的分类器。Xu和Lee[17]提出了三个新的约束,包括用于一致性约束的连体分支,用于预测未标记点信息的不精确监督分支,以及用于空间和颜色嵌入约束的平滑分支。Wei等人[18]利用预测一致性约束和弱分割损失来训练网络。Zhang等人[19]基于分割损失和一致性约束提出了额外的限制,利用上下文感知能力。Yang等人[21]将多实例约束与一致性约束相结合,并取得了成功的结果。Wu等人[37]提出了一种基于KPConv的双重自适应转换模型,利用生成的扰动和变形样本增强了3D点云的局部和结构一致性约束,从而提高了分割性能。Liu等人[24]利用不同增强数据和遮挡数据之间的一致性约束来学习复杂的场景上下文。Wu等人[42]设计了一个分离和一致性模块,以可靠和模糊的伪标签应用一致性约束,以及一个混合增强模块,进一步加强可靠点的一致性约束。
类内约束允许模型平衡每个标签类别的原型多样性和可分离性,以获得更准确的子类结果。Su等人[20]选择添加子类平均约束和原型多样性约束,以鼓励多原型学习。
与分割约束类似,基于伪3D标签的方法使用伪标签作为预测结果来优化分割网络。Yao等人[26]通过平衡伪标签的真实性和原始标签来创建约束。Zhang等人[27]利用自监督学习和标签传播对网络进行限制和优化;Cheng等人[28]添加了伪标签和注意力特征约束;Wang和Yao[30, 33]、Liu等人[31, 43]、Shi等人[35]和Lu等人[41]都结合了一致性和伪标签约束。作为一种新颖的混合约束,Kong等人[36]将伪标签与弱监督信息相结合。Liu等人[40]提出了多个标签约束,并将它们与多示例学习相结合进行监督训练。
最后,对比约束可以是一种有效的技术,它学习多个数据的对比性特征,以增强模型的效率。Li等人[34]除了使用点层一致性约束和对比约束外,还添加了局部和全局引导对比损失。Li等人[39]在球面投影层次上结合了对比约束进行监督训练。
03 数据采集传感器和数据集
在本节中,我们介绍了用于3D点云的常见数据采集传感器和它们采集的数据集。
3.1 采集传感器
用于3D点云语义分割任务的数据集由多种传感器采集。不同传感器的应用场景和数据特性各不相同,因此本文将介绍一些广泛使用的数据采集传感器。
3.1.1 RGB-D相机
RGB-D相机能够捕捉RGB图像并测量像素级距离信息。在已知相机中心位置的情况下,该相机可以获得深度图中每个像素点的3D空间位置,从而生成点云数据[69]。然而,RGB-D相机并不适合户外应用,而且存在不适用于测量镂空物体、光滑表面物体和半透明物体。因此,该相机主要用于室内条件下的数据采集。
3.1.2 激光扫描仪
激光扫描仪与深度相机不同,其通过激光来测量距离。根据安装平台的不同,这些传感器可以分为三类:移动激光扫描仪 (MLS)、航空激光扫描仪 (ALS) 和静态地面激光扫描仪 (TLS)。
移动激光扫描仪主要安装在可移动物体上,主要是汽车,通常由3D激光扫描仪、GNSS、IMU和相机组成;与其他两种类型相比,它的优势在于能够生成超高密度的点云[70]。大多数现有的公共点云分割数据集是通过MLS获取的。
航空激光扫描仪(ALS)安装在飞行平台上,与MLS相比,它包含的组件更多。由于与地面的距离以及其他因素的原因,生成的点云通常不准确且缺乏光谱信息。为了克服这个问题,研究人员已经构建了多光谱航空激光扫描仪,可以更好地从水、植被和阴影中收集数据[69]。
TLS通常安装在静态三脚架上,其获取数据的效果较差,无法记录移动物体;然而,其数据非常准确。与其他两种类型不同,TLS通常缺乏IMU系统,这使得直接对齐在不同扫描位置获取的数据变得困难[69, 70]。
不同平台上激光扫描仪收集的相同物体的数据在点密度、遮挡和分辨率方面可能存在很大差异,因此需要针对不同的任务选择不同的数据获取和处理策略。
3.1.3 无人机摄影测量术
在多视角立体视觉和运动结构混合方法的推动下,无人机摄影测量术通过间接点云生成光谱图像进入了一个新阶段的发展[71]。无人机摄影测量术首先规划飞行路径,然后利用光学成像设备捕捉多个航空图像序列,再通过SfM-MVS方法进行重建以获得点云数据。与激光扫描仪相比,无人机数据采集更便宜、更实用[66]。
不同的传感器收集到的数据集具有不同的特点。RGB-D相机能够捕捉颜色和深度信息,但其测量精度受到物体外观的影响,主要适用于室内场景。移动激光扫描仪是最常用的,能够生成高密度的点云。ALS收集的数据较不精确,通常不包含光谱信息。TLS能够生成精确的点云,但捕捉效率较低。与激光扫描仪相比,无人机摄影测量术更具经济性和实用性。
3.2 公共数据集
构建有效的数据集是验证算法有效性的保证。随着数据采集技术的不断进步,提出了各种公共数据集来更好地推动3D语义分割研究。表2总结了常用的公共数据集。
3.3 评估指标
常用于评估3D语义分割结果的指标包括总体准确度(OA)、平均类别准确度(mAcc)和平均交并比(mIoU)。假设K是类别总数,TP是真正例数,FP是假正例数,FN是假负例数,TN是真负例数,可以用以下公式计算这三个评估指标[66]:
04 实验结果与分析
为了比较和分析现有的弱监督3D语义分割研究,本文在表3中编制了每种方法在公共数据集上的主要结果,并得出以下结论:
· 每种方法选择了不同的监督方法和标注形式,仅仅基于结果本身进行性能比较并不容易。因此,值得研究如何得出合理的结论。
· 2D监督的分割结果似乎没有倒退,但近年来公共数据集的发展使得3D弱监督的性能更加稳定和鲁棒。
· 由于数据集之间存在大小等特性的大幅变化,最好选择多个基准进行测试,以更好地评估方法的鲁棒性。
· 基于伪3D标签的方法是当前最热门的研究方向,未来的研究必须集中在如何更好地保留标记点中真正有用的信息并生成更准确的伪标签上。
· 当前的弱监督方法仍主要集中在室内分割任务上,但在实际应用中,研究人员主要面对大规模数据集的室外场景。因此,进一步研究大规模点云的弱监督语义分割是必要的。
· 一些研究已经开始从连续帧点云中学习到4D细节[35],可以进一步研究空间-时间信息的融合,以确定是否可以获得更好的分割结果。值得注意的是,这些方法仅适用于特定的数据集和场景。
· 由于不同传感器采集的数据具有独特的特征,因此必须研究如何更有效地处理获取的数据,以提高数据集的可用性和训练模型的鲁棒性。
05 结论
本文总结了基于弱监督3D点云语义分割的通用算法框架,并深入讨论了每种方法选择的策略的思路、优点和缺点。此外,本文还对常用的数据采集传感器和基准数据集进行了概述,并总结了每种方法在公开数据集上的性能表现。
1. 结合局部与全局特征的点云语义分割卷积网络
2. 动态场景下基于自适应语义分割的RGB-D SLAM算法
3. 书籍推荐-《地貌学家的点云技术:从数据采集到处理》
4. 慕尼黑工业大学新作:多激光雷达玩转城市自动驾驶定位和建图
5. 无人机视角下的目标检测研究进展