药丸图像识别及其应用

201 浏览量更新于2023-10-23 收藏 1.05MB PDF 举报

数据库开发

实验结果

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9789少量药丸识别Suiyi Ling1岁，Andre' asP astor1岁，Jing Lii2岁，Chaohui Che3岁，Junle Wang4岁，Jieun Kim5岁，Patrick Le Callet1岁1南特大学2阿里巴巴集团3上海交通大学4腾讯5汉阳大学{suiyi.ling，andreas.pastor，patrick.lecallet}@ univ-nantes.frjing.li.gmail.comchezhaohui@sjtu.edu.cnwangjunle@gmail.comjkim2@hanyang.ac.kr摘要药丸图像识别对于许多个人/公共卫生保健应用是至关重要的，并且应该对各种不受约束的现实世界条件是鲁棒的由于每个类别的实例不足，大多数现有的药丸由于训练数据有限，基于神经网络的模型在发现大多数区别性特征或更深入方面存在局限性。特别是，现有的模型不能处理在较少控制的成像条件下采集的硬样品在这项研究中，一个新的药丸图像数据库，即CURE，首先开发了更多的成像条件和实例，为每个药丸类别。其次，提出了一种轻量级的W2-网，以更好地分割药丸第三，提出了一种捕获任务相关特征的多流（MS）深度网络以及一种新的两阶段训练方法。在所提出的框架内，一批所有的策略，考虑所有的样本，首先采用的子流，然后一批硬策略，只考虑在第一阶段挖掘的硬样本被用于融合网络。通过这样做，可以集中无法用一种类型的特征表示的复杂样本，并且可以迫使模型更有效地利用其他领域相关信息。实验结果表明，该模型优于国家的最先进的模型在美国国立卫生研究院（NIH）和我们的CURE数据库。1. 介绍根据处方药图像的视觉外观准确识别处方药图像有助于确保患者此外，它可以用于避免药理学链中的错误;它还可以改善毒物控制专家提供的护理[28]，*同等缴款。图1.所提出的药丸识别模型的框架是：1）将颜色、纹理、轮廓和印迹文本信息作为输入; 2）首先使用批处理全部（BA），然后使用批处理硬（BH）策略。表示减法运算。增加药物持续性[4]，最大限度地减少疏散场景中药物和处方的损失[22]，并促进远程/自我诊断技术和智能医疗应用的发展[34]。然而，在日常生活中，准确的药丸识别通常受到少样本学习问题的阻碍，其中每个类别的样本数量很少;例如，NIH数据集[35]每个类别仅包含7个样本。此外，尽管存在用于药丸图像识别的各种商业产品和基于网络的服务，但是还没有发现完整的解决方案来使系统对专业和一般公共卫生保健服务中的不同噪声成像条件足够鲁棒。在学术文献中，大多数现有的药丸识别模型在少量注射的情况下失败。这种故障更有可能在较少控制的噪声成像条件下，特别是关于硬样品。主要有两种类型的硬样品：1）硬阴性：具有相似视觉外观的不同药丸类别;2）硬阳性：同一类别下但由于噪声成像条件而具有显著不同视觉特征的药丸比如说，9790(a)(b)（c）第（1）款图2.药丸识别中的硬样本示例：（a）来自CURE数据集的硬阳性药丸样本;（b）来自NIH数据集的硬阴性药丸样本;（c）使用（b）中的硬阴性样本的低通滤波获得的纹理图。在图2（a）中，不同照明条件下的相同药丸具有不同的颜色，而在图2（b）中，由于形状和颜色的相似性，现有的药丸识别器倾向于将三种不同的药丸分类在相同的药丸类别图2（b）中区分三种不同药丸的主要特征是压印的文字，然而即使是人眼也难以识别如[17]中所述，印记文本在促进准确的药丸识别方面起着关键作用;因此，更好地利用域相关信息（例如文本信息）的方法可能是利用有限数据进行更有效的药丸识别的关键。根据我们的观察，从药丸的质地可以收集到更多的信息。例如，图2（c）示出了（b）的纹理图。纹理图和原始RGB图像的比较表明，药丸上的压印文本在纹理图中更明显。因此，我们提出了一种基于新的两阶段训练策略的多流（MS）深度学习模型，其中首先使用考虑所有样本的Batch All（BA）策略训练各个流，此外还使用Batch Hard（BH）策略进行后期融合过程，该策略仅关注在前一训练阶段中无法由各个流处理的硬样本。值得注意的是，本研究中提出的BH与[11]中的BH不同，[11]中的BH仅使用min/max函数从每个批次中选择最难的阳性/阴性样本。总体框架如图1所示。更具体地说，首先提出了一种从背景中提取药丸区域的W2使用分割的药丸区域，我们训练了三个流，分别处理RGB图像，轮廓和纹理图，使用三重丢失和BA策略。此外，我们重新训练了 Deep TextSpotter （ DeepTextSpotter）[1]，它检测和识别药丸图像纹理图上的印记文本作为第四个流。最后，我们训练了一个融合网络，使用三重丢失来组合四个流，只考虑在第一阶段违反三重约束的硬样本，以及重新训练的三重具体地说，该方案便于用高级压印文本的辅助信息补偿不同的特征2. 相关工作药丸数据集：近日美国NIH的国家医学图书馆（NLM）发布了一个药丸图像数据集，并呼吁提交处方药图像识别模型[35]。然而，NIH数据集中的图像在照明、背景条件和设备等方面存在限制NIH数据库总结见表1。丹药识别模型：除了设计用于识别药丸的不变描述符外，Caban等人[2]还提出了一种改进的形状分布技术，用于检查药丸的形状、颜色和印记文本。然而，模型内的印记描述符是有限的，并且所考虑的图像不能代表实际情况的可变性。在[13]中，通过首先根据非零梯度幅度在查询图像然而，该模型可能不适用于较不受控的成像条件。在[3，5]中考虑了类似的特征来估计药丸的大小，并识别它们。不幸的是，这些方法忽略了药丸的大小可以在不同的缩放效果下容易地改变的事实。 Yu等人[36]建议利用药丸的形状和其他特征来表示药丸上的印记符号;然而，这种方法在捕获的药丸图像的印记模糊或对人类不可见的情况下失败。表1.比较CURE和NIH数据集。NIH NLM治愈药丸图像70008973药片种类1000196每个类别的740-50照明条件13背景16压印文本标签没有是的分割标签没有部分地标注除了利用药丸传统手工特征的方法外，最近，随着计算机视觉和图像处理中深度学习其中，最先进的提案之一Mo- bileDeepPill（MDP）[37]在挑战赛中获得了一等奖首先，分别以RGB图像、灰度图像和边缘图作为输入，训练三个卷积神经网络（CNN）;然后，使用用于药丸识别的每个单个CNN模型计算的相异度值被线性求和。尽管上述模型中的一些考虑了药丸上的印记文字，但它们仅使用结构性的去9791而不是试图识别药丸上的符号。此外，它们中的大多数都不能满足在噪声条件下的前一节中描述的硬样本，因为它们只是提取不同的特征，并且直接进行训练分类器，而不考虑使用精心设计的学习策略的不同特征之间的互补关系。小样本学习算法已经被开发出来，并被证明是小数据场景中很有前途的工具。 They could be categorizedas 1) the metric learning based ap- proach [31, 27, 30, 33]whereby a similarity metric/space2）记忆网络方法[19，25，23，9]，其中模型被训练以存储“经验”; 3）基于梯度下降的方法[7，9]，其中Meta学习者被训练为通过不同的任务来适应基础学习者。由于这些模型大多使用浅网络来避免有限样本下的过拟合问题，其性能受到限制。为了解决这一限制，MTL[29]提出了基于硬任务元批处理策略，利用深度网络处理少数情况。在[14]中，CTM被提出来处理少数镜头问题，通过在跨类别和类别内遍历后选择最相关的特征维度。然而，这些模型都不是为药丸识别而设计的。因此，它们没有充分利用小数据场景中的域相关信息来处理硬样本。3. 申报的CURE Pill数据库1在本节中，介绍了新的CURE药丸数据集。表1中总结的数据集包含196个类别的8973张图像，每个药丸类别获得约45个样本。(a)(b)（c）图3。(a) MPI装置;（b）装置中的嵌入式相机;（c）连接到设备的智能手机软件。设备：该数据库中的药丸图像使用三部手机（即SamsungSM-J320 FN、SM-N920 S和LG F500 L）和一个多药丸标识符（MPI）装置。MPI设备为医疗保健人员和公众提供未知药丸的描述。使用该装置获得的信息可用于检查不同药丸之间的相容性和检测过期药物等目的。示出了装置1 我们的 CURE 数据集可在 https://github.com/suiyiling/Few-shot-pill-recognition上获得。在图3（a）中，其中相机安装在Raspberry Pi 3上，如图3（b）所示，并且设置在药丸保持器上方。（a）（b）（c）（d）(e)（f）（g）（h）图4。CURE中的图像示例。行：每一行对应一种药丸。色谱柱：（1）第1列：参考图像;（2）其他栏目：消费者形象。消费者形象：不是在专业控制条件下拍摄的照片[35]。在实际情况下，消费者图像可能在不同的背景、照明、焦点和方向下拍摄。为了使数据库更加多样化，在采集消费者图像时，考虑了不同纹理粒度、光照和动态放大/缩小条件的背景。照明条件包括：1）室内光线，2) 弱室外光，和3）强室外光。参考图像：对于每个药丸类别，使用最佳质量的消费者图像生成参考图像。更具体地，首先手动标记具有更好控制条件的所选药丸图像中的像素级药丸区域。然后，所选图像的背景被替换为干净的灰色背景。数据集中的参考图像的示例在图4的第一列中示出。我们认为，使用消费者图像生成参考图像更实用，原因如下：1）在参考图像由药丸制造商上传的情况下，高质量相机可能太昂贵，并且在专业控制条件下收集专业图像更耗时; 2）在参考图像由消费者上传的情况下，即使使用较低质量的参考图像，所开发的药丸识别模型也应当实现可接受的性能。参考图像标记有逐像素药丸位置和压印文本/符号。如表1所示，该数据集考虑了更具挑战性的现实条件（即，具有更多样化的背景、光线和变焦条件）;因此，与NIH数据集相比，它更好地反映了实际情况[35]。数据集中的图像示例如图4所示如观察到的，1）最后一行中的图像是在不同的光照条件下拍摄的，这可能导致信号，9792药丸颜色的显著变化（特别是对于（h），其中在不同照明条件下使用MPI设备拍摄的图像的颜色变化显著）; 2）（c）和（d）是在不同的缩放条件下拍摄的;3）该数据集中考虑的背景是多样的。4. 该模型4.1. 药丸分割和定位药丸图像的背景提供的有用信息很少，甚至可能作为噪声源恶化药丸识别器的训练过程。处理不同的嘈杂背景，具有挑战性的照明和放大/缩小条件需要一个模型，产生更精确的分割结果。因此，我们提出了一个W2-net从背景中分离药丸区域，使药丸识别器可以在局部药丸图像上训练，并忽略来自噪声和多余背景的扰动。测试/查询示例与训练中使用的少数示例之间的差异[14，31]。在这项研究中，为了更好地处理第1节中描述的阳性/阴性硬样本，采用三重丢失来优化相似性度量（嵌入空间），使得相同药丸的图像彼此更接近，并且对于不同药丸的图像相反。从理论上讲，给定一组三元组（Ia，Ip，In）（Ia被认为是锚图像，Ip是与Ia属于同一类别的正样本，而In是与Ia属于不同类别的负样本），度量嵌入学习的目标是学习函数fθ（I）：RF→RE由θ参数化以映射相似或不同药丸图像，即，对于相同的药丸（Ia，Ip）或对于不同的药丸（Ia，In），从特征流形RF到度量上嵌入空间RE中的近/远点，目标函数定义为[26]：Σ在[21]中已经证明，重复的自下而上，自上而下的处理与中间监督结合使用对于提高网络的性能至关重要。在这个想法和知识概念的启发Ltri（θ）=a，p，nya=yp/=yn[m+D（fθ（Ia），fθ（Ip））-D（fθ（Ia），fθ（In））]+，（三）边提取[12]，建议的W2-网是使用四个简化的U-网[24]构造的。值得注意的是，W2比U-Net小17.5倍，即，2M对35M。这是通过以下方式实现的：1）使用1.4%的2）将前一个简化的U-网的中间输出送入下一个简化的U-网详细的网络架构见补充材料。由于我们的研究只有两个类别，即，背景和药丸区域，我们对第i个简化的U网采用逐像素的二进制交叉熵损失：其中m是在ive对中的正和n eg之间强制执行的裕度[26]，[x]+=max{0，x}，yi是第i个样本的pill分类标签，D（f θ（I i），f θ（I j））：RE×RE→ R表示度量嵌入空间中两个图像I i，I j之间距离的度量函数。在整个研究中，使用欧几里得距离作为距离度量，即。例如，D（·），如[11]中所示。独立处理不同特征的无价值的药丸识别模型，例如，MDP [37]不能有效处理硬样品。因此，重要的是设计一个适当的培训策略，考虑到以下事实：1）如果使用所有的位置，卢武铉Σ=−l（p）·log（s（p））+（1 −l（p））·log（1 −s（p）），p∈PI（一）三元组，三元组的数量将随着数据数量的增长而立方地增加，使得训练效率低下; 2）如果只考虑最难的三胞胎，其中l（·）是每个pix elp∈PI的真实标签，s（·）是第i个U-net以sigmoid函数作为激活函数预测的得分的损失函数，W2-net定义为：Σ4模型将选择数据集中的离群值，fθ在学习“正常”联想时的失败[11];3) [37]中使用不同的特征训练单独的网络忽略了不同特征之间的互补关系。其中λLW2=i=1 λUiLUi，（2）为此，我们提出了一个MS CNN，四个单独的流（流RGB，纹理，轮廓Ui是平衡相应的简化U-网，并设置为1/4。在以下部分中，仅考虑分割/定位的药丸图像。4.2. 用于药丸识别的4.2.1基于三重损失的度量嵌入学习药丸识别是一个典型的少次学习问题，其中每个药丸类的数据不足。最近，有效的少拍方法采用了一种度量学习方案来学习相似性度量，以比较和印记文本），其与后期融合网络连续组合。所提出的MS CNN以阶段方式进行训练，类似于[6]。在第一个训练阶段，我们使用BA策略分别训练RGB，Tex-ture和Contour在该阶段中，选择不能单独使用每个流处理的硬样本用于第二阶段。例如，对于流RGB，硬样品可以是相同的药丸，但是在不同的照明条件下，如图2（a）所示;对于流纹理，硬样品可以是具有相同纹理的不同丸，9793j，a，n文本文本J一个一个形状，压印的文字，但不同的颜色;对于流违反了约束条件di，a，p

下载后可阅读完整内容，剩余1页未读，立即下载