没有合适的资源?快使用搜索试试~ 我知道了~
1BioFors:一个大型生物医学图像取证数据集Ekraam Sabir,Soumyaroop Nandi,Wael AbdAlmageed,PremNatarajan USC Information Sciences Institute,Marina del Rey,CA,USA{esabir,soumyarn,wamageed,pnataraj} @ isi.edu摘要媒体取证学的研究在打击错误信息的传播方面取得了进展然而,大多数研究都是针对社交媒体上生成的内容。生物医学图像取证是一个相关的问题,在生物医学研究文件中报告的图像的操纵或误用是严重的问题。由于缺乏基准数据集和标准化任务,这个问题未能超越在本文中,我们提出了BioFors1-BioFors包含从1,031篇开源研究论文中提取的47,805张图像。BioFors中的图像分为四类-显微镜、印迹/凝胶、FACS和肉眼检查。我们还提出了法医分析的三个任务-我们使用合适的最先进的算法对所有任务进行基准测试。我们的研究结果和分析表明,在普通计算机视觉数据集上开发的现有算法在应用于生物医学图像时并不稳健,这验证了需要更多的研究来解决生物医学图像取证的独特挑战。1. 介绍多媒体取证研究已经分支到几个子域,以解决各种形式的错误信息和操纵。流行的法医研究问题包括检测数字伪造,如deepfakes [31,41],复制移动和拼接操作[52,53,51]或语义伪造[40,23]。这些法医研究领域基本上处理社交媒体内容。一个相关但不同的研究领域是生物医学图像取证;即检测生物医学出版物中的研究不端行为[4,13,5]。研究不端行为可以以几种形式出现,科学文档内埃斯凡迪亚里等例如,SCD 2012跨文档Meyfour等人,蛋白质组研究杂志 2017Ghiasi等人,《细胞生理学杂志》2018图1.生物医学图像中可疑重复的真实世界示例。顶行和底行分别显示相同和不同文档中的图像之间的牵引[5]和一个估计392,582美元的经济损失为每个撤回的文章[46]。科学不端行为和不道德行为的一般范围很广。在这篇文章中,我们专注于检测操纵或不适当的复制生物医学文献中的科学图像。蛋白质、细胞、组织和其他实验图像的复制和篡改已经成为生物医学科学界的麻烦。如描述所示,复制涉及重复使用由一个实验生成的图像的一部分图像篡改涉及像素级或补丁级伪造,以隐藏图像的不利方面或产生有利的结果。生物医学图像伪造可能比社交媒体上的操纵图像更难被人类检测到,这是由于存在任意和混乱的模式以及缺乏真实世界的语义上下文。通过涉及跨不同文档的图像的图1显示了报告的不适当重复的例子2不当行为的后果超出了道德规范,并导致重新2https://scienceintegritydigest.com/2020/11/11/46-papers-from-a-1https://github.com/ISICV/BioFors罗扬研究所教授1096310964不同的出版物。注意到这种操纵的难度加上每审稿人的论文比例高达-10,导致这些操纵在审稿过程中被忽视它可能会受到审查后,导致可能的撤回[5]。虽然这个问题已经得到了生物医学界的关注,但据我们所知,目前还没有公开的生物医学图像取证数据集,检测软件或标准化任务进行基准测试。我们通过发布第一个生物医学图像取证数据集(BioFors)并提出基准测试任务来解决这些问题。我们工作的目标是推进生物医学法医学研究,以高置信度识别可疑图像。我们希望BioFors能够促进算法和软件的发展,帮助审查者识别研究文件中的操纵图像。关于可疑图像背后的恶意、错误或正当意图的最终决定将留给法医分析师。这一点很重要,因为复制/篡改的情况是合理的,引用、解释、无害或天真的错误,如[4]所述。Bio-Fors包括属于四个主要类别的47,805个手动裁剪的图像-(1)显微镜检查,(2)印迹/凝胶,(3) 肉眼检查和(4)流式细胞术或荧光激活细胞分选(FACS)。它涵盖了流行的biomedic- cal图像处理与三个伪造检测任务。数据集及其收集以及伪造检测任务在第3节中详细描述。我们工作的贡献是:• 一个具有真实世界特征• 一种计算友好的伪造检测任务分类,可与标准计算机视觉任务相匹配,用于基准测试和评估• 广泛的分析解释了生物医学取证的挑战和标准计算机视觉模型应用于生物医学图像2. 相关工作2.1. 计算机视觉在生物医学领域的机器学习和计算机视觉对生物医学领域做出了重大贡献,涉及图像分割[27,28,49]、疾病诊断[35]、超分辨率[34]和生物医学图像去噪[55]等问题。虽然已经存在针对这些问题的本地计算机视觉算法,但是确保对生物医学数据的鲁棒性一直是一个挑战。这部分是由于领域转移,也是由于在通常较小的生物医学数据集上训练数据密集型深度学习模型的困难。2.2. 自然图像取证图像取证是计算机视觉中广泛研究的问题,具有标准 数 据 集 和 基 准 测 试 [48] 。 常 见 的 取 证 问 题 包 括deepfake检测[31,41],拼接[51,15],复制移动伪造检测(CMFD)[52,14,39]、增强和去除检测[53,56]。虽然一些形式的操纵(诸如图像增强)可能是无害的,但是其他操纵具有恶意意图。最近,deepfakes -一类伪造的人的身份或面部表情被操纵,已经声名狼借。其他恶意形式的伪造是复制-移动和拼接,其涉及分别从同一图像内和从供体图像粘贴图像补丁。对于所提到的操纵,已经开发了伪造检测方法以合理地成功地标记可疑内容。开发这些算法的一个关键步骤是管 理 和 发 布 促 进 基 准 测 试 的 数 据 集 。 例 如 ,FF++[37],DeeperForensics [25]和Celeb-DF [29]帮助开发了deepfake检测方法。[16 ][17][18][19]AGE [50]帮助改进了伪造组合的检测方法,如复制移动,拼接和删除。2.3. 生物医学-图像取证科学研究的歪曲是一个广泛的问题[7],其中生物医学图像的图像处理或复制已被期刊和社区普遍认为是一个严重的问题[13,4,5]。Bik等人 [4]分析了超过20,000篇论文,发现其中3.8%包含至少一种操作。在继续研究[5]中,作者能够带来46项更正或撤回。然而,大部分工作都是手动进行的,鉴于大量出版物,这不太可能扩展。已经提出了用于生物医学图像操纵的 自动 检 测 的模 型 和 框架 [10 , 8 ,2 ,54 , 26]。Koppers等人 [26]开发了一种重复筛选工具,对三张图像进行了评估 Bucci等人 [8]从开源工具中设计了一个CMFD框架,评估了1,546个文档,发现其中8.6%包含操纵。Acuna等人。 [2]使用SIFT [30]图像匹配在760k文档中找到潜在的重复候选者,然后进行人工审查。在缺乏稳健评估的情况下,不知道有多少伪造文档在[8,2]中未被注意到。Cardenuto等人。 [10]策划了一个包含100张图像的数据集,以评估CMFD任务的端到端框架。Xiang等人 [54]测试了一种异质特征提取模型,以检测357个显微镜和487个蛋白质印迹图像的数据集中人工创建的操作目前还不清楚这些图像是如何收集的[10,54]。总之,没有一个提议的数据集将生物医学图像取证的社区与标准基准相统一。109653. BioFors基准如第2节所述,具有标准化基准的数据集对于推进生物医学图像取证领域至关重要。此外,我们希望BioFors具有图像级粒度,以便于图像和像素级评估。此外,期望使用具有真实世界操纵的图像。为此,我们使用开源或收回的研究文件来策划BioFors。流程图和图表。在合成图像的数值结果的验证超出了本文的范围。图像收集过程产生了47 805张图像。我们创建了训练/测试分割,使得文档及其图像属于测试集,如果它至少有一个操作。表1给出了数据集的概述。有关BioFors的更多统计信息,请参阅补充材料。模态系列测试总计BioFors在交叉点处是一个相当大的数据集生物医学和图像取证领域,46,064文件696 335 1 031(100篡改图像)、CASIA [16](5,123个篡改图像)和MFC [19](100k个篡改图像)。第3.1节详述了图像采集程序。第3.2节描述了图像多样性和分类。第3.3节描述了拟定的操纵检测任务。关于道德操守的讨论载于补充材料。3.1. 图像采集程序大多数研究出版物不显示伪造,因此收集操纵文件是一项困难的任务。 我们收到了Bik等人的一组文件。[4]以及可疑科学图像的原始注释,将在第3.3节中讨论。 名单从提供给我们的不同期刊的文件中,我们选择了PLOS ONE开源期刊中的文件,包括2013年1月至2014年8月期间发表的1031篇生物医学研究文件所收集的文件为便携式文件格式(PDF),但使用现有软件无法从PDF文件中直接提取生物医学此外,生物医学文档中的图形是复合图形[43,47],即图形包括生物医学图像、图表、表格和其他人工制品。可悲的是,最先进的生物医学图形分解模型[43,47]具有不完美和重叠的作物边界。我们通过两个步骤克服这些挑战:1)从文档中自动提取图形,以及2)从图形中手动裁剪图像。对于自动图形提取,我们使用了deepfigures [44]。我们尝试了其他开源图形提取器,但deepfigures的裁剪边界明显更好,并且在所有文档上都运行良好。我们获得了6,543个图形图像,其中5,035个图形具有生物医学图像。对于裁剪步骤,为了最小化手动裁剪边界中的人为错误,我们分两个阶段执行裁剪。我们用一个松散的边界框裁剪子图形,然后在感兴趣的图像周围进行紧密的裁剪我们过滤掉合成/计算机生成的图像,例如表格、条形图、直方图、图表、FACS图像418643一千零六十一表1.顶行给出了BioFors的高级视图底部行提供按图像类别的统计数据。训练集包括pris-tine图像和文档。3.2. 数据集描述我们将来自先前收集步骤的图像分为四类-(1)显微镜检查(2)印迹/凝胶(3)流式细胞术或荧光激活细胞分选(FACS)和(4)肉眼检查。这种分类法是考虑到不同图像类的语义和视觉相似性语义上,显微镜包括使用显微镜捕获的来自实验的图像。它们包括组织和细胞的图像。显微镜图像中的变化可由与来源有关的因素(例如,人、动物、器官)或细胞和组织荧光化学染色。这产生了不同颜色和结构的图像。Western、Northern和Southern印迹和凝胶分别用于分析蛋白质、RNA和DNA。图像看起来相似,并且特定的蛋白质或印迹类型在视觉上无法区分。FACS图像看起来类似于合成散点图。然而,图案是由代表细胞或颗粒的散射的物理实验产生的最后,宏观包括肉眼可见的实验图像,并且不属于前三个类别中的任何一个。肉眼检查是最多样化的图像类别,图像包括大鼠标本、组织、超声、树叶等。表1示出了按图像类别的BioFors的组成。图2示出了每个类的类间和类内多样性。这里讨论的图像分类很容易通过流行的图像分类模型学习,如表2所示。3.3. BioFors中的操作检测任务Bik等人 [4]提供的原始注释包含操纵区域的徒手注释和解释[4]的作者认为它们被操纵的原因的注释。原始图像和1,741个经处理的图像,与包括FMD [55](12,000 μ m)在内的生物医学图像数据集图所有图像3,37730,5361,65817,2695,03547,805增强前年龄)和CVPPP [42](284张图像)显微镜图像10,4587,65218,110并与图像取证数据集进行比较,包括印迹/凝胶图像19,1058,33527,440哥伦比亚[33](180张篡改图片),COVERAGE [50]肉眼图像5556391,19410966图2.代表以下图像类别的图像样品的行:(a)显微镜检查(b)印迹/凝胶(c)FACS和(d)肉眼检查。表2.图像类G流行图像创建者不共享图像或处理的起源。因此,我们没有能力创建生物医学图像操作检测任务到第2.2节中描述的伪造的一对一映射。因此,我们在BioFors中提出了三个操作检测任务-(1)外部重复检测,(2)内部重复检测和(3)切割/尖锐转换检测。这些任务全面涵盖了表3.按操作任务划分的测试集中原始图像和篡改图像的分布。然而,注释格式对于地面实况计算并不直接有用。我们检查了所有可疑的图像,并手动创建了所有操作的二进制地面真实掩模。这一过程导致297份文件至少包含一个操纵。我们还检查了其余文件中可能被忽略的操作,并发现另外38份文件至少有一处操作。生物医学专家(原始注释)和计算机视觉专家(最终注释)之间的文档级cohen与包括合成操作的自然图像法医数据集[33,50,1,16]不同,BioFors具有真实世界的可疑图像,其中forests是多样化的,外部重复检测(EDD):该任务涉及图像之间的几乎相同的区域的检测。复制区域可以跨越图像的全部或部分图3示出了外部复制的两个示例。由于两个原因,可能出现重复的区域-(1)从较大的原始源图像裁剪具有重叠的两个图像,以及(2)通过拼接,即,将一个区域从一个图像复制粘贴到另一个图像中,分别如图3a和b所示。不管操纵的起源,该任务需要检测一对图像之间的重复区域。此外,EDD的复杂性的另一个维度源于重复区域之间的取向差异。图3的第二示例中的重复区域已经旋转了180°。我们还发现了0◦、90◦、水平和垂直翻转的方向差异。从评估的角度来看,图像对被认为是EDD任务的一个样本,并且地面真实掩模也被认为是EDD任务的一个样本。(d)肉眼检查(c)FACS(b)印迹/凝胶(a)显微镜模型火车测试VGG16 [45]百分之九十九点七九97.11%DenseNet [21]99.25%百分之九十七点六七ResNet [20]98.93%97.47%模态文件EDD308IDD54CSTD61在[4,13]。表3显示了测试集中跨任务的文档和图像分布。我们描述原始图像14,6752,3071,534任务及其注释。操作图像1,547102181所有图像16,2222,4091,71510967(一)(b)第(1)款(c)第(1)款(a)(b)第(1)款图3. EDD任务中显示重复操作的两个图像对。对重复区域进行颜色编码以显示对应性。底行示出了用于评估的地面实况掩模。(a)(b)(c)(d)图4. IDD任务中的操作样本。顶行显示图像,底行具有相应的掩码。相同图像内的重复区域被颜色编码。成对的狗相同图像可具有对应于复制区域的不同对的唯一掩模。由于,它是计算昂贵的,考虑在一个文件中的所有图像对,我们大大减少了要计算的对的数量这是一个合理的启发式,因为(1)我们没有发现不同类别的图像之间的重复和(2)自动图像分类具有可靠的准确性,如表所示2. 有关方向差异的统计数据和更多重复示例,请参阅补充材料。内部重复检测(IDD):IDD是我们提出的图像取证任务,涉及检测内部重复的图像区域[52,22]。与标准复制-移动伪造检测(CMFD)任务不同,在标准复制-移动伪造检测(CMFD)任务中,源区域是已知的并且也来自相同的图像,在IDD中,源区域可以来自或可以不来自相同的图像。重复的区域可能已经由操纵器从不同的图像或文档获取。图4显示了内部复制的示例。请注意,图4c和图4d中以红色突出显示的区域是相同的,并且不清楚哪个或是否有任何斑块是源。因此,从评估的角度来看,我们把所有重复的区域内的图像伪造。地面实况注释包括每个图像一个掩模。图5.切割/过渡的示例(c)中明显的急剧转变已被注释,但完整的边界尚不清楚。(a) 浅色(b)深色图6.左侧和右侧的示例显示了图像的亮和暗伽马校正,使其更容易发现潜在的操纵。(a)中的第三个箭头带似乎是拼接的。切割/锐变检测(CSTD):在拼接或篡改区域的边界处可能发生切割或急剧过渡。与社交媒体上的拼接图像不同,印迹/凝胶图像不显示真实背景和拼接前景之间的明显区别,使得难以识别外来斑块。例如,在图5a和b中,不可能鉴定蛋白质印迹的左或右部分是否被剪接。纹理中的急剧转变也可以由像素的模糊或未知来源的其他操作而发生在这两种情况下,以切割或尖锐过渡形式的图像纹理中的因此,我们将异常边界标注为伪造。从注释的角度来看,剪切或急剧过渡可能难以看到,因此我们使用伽马校正来使图像变亮或变暗,并突出显示操纵区域。图6示出了伽马校正的示例。地面实况是每个图像的二进制掩码。4. 为什么生物医学取证很难?基于我们从数据策展过程中的见解和对Sec.5、阐述了自然图像取证方法在生物医学领域应用时面临的挑战。生物医学图像中的伪影:与自然图像数据集不同,生物医学图像是研究文档中呈现的科学图像。因此,存在添加到图像的注释和图例形式的伪影。图7显示了我们发现的一些常见工件,包括文本和符号,如箭头、刻度和线条。这些伪影的存在可以创建用于EDD和IDD任务的假阳性匹配。图像GT面罩10968(a)(b)(c)(d)图7.生物医学图像中注释伪影的示例:(a)虚线(b)字母数字文本(c)箭头(d)刻度。染色合并图8.左三列显示显微镜图像的染色右列是所有染色图像的叠加。可以发现两个或多个图像以这种方式平铺。配对单图9.左侧的图像显示了成对的缩放图像。右列在图像中具有缩放区域矩形边界框是原始图像的一部分。图像内部的缩放部分或其本身是另一图像的缩放缩放区域由矩形边界框指示,图像相邻。图9示出了具有缩放语义的成对图像和单个图像。图像纹理:如图2所示,生物医学图像在宏观图像的情况下倾向于具有平坦或图案状纹理。这种现象在印迹/凝胶和显微镜图像中特别突出,这是最大的两个图像类别,并且还包含最多的操作。由于图像纹理简单,难以识别关键点和提取描述符进行图像匹配,使得基于描述符的重复检测变得困难。我们将这一点与从两个常见的计算机视觉数据集中– Flickr30k [图10显示了使用三个现成的描述符提取器在每个图像类中识别的关键点的中位数:[30],ORB[38] , BRIEF [9]. 我 们 将 所 有 图 像 的 大 小 调 整 为256x256像素,以考虑不同的图像大小。随着FACS的出现,其他三个图像类别显示出所提取的关键点的数量急剧下降。我们认为FACS是一个例外,因为有大量的点,其中每个点都能够产生一个关键点。然而,这些关键点可能是冗余的,并且不一定对生物医学图像取证有用。Flickr30K假期显微镜印迹/凝胶肉眼检查FACS533图语义:生物医学研究文档包含视觉上相似的图像,但图形语义表明它们未被操纵。两个这样SIFTORB简要统计上显著的语义是染色-合并和缩放。伪造检测算法可能会生成属于这些类别的图像的假阳性匹配。染色图像源自显微镜实验,其涉及用不同的荧光化学品对相同的细胞/组织样品进行着色 这之后通常是合并/叠加图像,其组合染色图像。所得到的图像在同一图中平铺在一起由于底层细胞/组织样本未改变,因此图像结构在图像上保留,但颜色发生图8示出了染色和合并的一些样品第二种语义涉及图像的重复部分,其被放大以突出实验结果。缩放语义涉及包含缩放的por的图像图10.图像中识别的关键点的中值数量。除了FACS图像之外,生物医学图像具有相对平坦的纹理,导致较少的关键点。硬性阴性:科学实验通常涉及在一个共同的实验范式中调整多个参数以产生比较结果。对于生物医学实验,这可以产生看起来非常相似的图像,当寻找重复区域时,这些图像可以像硬底片一样起作用。对于印迹和凝胶图像,由于在单调背景上的斑点图案,这可以是真实的,而不管常见的实验框架如何。图11显示了每个图像类别的一些硬负样本。458450422434430312258190158553416233162810969图11.按顺时针顺序从印迹/凝胶、肉眼检查、FACS和显微镜检查分类中获得硬阴性样本。5. 评估和基准5.1. 度量对于第3.3节中讨论的所有操作任务,预期检测算法产生与输入图像相同维度的二进制预测掩模将预测的掩码与数据集中包括的地面实况注释掩码进行比较。图像中的操纵像素表示正类。根据伪造检测[52,53,51]中的先前工作,我们计算所有任务的预测和地面真实掩模之间的F1我们还计算了掩模之间的马修斯相关系数(MCC)[32],因为它已被证明在处理不平衡数据[11,6]时呈现平衡的分数,这是我们使用较少操纵图像的情况MCC范围从-1到+1,并且表示预测和地面实况之间的相关性。由于篇幅所限,F1成绩表在补充资料中完成.评估在图像和像素级(即为每个图像和像素确定真/假阳性和真/假阴性。对于图像评估,遵循[52]中的协议,如果任何一个像素具有正预测,则我们认为图像将被操纵。跨多个图像的像素级评估类似于[52]中的方案A,即,收集来自数据集的所有像素用于一个最终计算。5.2. 基线模型我们针对3.3节中介绍的三个任务评估了几种深度学习和非深度学习模型。我们的基线是根据模型/代码可用性和任务适用性从取证文献中选择的深度学习基线需要微调以适应权重。然而,由于少量的操纵样本,Bio- Fors训练集仅包括原始图像。受以前的伪造检测方法的启发[52,51],我们在原始训练数据上创建合成操作以微调模型。补充材料中提供了合成数据和基线实验的详细信息为了提高可重复性,我们的合成数据生成器和评估脚本将与数据集一起发布。外部重复检测(EDD):EDD的基线应识别图像之间的重复区域。我们评估了经典的基于关键点描述符的图像匹配算法,如SIFT [30],ORB [38]和BRIEF [9]。我们遵循经典的对象匹配方法,使用RANSAC[17]第十七话:消灭敌人。CMFD算法可以通过连接两个图像来创建单个输入来使用。我们在级联图像上使用最佳报告的变换-泽尼克矩(ZM)评估了DenseField(DF)[14]此外,我们评估了剪接检测算法DMVN [51]以找到重复区域。DMVN实现了一个深度特征相关层,它以16x16的分辨率匹配粗略的图像特征,以找到视觉上相似的区域。内部重复检测(IDD):IDD的适当基线应适合于识别图像内的重复区域。DenseField(DF)[14]提出了一种用于CMFD的高效密集特征匹配算法。我们使用本文 中 使 用 的 三 个 圆 谐 变 换 来 评 估 它 : Zernike 矩(ZM)、极余弦变换(PCT)和傅立叶-梅林变换(FMT)。我们还评估了[12]中报告的CMFD算法,使用三个基于块的特征-BusterNet [52]是一种基于双流深度学习的CMFD模型,它利用了视觉相似性和操纵工件。BusterNet中的视觉相似性是使用粗糙图像特征上的自相关层,然后进行百分位池化来识别的。切割/锐变检测(CSTD):与前两个任务不同,找到设计用于检测切换或过渡的取证算法是具有挑战性的。我们评估了ManTraNet [53],这是一种最先进的操作检测算法,可识别异常像素和图像区域。我们还评估 了 用 于 检 测 剪 切 和 过 渡 的 基 线 卷 积 神 经 网 络(CNN)模型CNN在来自训练集的印迹/凝胶图像中的合成操作上进行训练有关基线的更多详细信息,请参阅补充材料。5.3. 结果表4、5和6分别列出了EDD、IDD和CSTD任务的基线结果。 我们发现,密集特征匹配方法(DF-ZM,PCT,FMT)优于稀疏(SIFT,SURF,ORB),基于块的(DCT,DWT,Zernike )或粗特征匹配 方法(DMVN和BusterNet),用于识别EDD和IDD任务中的重复区域。密集特征匹配在计算上是昂贵的,并且大多数图像取证算法在自然图像上获得可行的质量-计算折衷然而,生物医学图像具有相对简单的纹理,10970SIFT [30]0.1800.1460.1130.1480.1300.1940.110.0730.1420.132ORB [38]0.3190.3420.0870.1270.1260.2260.2690.1870.2070.252简介[9]0.2750.2770.0580.1020.1350.1690.2440.1880.1800.202DF - ZM [14]0.4220.4250.1610.1920.2850.2560.5400.5040.2780.324DMVN [51]0.2420.3420.2610.4300.1850.2380.1640.2820.2440.310表4.按图像类别划分的外部重复检测(EDD)任务的结果。图像和像素列分别表示图像和像素级别评估。所有数字均为MCC评分。有关F1的相应分数,请参阅补充资料.显微镜印迹/凝胶肉眼检查组合方法图像像素图像像素图像像素图像像素DF - ZM [14]0.7640.1970.5150.4490.5730.4780.5640.353DF - PCT [14]0.7640.2020.5030.4660.7120.4870.5690.364DF - FMT [14]0.6380.1670.4800.4000.4950.4580.5090.316DCT [18]0.1870.0220.2500.1680.1580.1430.1960.095DWT [3]0.2990.0670.3840.2950.5910.2680.3410.171泽尔尼克[39]0.1920.0320.3360.1870.4930.2620.2570.114BusterNet [52]0.1830.1780.2260.0760.0210.1060.2690.107表5.按图像类别划分的内部重复检测(IDD)任务的结果和组合结果。FACS图像中没有IDD实例。图像和像素列分别表示图像和像素级别评估。所有数字均为MCC评分。方法F1MCC表6.剪切/急剧过渡检测(CSTD)任务的结果类似的图案,这可能导致用于粗略或稀疏提取的不可区分的特征。对于评估的基线集此外,性能在所有方法的图像类之间变化很大,模型在不同的图像类之间达到峰值。变化是预期的,因为语义和视觉特征随图像类别而变化。然而,作为这种变化的直接后果,图像类别特定的模型可能需要在未来的研究中开发。在CSTD上,我们经过训练以检测急剧过渡的简单基线在图像边界或印迹边缘上产生假警报MantraNet和我们的基线具有相似的性能,表明可能需要专门的模型设计来检测切割和异常转换。最后,所有任务的性能都很低,这可能归因于第4节中讨论的一些挑战。总之,可以安全地得出结论,现有的自然图像取证方法在应用于生物医学图像时并不稳健,并且还显示出跨图像类别的性能的高变化。结果强调,需要鲁棒伪造检测算法,适用于生物医学领域。关于报告基线的样本预测,请参阅补充材料。6. 结论和未来工作科学图像的操纵是生物医学界严重关注的问题。虽然审稿人可以尝试筛选科学不端行为,但任务的复杂性和数量给他们带来了不必要的负担。自动化和可扩展的生物医学法医方法是必要的,以协助审查。 我们介绍了BioFors,一个大型生物医学图像取证数据集。BioFors包括生物医学文档中的一系列图像。我们还制定了三个操作检测任务的基础上常见的操纵文献中发现。我们的评估表明,常见的计算机视觉算法扩展到生物医学领域时是不稳健的。我们的分析表明,要获得可观的性能,需要精心设计的模型,因为有多个挑战的问题。我们期望BioFors将推进生物医学图像法医学研究。7. 确认我 们 非 常 感 谢 博 士 。 伊 丽 莎 白 ·M Bik 、 Ar-turoCasadevall博士和Dr.铁角感谢方与我们分享了操作的原始注释。他们的贡献加速了我们发布的数据集的创建我们也特别感谢Dr. Bik回答了我们的许多问题,并提高了我们对生物医学图像领域的理解。显微镜印迹/凝胶肉眼检查FACS组合方法图像像素图像像素图像像素图像像素图像像素图像像素图像像素MantraNet [53]0.2530.090.1700.080CNN基线0.2120.080.0980.07010971引用[1] 敏捷挑战2017评测-nist。https://www.nist.gov/itl/iad/mig/敏捷挑战2017-评估。(于2020年11月14日生效)。二、四[2] Daniel E Acuna,Paul S Brookes,and Konrad P Kord-ing. 生 物 科 学 规 模 的 图 形 元 素 重 用 自 动 化 检 测 。bioRxiv,第269415页,2018年。2[3] M. Bashar,K. Noda,N. Ohnishi和K.森探索自然图像中的重复区域。IEEE Transactions on Image Processing,第1-1页,2010年。七、八[4] Elisabeth M Bik,Arturo Casadevall和Ferric C Fang。生物医 学研 究出 版物 中不 适当的 图像 复制 的普 遍性MBio,7(3),2016. 一、二、三、四[5] Elisabeth M Bik,Ferric C Fang,Amy L Kullas,Roger JDavis,and Arturo Casadevall.分析并纠正不适当的图像复制:分子和细胞生物学经验。分子和细胞生物学,38(20),2018。一、二[6] Sabri Boughorbel , Fethi Jarray , and Mohammed El-Anbari.基于matthews相关系数度量的不平衡数据最优分类器。PloS one,12(6):e0177678,2017.7[7] Isabelle Boutron和Philippe Ravaud。生物医学文献中研究 的 错 误 陈 述 和 扭 曲 。 Proceedings of the NationalAcademy of Sciences,115(11):2613- 2619,2018. 2[8] 恩里科·M·布奇生物医学文献中图像处理的自动检测。细胞死亡疾病,9(3):1-9,2018。2[9] Michael Calonder、Vincent Lepetit、Christoph Strecha和Pascal Fua。简介:二进制鲁棒独立基本特征。在欧洲计算机视觉会议(ECCV)的会议记录中,第778-792页。施普林格,2010年。六七八[10] JPCardenuto , ARocha , Rela to´ rioTe´cnico-IC-PFG ,andPro- jetoFinaldeGradua cao. 科技论文图像中不当行为的科学完整性分析2019. 2[11] Davide Chicco 和 Giuseppe Jurman 。 马 修 斯 相 关 系 数(mcc)在二分类评价中相对于f1评分和准确性的优势BMC基因组学,21(1):6,2020。7[12] Vincent Christlein,Christian Riess,Johannes Jordan,Corinna Riess,and Elli Angelopoulou.流行的复制-移动伪造检测方法的评估IEEE Trans-actions on InformationForensics and Security,7(6):1841- 1854,2012。7[13] 贾 娜 · 克 里 斯 托 弗 科 学 图 像 的 系 统 性 捏 造 被 FEBSletters,592(18):3027-3029,2018。一、二、四[14] 大卫·科佐利诺,乔瓦尼·波吉,和路易莎·维尔多利瓦。高效率的密场复制-移动伪造检测。IEEE Transactionson Information Forensics and Security,10(11):2284-2297,2015。二七八[15] Davide Cozzolino,Giovanni Poggi,and Luisa Verdoliva.Splicebuster:一种新的盲图像拼接检测器。2015年IEEE信息取证与安全国际研讨会(WIFS),第1-6页。IEEE,2015年。2[16] 京东、王伟、谭铁牛。图像篡改检测评价数据库。2013年IEEE中国峰会暨信号与信息处理国际会议,第422-426页。IEEE,2013。二、三、四[17] Martin A Fischler和Robert C Bolles。随机样本一致性:一个范例模型拟合与应用程序的图像分析和自动制图。Communications of the ACM,24(6):381-395,1981.7[18] AJessicaFridrich,BD a vidSoukal,andAJanLuk a´sˇ. 数字图像中复制-移动伪造的检测。在数字取证研究工作坊的进行中。Citeseer,2003.七、八[19] Haiying Guan,Mark Kozak,Eric Robertson,YooyoungLee,Amy N Yates,Andrew Delgado,Daniel Zhou,TimotheeKheyrkhah , JeffSmith , andJonathanFiscus.Mfc数据集:用于媒体取证挑战评估的大规模基准数据集。在2019年IEEE计算机视觉研讨会冬季应用(WACVW),第63-72页。IEEE,2019。3[20] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE/CVF计算机视觉和模式识别会议(CVPR)的论文集中,第770-778页,2016年。4[21] Gao Huang,Zhuang Liu,Laurens Van Der Maaten,andKilian Q Weinberger.密集连接的卷积网络。在IEEE/CVF计算机视觉和模式识别会议(CVPR)论文集,第4700-4708页,2017年。4[22] 作 者 : Ashraful Islam , Chengjiang Long , ArslanBasharat,and Anthony Hoogs.Doa-gan:用于图像复制-移动伪造检测和定位的双阶注意生成式对抗网络。在IEEE/CVF计算机视觉和模式识别会议论文集(CVPR)中,第4676-4685页,2020年。5[23] Ayush Jaiswal,Yue Wu,Wael AbdAlmageed,IacopoMasi,and Premkumar Natarajan.Aird:对抗性学习框架-图像再利用检测。在IEEE/CVF计算机视觉和模式识别会议(CVPR)论文集,第11330-11339页,2019年。1[24] Herve Jegou、Matthijs Douze和Cordelia Schmid。Ham-ming嵌入和弱几何一致性在大规模图像搜索中的应用。在David Forsyth、Philip Torr和Andrew Zisserman编辑的《计算机视觉施普林格柏林海德堡。6[25] Liming Jiang,Ren Li,Wayne Wu ,Chen Qian ,andChen Change Loy. Deeperforensics-1.0:用于真实世界人脸伪造检测的大规模数据集。在IEEE/CVF计算机视觉和模式识别会议(CVPR),第2886IEEE,2020年。2[26] Lars Koppers,Holger Wormer,Katja Ickstadt. 生命科学中 图 像 质 量 保 证 和 半 自 动 欺 诈 检 测 Sci-ence andengineering ethics,23(4):1113-1128,2017. 2[27] 维克多·库利科夫和维克多·伦皮斯基。使用谐波嵌入的生物图像的实例在IEEE/CVF计算机视觉和模式识别会议(CVPR)上,2020年6月。210972[28] Hong Joo Lee,Jung Uk Kim,Sangmin Lee,Hak GuKim,and Yong Man Ro.边界模糊医学图像的结构边界保持分割。在IEEE/CVF计算机视觉和模式识别会议(CVPR)上,2020年6月。2[29] 李悦尊,杨欣,孙璞,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功