没有合适的资源?快使用搜索试试~ 我知道了~
软件影响12(2022)100301原始软件出版物计数分子:基于Python的扫描隧道显微镜图像中分子自动计数和分类方案Jack Hellerstedta,b,P.,Alejandro Cahlíka,b,Martin Šveca,b,Oleksandr Stetsovycha,Tyler Hennenca捷克科学院物理研究所,v.v.i.,Cukrovarnická 10,162 00 Praha 6,捷克b先进技术和材料区域中心,Palackj大学,Šlechtitel27,78371 Olomouc,捷克共和国cInstitut für Werkstoffe der Elektrotechnik II,RWTH Aachen University,Sommerstelstraße 24,52056 Aachen,Germany自动清洁装置保留字:扫描隧道显微镜Python分子计数A B标准扫描隧道显微镜和原子力显微镜(STM/nc-AFM)正在迅速发展,以提供前所未有的空间分辨率的各种化学物种。特别是,它们通过直接检查前体和产物来表征表面化学反应。也可以研究手性效应和自组装结构。这个开源的、模块化的、基于Python的方案可以自动对中等大小(10× 10到100× 100 nm)的扫描探针图像中存在的各种分子进行分类。代码元数据当前代码版本v0.1.0用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2022-53可再生胶囊的永久链接https://codeocean.com/capsule/4233471/tree/v1法律代码许可证MIT许可证。使用git的代码版本控制系统使用Python 3+的软件代码语言、工具和服务编译要求、操作环境依赖性如果可用,链接到开发人员文档/手册https://github.com/thennen/counting-molecules/wiki问题支持电子邮件hellerstedt. gmail.com1. 动机和意义扫描探针技术,如扫描隧道显微镜(STM)和非接触式原子力显微镜(nc-AFM),现在已经直接调查的表面反应的常规实验技术[1,2]。随着这些技术可访问的有机分子的多样性生态系统的不断增长,对更复杂的工具的需求也在不断增长,以从更大和更复杂的分子成像数据集中提取定量信息从STM图像中提取统计数据通常是手工完成的[3这必然限制了使用这些数据集可以解决的统计问题的规模和复杂性。为了解决STM图像中提取和分类分子的限制,我们开发了一种自动化方案,利用现有的图像处理库使用Python编程语言编写。用于分析扫描探针数据的现有广泛使用的程序(WSxM [7]和Gwendion [8])目前没有包含用于自动图像处理和特征提取的工具。ImageJ [9]是生物学社区中功能强大且广泛使用的软件,但缺乏与该软件包旨在解决的数据集的兼容性和相关性。另一个障碍是,这些用于生物学应用的图像处理工具通常是使用商业的封闭源代码MATLAB代码编写的。Digital Surf具有特征分类工具,但也是商业和闭源[10]。最近在开发用于原子结构和缺陷的自动分配的基于机器学习的工具本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。通讯作者:捷克科学院物理研究所,v.v.i.,Cukrovarnická 10,162 00 Praha 6,捷克共和国.电子邮件地址:hellerstedt. gmail.com(J. Hellerstedt)。https://doi.org/10.1016/j.simpa.2022.100301接收日期:2022年4月19日;接收日期:2022年4月20日;接受日期:2022年4月21日2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsJ. Hellerstedt,A.卡里克湾Švec等人软件影响12(2022)1003012Fig. 1. 主要功能的架构和使用。黄色框表示可选的用户输入参数,蓝色框是程序的可视输出。(For解释 参考颜色在此图图例中,读者可参考本文的网络版本来自扫描探针数据集的信息,[11然而,这些解决方案解决了与当前情况相比结构更简单的相对同质的数据集,或者需要计算资源和数据(真实或人工)来训练卷积神经网络[13,15]。我们希望避免这种方法,而是开发一个轻量级的工具来快速识别大量STM图像中的统计趋势,这些图像具有最初未知分子种类的多样性;该软件包中提供的功能用于准备图。3在Hellerstedt et al.[16 ]第10段。我们的方法解决了一些具体的障碍。数据分辨率与采样物种数量之间存在实际限制。分选方法需要考虑相同物质的不同吸附配置(例如,旋转和手性)。虽然显式成对模板匹配在鲁棒性方面具有优势,但它受到与待分选分子数量正交的计算需求的我们对这些问题的解决方案依赖于Zernike多项式基组来提供代表每个分子的系数的这些系数对于数据中的旋转和噪声是鲁棒的。结合其他物理激励系数,它们提供了用于对分子进行分类的聚类算法的输入。有许多不同的算法可以应用于这种类型的数据,以便将类似种类的分子分组在一起。我们讨论了我们应用的一些方法及其相对功效。2. 软件描述这个包包含一组使用Python库Numpy [19],scikit-image [20],scikit-learn [21],Mahotas [18]和Matplotlib [22]编写的函数。在实践中,它是一系列的功能称为顺序如图所示。1.一、我们开发了当前的实现是有用的“开箱即用”,只需要最低的技能先决条件(例如,安装Python发行版和必要的软件包)。数据处理流程的模块化性质允许很大的灵活性来处理不同的数据集。该软件包的开源、基于存储库的分发允许进一步定制,以及基于社区的开发和改进这些核心功能的可能性。2.1. 软件构架我们首先读入图像数据并应用滤波器,以使用自适应阈值使图像适合于分子模板提取。在识别对应于每个分子的周长的闭合轮廓之后,我们使用每个轮廓的内部数据作为代表性模板图像。然后,我们从每个分子中提取数值特征,包括模板图像的计算Zernike矩[17,18]以及最大地形高度和轮廓周长。最后,我们使用聚类算法[21]对这些特征进行分类。提供了进一步的功能来可视化排序的类别,并进行手动更正。图1显示了所提供函数的典型用法。我们依靠Nanonispy库从一种流行的格式(Nanonis SXM文件)中读取数据。这将生成一个像素数据数组和重新缩放因子,以转换为真实空间距离。2.2. 软件功能提供的默认过滤功能执行图像数据的高斯过滤和平面拟合减法。我们计算全局Otsu阈值[23],并使用局部阈值方法来缩放特征提取的偏移值。我们包括诊断功能,可以用提取的轮廓绘制过滤后的图像数据,用数字标记,以及所有提取的分子模板的网格视图。Zernike矩是用于表示分解成正交Zernike多项式基集的图像的系数[17]。该方法具有旋转不变性,在计算机视觉领域引起了广泛的关注。该特性在我们的应用中特别有用,因为我们希望匹配分子,而不管它们如何被吸收在样品表面上。我们利用Mahotas库计算Zernike矩 每个人都有自己的风格[18]。我们将中值模板对角线长度设置为Zernike半径输入的默认值,这一假设可能会因模板的同质性而失败除了旋转不变性之外,这些矩对平移、镜像和重新缩放不敏感。为了说明每个分子的真实空间足迹的差异,我们还计算了每个轮廓内的长度以及最大像素值有了这些特征矩和物理长度尺度,我们使用Scikit-learn库[21]中可用的算法进行聚类分析。对于这项工作中研究的数据集,我们发现Birch算法[24]的阈值因子在0.1到0.4之间在没有先验知识的情况下对图像进行分类是最有效的, 类别的数量。当分类类别的数量是已知的,层次聚类被发现是更准确的。的J. Hellerstedt,A.卡里克湾Švec等人软件影响12(2022)1003013图二. Ag(111)上的9-叠氮基菲分子使用手工选择的样本被分成6组。 80×80 nm,1024×1024像素。图三. Ag(111)上的9-叠氮基菲分子使用手工选择的样本被分成9组。 50×50 nm,512×512像素。最有效的分选是使用亲和传播(affinity propagation)完成的,其中使用一组手工选择的示例分子来定义簇中心偏好特别是泽尼克矩对镜像对称的不变性,使得它们对区分手性分子不敏感。手性的绝对量化令人惊讶地难以定义[25]。我们开发了一个函数来进行两两比较 每种分类中的分子。通过比较每个分子和它的镜像,它们可以分为右手和左手类别。所有这些图像、轮廓、相关性和分类数据都可以导出/保存以供以后使用。还包括一个使用Matplotlib的交互功能手动分类所有分子的功能。3. 说明性实例来自手工选择的示例性分子的三个示例性数据集的代表性输出示于图1A和1B中。2对9-叠氮菲体系的研究是图1和图2中数据的来源。 2和3提供了最初的动力,以制定这一包[16]。 螺旋烯数据如图所示。4之前已经在文学[5]。这些数据是通过扫描隧道显微镜在低温(105 K)下获得的,像素密度为10 nm −1至13 nm −1。4. 预期影响据我们所知,这是第一次努力创建一个开源计划,以自动化计数和排序数百个分子的任务,专门为扫描探针显微镜数据集量身定制。我们希望这个包(可在github上获得[26];所有图示例数据托管在figshare上[27]),对于任何负责从图像中提取人口统计数据的人来说都是立即有用的。这个工具已经被证明是有用的,它可以很容易地快速提取和可视化图像数据集中的人口统计数据[16]。原则上,这可以逐帧地应用于视频,但预期用途是用于单个静态图像。通过扩展可以从这些类型的数据集中提取的统计数据和定量信息,我们预计这将有助于回答有关化学过程如何在表面上展开的新颖和更微妙的问题。我们希望通过将这组功能应用于更大的扫描探针社区正在探索的日益多样化的表面化学生态系统5. 结论在这里,我们提出了我们的努力,自动计数和排序的分子在地形图像获得的扫描J. Hellerstedt,A.卡里克湾Švec等人软件影响12(2022)1003014见图4。使用手工选择的样本对螺旋烯数据进行分类。二聚体(类别1和4)随后通过手性分类。80×80 nm,1024×1024像素。与Stetsovych等人的图4比较。[5]的第10段。隧道显微镜示例数据集,具有数百个分子的图像,可以在个人计算机上在几秒钟内进行分类。组件的基于python的、开源的、模块化的设计力求让非专家用户能够立即访问,进行重大修改/定制,以满足个人需求。我们希望更广泛的社区的使用和反馈将使该工具继续得到开发,并为促进对表面化学实验的理解提供实用性。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作致谢S. Edalatmanesh和A. Caparrós在开发手性排序问题的解决方案时提供了有用的讨论。 我们感谢Karthäuser博士对这份手稿的批判性阅读。J.H.在制定这一一揽子计划的过程中,争取国际环境研究中心/捷克富布赖特委员会的支持。引用[1]J.V. Barth,金属表面上的分子结构,Ann.Rev.Phys.2005。Chem. 58(1)(2007)375http://dx.doi.org/10.1146/annurev.physchem.56。092503.141259,URLhttp://www.annualreviews.org/doi/abs/10.1146/annurev。physchem.56.092503.141259。[2] P. Jelínek,具有功能化尖端的有机分子的高分辨率SPM成像,物理学杂志:康登斯Matter29 ( 34 ) ( 2017 ) 343002 , http://dx.doi.org/10.1088/1361-648X/aa76c7 , URLhttp://stacks.iop.org/0953-8984/29/i=34/a=343002 ?key=crossref.eee0848de87e9b5c6b61380d39a7cee4.[3] M.C. Capsoni,通过扫描隧道显微镜和光谱法对大分子电荷转移复合物的表面自组装和 表 征 , ( 博 士 学 位 ) 。 thesis ) , University of British Columbia , 2016 ,http://dx.doi.org/10.14288/1.0305019,URLhttps://open.library.ubc.ca/cIRcle/collections/ubcteses/24/items/1.0305019。[4] J. Prinz,O. Gröning,H.布伦河Widmer,小前手性分子在手性金属间化合物上的 高 对 映 选 择 性 吸 附 , Angew 。 Chem. Int. Edn 54 ( 13 ) ( 2015 )3902http://dx.doi.org/10.1002/anie.201410107[5] O. Stetsovych,M. Švec,J. Vacek,J.V. Chocholoušová,A. Jančaík,J. 雷巴切克,K. Kosmider , I.G. 斯 塔 拉 岛 Starleman , From helical to planar chirality by on-surfacechemistry,NatureChem.9(3)(2016)213http://dx.doi.org/http://www.nature.com/doifinder/10.1038/nchem。2662.[6] F.D. Goll,G. Taubmann,U. Ziener,静态扫描隧道显微镜图像揭示了寡吡啶在石墨 上 的 超 分 子 聚 合 的 机 理 , Angew. 国 际 化 学 编 辑 ( 2022 )http://dx.doi.org/10.1002/anie。202117580,URLhttps://onlinelibrary.wiley.com/doi/10.1002/anie.202117580。[7] I. 奥尔卡斯河费尔南德斯,J.M.Gomez-Rodriguez,J.Colchero,J.戈麦斯-埃雷罗A.M. Baro,WSXM:扫描探针显微镜软件和纳米技术工具,Rev. Sci。仪器78(1)(2007)013705,http://dx.doi.org/10。1063/1.2432410,URLhttp://scitation.aip.org/content/aip/journal/rsi/78/1/10。1063/1.2432410。[8] D. 内恰斯山口Klapetek,Gwendedion:SPM数据分析的开源软件百分EUR. J. Phys. 10(1)(2012)181http://dx.doi.org/10.2478/s11534-011-0096-2[9] C.T. Rueden,J.Schindelin,M.C.Hiner,B.E.DeZonia,A.E.沃尔特外星人竞技场,K.W. Eliceiri , ImageJ2 : ImageJ for the next generation of scientific imagedata,BMCBioinformatics18(1)(2017)1-http://dx.doi.org/10.1186/s12859-017-[10] M. 科尼亚, 数字 冲浪, 2020, https://perma.cc/4K5V-JQRE,https://www.digitalsurf.com/news/perform-a-particle-analysis-on-microscopy-images/网站。[11]M. 谢尔贝拉湖 Hörmann,A. Jeindl,V. Obersteiner,O.T. Hofmann,制图金属/有机界面的能量景观通过机器学习,物理学。修订材料2(4)(2018)043803,http://dx.doi.org/10.1103/PhysRevMaterials。http://arxiv.org/abs/1709.05417,https://link.aps.org/doi/10.1103/PhysRevMaterials.2.043803.[12] M. Ziatdinov岛Dyck,A.马克索夫Li,X.Sang,K.肖,R.R.Unocic,R. Vasudevan,S. Jesse,S. V. Kalinin,原子分辨扫描透射电子显微镜图像的深度学习:化学识别和跟踪局部变换,ACS Nano 11(12)(2017)12742//dx.doi.org/10.1021/acsnano.7b07504,URLhttp://pubs.acs.org/doi/10.1021/acsnano.7b07504。[13] J. Li,M.捷列奇科Yin,Y.Zhu,G.Li,S.宋,H.杨,J.Li,J.吴,J.鲁智深道:X.王,分子成像中的机器视觉自动化手性分子检测和分类,J。Am. Chem. Soc. 143(27)(2021)10177//dx.doi.org/10.1021/jacs.1c03091,URLhttps://pubs.acs.org/doi/10.1021/jacs。 1c03091。[14] M. Rashidi,R.A. Wolkow,自主扫描探针显微镜原位针尖通过机器学习调节,ACS Nano(2018)http://dx.doi.org/10。1021/acsnano.8b02208,acsnano.8b02208。[15]A. 克鲁尔山口赫希角Rother,A.希弗林角克鲁尔,军事情报驱动扫描探针显微镜,Commun. 3(1)(2020)54,http://dx.doi。org/10.1038/s42005-020-0317-3, http://www.nature.com/articles/s42005-020-0317-3[16] J. Hellerstedt,A.卡里克岛Stetsovych,M.Švec,T.K.清水,穆托姆博,J. Klívar,I.G.斯塔拉岛星型化合物,芳香族叠氮化物转化通过扫描探针显微镜研 究 Ag ( 111 ) 表 面 , Angew. Chem. Int. Ed. 58 ( 8 ) ( 2019 )2266http://doi.wiley.com/10.1002/anie.201812334http://dx.doi.org/10.1002/anie.201812334[17]A. Khotanzad,Y.H.洪,基于Zernike矩的不变图像识别,Ann。操作员Res. 模式肛门。机器内部IEEE Trans.模式肛门。机器内部J .机器人Res.J . 机 器 人 Res. J . ACM 网 络 I . J . Stoker 12 ( 14 ) ( 1990 )13http://dx.doi.org/10.1109/34.55109[18] L.P. Coelho,Mahotas:用于脚本计算机视觉的开源软件J. Open Res. Softw. 1(1)(2013)e3,http://dx.doi.org/10.5334/jors.ac,URLhttp://openresearchsoftware.metajnl.com/articles/10.5334/jors.ac/。[19] T.E. Oliphant,Python for scientific computing,Comput。 Sci. 工程9(3)(2007)10 http://dx.doi.org/10.1109/MCSE.2007.58 -20,www.example.com,URL http://ieeexplore. ieee.org/document/4160250/网站。[20] S. 范德沃特Schönberger,J.Nunez-Iglesias,F.布洛涅华纳,N. Yager,E. Gouillart,T. Yu,Scikit-image:Python中的图像处理,PeerJ2(2014)e453,http://dx.doi.org/10.7717/peerj.453,URLhttps://peerj.com/articles/453。J. Hellerstedt,A.卡里克湾Švec等人软件影响12(2022)1003015[21]F.佩德雷戈萨湾瓦罗科格拉福,V.米歇尔,B.蒂里翁岛,澳-地格里塞尔,M。作者声明:R.放大图片作者:王伟帕索斯角,澳-地库那波,M。布鲁赫,M。Perrot,E.Duchesnay,Scikit-learn:Python中的机器学习,J。马赫学习. Res. 12(2011)2825[22] J.D. Hunter,Matplotlib:一个2D图形环境,Comput。 Sci. 工程9(3)(2007)90 http://dx.doi.org/10.1109/MCSE.2007.55 -95,www.example.com,URL http://ieeexplore. ieee.org/document/4160265/网站。[23] N.李文,一种基于灰度直方图的阈值选择方法,北京交通大学出版社。9(1)(1979)62http://dx.doi.org/10.1109/TSMC.1979。4310076,URLhttp://ieeexplore.ieee.org/document/4310076/。[24] T.张河,西-地拉马克里希南,M。Livny,BIRCH:An efficient data clusteringmethod for very large databases , ACM SIGMOD Rec.25 ( 2 ) ( 1996 ) 103http://dx.doi.org/10.1145/235968.233324http://portal.acm.org/citation.cfm ?(单位:立方英尺)doid=235968.233324。[25] A.B. Buda,T.A. der Heyde,K. Mislow,关于量化手性,Angew。 Chem. Int.Ed.English 31 ( 8 ) ( 1992 ) 989 http://dx.doi.org/10.1002/anie 。199209891,URL http://doi.wiley.com/10.1002/anie.199209891。[26] J.Hellerstedt,T.Hennen,Counting-molecules,2022,http://dx.doi.org/10.5281/zenodo.6324850.[27] J. Hellerstedt,A. Cahlik,M.斯韦茨岛Stetsovych,T. Hennen,计数分子示例数据集,Figshare,http://dx.doi.org/10.6084/m9.figshare.19217556。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- 京瓷TASKalfa系列维修手册:安全与操作指南
- 小波变换在视频压缩中的应用
- Microsoft OfficeXP详解:WordXP、ExcelXP和PowerPointXP
- 雀巢在线媒介投放策划:门户网站与广告效果分析
- 用友NC-V56供应链功能升级详解(84页)
- 计算机病毒与防御策略探索
- 企业网NAT技术实践:2022年部署互联网出口策略
- 软件测试面试必备:概念、原则与常见问题解析
- 2022年Windows IIS服务器内外网配置详解与Serv-U FTP服务器安装
- 中国联通:企业级ICT转型与创新实践
- C#图形图像编程深入解析:GDI+与多媒体应用
- Xilinx AXI Interconnect v2.1用户指南
- DIY编程电缆全攻略:接口类型与自制指南
- 电脑维护与硬盘数据恢复指南
- 计算机网络技术专业剖析:人才培养与改革
- 量化多因子指数增强策略:微观视角的实证分析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功