没有合适的资源?快使用搜索试试~ 我知道了~
CrystalGAN:使用生成对抗网络Asma Nouira1,Nataliya Sokolovska2,Jean-Claude Crivello11University Paris Est,ICMPE(UMR7182)CNRS,UPEC,F-94320 Thiais,France2巴黎索邦大学营养组学研究小组,法国摘要我们的主要动机是提出一种有效的方法以产生可用于现实世界应用的新型多元素稳定化合物。这个任务可以被表述为一个组合问题,需要人类专家花费许多时间来构建和评估新数据。生成式对抗网络(GAN)等无监督学习方法可以有效地用于生成新数据。跨域生成对抗网络在图像处理中的应用取得了令人振奋的成果。然而,在材料科学领域,需要合成与观测样本相比具有更高阶复杂度的数据,并且最先进的跨域GAN不能直接适应。在 这 篇 论 文 中 , 我 们 提 出 了 一 种 新 的 GAN 称 为CrystalGAN,它产生了新的化学稳定的晶体结构,增加了域的复杂性。我们介绍了一个原始的体系结构,我们提供了相应的损失函数,我们表明,CrystalGAN生成非常合理的数据。我们说明了所提出的方法的效率上的一个真正的原始问题的新的储氢材料的发现,可以进一步用于开发储氢材料。关键词:生成对抗网络,跨域学习,材料科学,高阶复杂性。介绍在现代社会中,由于其有利的成本,各种各样的无机组合物被用于储氢(Crivello等人,2016年)。大量有机分子应用于太阳能电池中,例如有机发光二极管、导体和传感器(Yang et al.2017年)。新的有机和无机化合物的合成是物理、化学和材料科学中的一个新结构设计的目的是在一个大的化学空间中寻找最优解,这实际上是一个组合优化问题。数据挖掘方法在化学和材料科学中的应用数量稳步增加(Seko,Togo和Tanaka,2017)。机器学习和数据挖掘的最新发展有望加速版权归作者所有。以.马丁,K. Hinkelmann,A. Gerber,D.Lenat,F.van Harmelen,P.Clark(Eds.),AAAI 2019春季研讨会将机器学习与知识工程相结合斯坦福大学,帕洛阿尔托,加利福尼亚州,美国,2019年3月25日至27日。材料科学的进步。据报道,机器学习方法,即生成模型,在新数据生成中是有效的(Friedman,Tibshirani和Hastie,2009),现在我们可以使用这两种技术来生成大量的新化合物,并测试所有这些候选化合物的属性。在这项工作中,我们专注于氢存储的应用,特别是,我们挑战的问题,以投资-门新的化学组合物与稳定的晶体。因此,密度泛函理论(DFT)在预测具有稳定晶体的化学相关组合物中起着中心作用(Seko等人,2018年)。然而,DFT计算是计算昂贵的,并且它是不能接受的-能够应用它来测试所有可能的随机生成的结构。提出了许多机器学习方法来促进对新的2018年)。有人试图使用无机晶体结构数据库来寻找新的组合物,并基于组合物的相似性来估计新候选物的概率。产生相关化学组合物的这些方法基于推荐系统(Hu,Koren和Volinsky,2008)。应用于晶体学领域的推荐系统的输出是对结构的评级或偏好。基于机器学习方法和高通量DFT计算的组合的最近方法允许探索三元化合物(Schmidt等人,2018年),并且表明统计方法可以很大程度上帮助识别稳定结构,并且它们比标准方法快得多。最近,测试了支持向量机来预测晶体结构(Oliynyk等人,2017年),表明该方法可以可靠地预测其组成的晶体结构。值得一提的是,要传递给学习器的观察的数据表示是关键的,并且最适合于学习算法的数据表示不一定是科学直观的(Swann等人,2018年)。据报道,深度学习方法可以在所有类型的数据上学习丰富的2014)是用于合成大小数据的最先进的模型。此外,据报道,深度网络可以学习可转移的表示(Ren和Lee,2017)。GAN已经在跨领域学习中取得了成功-→→≈≈图像处理的应用(Zhu等人,2017;Kim等人,2017;Janz等人,2017年)。我们的目标是开发一种有竞争力的方法来识别稳定的三元化合物,即,化合物含有三种不同的元素,从二元化合物的观察如今,还没有任何方法可以直接应用于材料科学的如此重要的任务。最先进的GAN在某种意义上是有限的,因为它们不会在复杂度增加的域中生成样本我们的目标是从只包含两种化学元素的观察中构建具有三种元素的晶体的应用。Almahairi等人最近提出了学习多对多映射的尝试。然而,这种有前途的方法不允许生成更高阶维度的数据。我们的贡献是多方面的:据我们所知,我们是第一个引入GAN来解决发现新晶体结构的科学问题,我们引入了一种原创的方法来产生新的稳定的化学成分;该方法被称为CrystalGAN,它由两个跨领域的GAN模块组成,并结合先验知识进行约束,包括特征转移步骤;所提出的模型产生的数据与观察到的样本增加的复杂性;通过对化学和材料科学的一个实际挑战的数值实验,我们证明了我们的方法与现有方法相比是有竞争力的;所提出的算法在Python中有效地实现,并且很快就会公开。本文的组织结构如下。首先,我们讨论相关的工作。 其次,我 们提供 了问题的 形式化 ,并介 绍了CrystalGAN。我们的数值实验的结果显示在实验部分。结束语和观点结束了本文。相关工作我们的贡献是密切相关的无监督学习和跨域学习的问题,因为我们的目标是合成新的数据,新的样本应该属于一个不可观测的域与增加的复杂性。在对抗网络框架中,深度生成模型与对手竞争,这是一种区分模型学习,以确定观察结果是来自模型分布还是来自数据分布(Goodfellow,2016)。一个经典的GAN由两个模型组成,一个生成器G,其目标是合成数据和一个CNOSD,其目的是区分真实和生成的数据。生成器和训练器是同时训练的,训练问题被表示为 一 个 两 人 极 大 极 小 对 策 。 Ar-jovsky , Chintala 和Bottou ( 2017 ) 提 出 了 许 多 改 进 GAN 训 练 的 技术;Gulrajaniet al. (2017);Salimans et al. (2016年)。跨域关系学习是图像处理领域的一个活跃的研究方向。最近的几篇论文(Zhu等人,2017;Kim等人,2017;Almahairi等人,2018)讨论了一个想法,捕捉一个图像的一些特定特征,并将它们转换为另一个图像。这个问题被形式化为图像到图像的翻译,并且存在多种应用,例如,将灰度图像转换为彩色图像,或者将图像从给定场景的一种表示转换为另一种表示。Zhu et al.(2017);Kim et al.(2017)的最先进方法基于翻译必须是周期一致的性质。如果一个翻译G:AB被使用,则存在另一个反式-放大器F:B所以G和F互为逆,映射是双射的映射G和F是在循环一致性假设下同时训练,这鼓励F(G(x))x和G(F(x′))x′。目标函数包括域A和域B上的对抗性损失和循环一致性损失。Isola等人(2017)考虑了用于图像到图像转换的条件GAN。条件模型的一个优点是它允许将底层结构集成到模型中。条件GAN也用于多模型任务(Mirza和Osindero,2014)。在(Yazdani,2017)中提出了将观测数据结合起来产生新数据的想法,例如,艺术家可以混合现有的音乐片段以创建新的音乐片段。Ren和Lee(2017)介绍了一种学习高级语义特征并为多个任务训练模型的方法。特别是,有人建议训练一个模型来共同学习几个互补的任务。该方法有望克服 过 拟 合 到 单 个 任 务 的 问 题 。 Durugkar, Gemp和Mahadevan(2017)讨论了引入多个鉴别器的想法,这些鉴别器的作用从强大的对手到宽容的老师不等。几个GAN被改编成一些材料科学和化学应用。因此,在考虑到一些期望的特性的情况下执行碳链序列的分子生成的增强型GAN被引入(Sanchez-Lengeling等人,2017),并且该方法被证明对于药物发现是有效的。另一种途径是整合基于规则的知识,例如,分子描述符和深度学习。Chem-Net(Goh等人,2017)是一个深度神经网络,它使用从先验知识中获得的化学相关表示进行预训练。该模型可用于预测新的化学性质。然而,正如我们之前已经提到的,这些方法都不会产生复杂度增加的晶体数据。CrystalGAN:一种制备稳定三元化合物在本节中,我们将介绍我们的方法。CrystalGAN由三个程序组成:1. 第一步GAN,其与跨域GAN密切相关,并且在域混合的情况下生成伪二进制·····NAH我 i=1我 i=1AH:第一个域,H是氢,A是金属BH:第二域,H是氢,B是另一种金属GAHB1:将输入要素xAH从(域)AH转换为BHGBHA1:将输入要素xBH从(域)BH转换为AHDAH和DB H:A-H域和B-H域的判别函数AHB1:xAHB1是由生成器函数GA HB1生成的样本BHA1:yBHA1是由生成函数GB HA1产生的样本AHBA1和BHAB 1:两次发生器转换AHBg和BHAg:在从域AH到域BH的特征转移步骤之后获得的数据,和从结构域BH到结构域AH,CrystalGAN第二步的输入数据GAHB2:GBHA2:DAHB和DB HA:AHB2:BHA2:AHBA2和BHAB 2:AHB2和BHA 2:转换xAHBg的生成器函数在第一步中生成的特征从AHBg到AHB2生成器函数转换yBHAg从BHAg到BHA2的分别给出了区域AHBg和区域BHAg的函数,xAHB2是由生成器函数GAHB2yBHA2产生的样本是由生成器函数GBHA2产生的样本作为两个生成器平移的最终新数据(由人类专家探索)表1:CrystalGAN中使用的符号。2. 特征转移过程从上一步生成的样本中构造高阶复杂度数据,并且其中来自所有域的分量被很好地分离。3. 第二步GAN在几何约束下合成了新的三元稳定化学结构。首先,我们描述了一个跨域GAN,然后,我们提供了建 议 CrystalGAN 的 所 有 细 节 我 们 在表1中提 供 了CrystalGAN使用的所有符号。第一步和第二步的GAN架构如图1所示。一种跨域GAN:问题形式化DiscoGAN(Kim等人,2017)和CycleGAN(Zhu等人,2017)提出了一个有前途的修改相比,经典的GAN:该模型不采取噪音,但从另一个域的样本,从而导致跨域学习。我们考虑一个函数GABZ,它将域A和B中的元素映射到域Z上,域Z包含了共域A和B。在无监督学习场景中,GABZ可以任意定义,然而,要将其应用于现实世界的应用,必须定义好兴趣关系的一些条件在理想主义的背景下,跨域GAN被证明可以有效地从未配对的样本中发现两个不同域之间的关系,而无需任何显式标签,并找到从一个域到另一个域的映射。然而,DiscoGAN或CycleGAN都不能生成复杂性增加的数据复杂性增强的应用问题公式化我们现在提出一个新的架构,基于跨域的GAN算法与约束学习发现更高阶复杂的晶体学系统。我们引入了一个GAN模型来寻找不同晶体结构域之间的关系,并产生新的材料。为了使本文更容易理解,而又不失一般性,我们将介绍我们的方法,提供一个生 成“A(a金属)- H(氢)- B(a金属)"形式的三元氢化物化合物的训练算法观察稳定的二元化合物,其包含化学元素A+H,其是某种金属A和氢H的组合物,以及B+H,是另一种金属B与氢的混合物。所以,机器学习算法可以访问观察结果{(xAH)}和{(yBH)}。我们的目标是GABZ ◦ GZAB (xA),xB)=(xA,xB(1)新的三元,即 更复杂、稳定的数据x AHB(或yBHA)基于从观察到的满意了然而,该约束是硬约束,优化它不是简单的,并且优选放松的软约束。作为软约束,我们可以考虑距离d(GABZ<$GZAB(xA,xB),(xA,xB)),(2)并使用诸如L1或L2的度量函数来最小化它。−ExA,xB<$PA,B [logDZ(GABZ)(x A,xB)]。(三)二元结构我们描述的CrystalGAN的架构图- ure1。CrystalGAN的步骤我们的方法包括两个连续的步骤与之间的特征转移过程。第一步CrystalGAN的第一步是生成复杂度更高的对抗性网络◦◦LLLLL−L−我Li=1我 i=1以{(xAH)}NAH和{(yBH)}NBH为原料,x AHB1 =GAHB1(xAH),(4)xAHBA1=GBHA1(xAHB1)= GBHA1 GAHB1(xAH)。(五)和yBHA1=GBHA1(yBH),(6)yBHAB1 = GAHB1(yBHA1)= GAHB1GBHA1(yBH)。(七)(a) CrystalGAN的第一步图1a总结了CrystalGAN的第一步。重建损失函数采用以下形式:RAH=d(xAHBA1,xAH)=d(GBHA1GAHB1(xAH),xAH),(八)RBH=d(yBHAB1,yBH)=d(GAHB1GBHA1(yBH),yBH).(九)理想情况下, RAH=0, RBH=0 ,且xAHBA1=xAH ,yBHAB1=yBH ,并且我们最小化距离d(xAHBA1,xAH)和d(yBHAB1,yBH)。第一步CrystalGAN的目标是控制原始观测结果尽可能准确地重建:GANBH=ExAHPAH[log(DBH(GAHB1(xAH)],(十)和GANAH=EyBHPBH[log(DAH(GBHA1(yBH)))]。(十一)生成损失函数包含上面定义的两项:(b) CrystalGAN的第二步图1:CrystalGAN架构。图2:使用占位符对xAH和yBH进行编码LGAHB1=LGANBH+LRAH,(12)LGBHA1=LGANAH+ LRBH。(十三)判别损失函数旨在区分来自AH和BH的样本:LDBH=−EyBH<$PBH[log(DBH(yBH))](14)— ExAH<$PAH[log(1−DBH(GAHB1(xAH)],LDAH=−ExAH<$PAH[log(DAH(xAH))](15)— E yBH<$PBH[log(1−DAH(GBHA1(yBH)].现在,我们有了定义第一步的完整生成损失函数的所有元素:LG1 =LGAHB1+LGB HA1(16)=λ1LGANBH+λ2LRAH+λ3LGANAH+λ4LRBH,其中λ1、λ2、λ3和λ4是控制相应项之间的比率的实值超参数,并且超参数将通过交叉验证来固定该步骤D1的全损耗函数定义如下:LD1=LDAH+ LDBH。(十七)◦◦s∈S22GG特征转移第一步生成伪二进制样本MH,其中M是新发现的域合并A和B属性。虽然这些结果可以为人类专家所理解,但第一步生成的样本并不容易解释,因为域A和B在这些样本中完全混合,以推断来自这些域的两个独立元素的特征。因此,我们需要第二步,从两个给定的域生成更高阶复杂度我们转移A和B元素的属性,这个过程也是xAHBA2=GBHA2(xAHB2)= GBHA2 GAHB2(xAHBg)。(二十二)和yBHA2=GBHA 2(yBHAg),(23)yBHAB2 = GAHB2(yBHA2)= GAHB2GBHA2(yBHAg)。(二十四)给出了重建损失函数LRAHB=d(xAHBA2,xAHBg)(25)如图1a所示,为了构建一个新的数据集,=d(GBHA<$GAHB(xAHB),xAHB),塔尔甘。为了准备数据集以生成更高阶的LRBHA=d(yBHAB2,yBHAg)(26)复杂度样本,我们添加一个占位符。(E.g.、对于域AH,第四矩阵为空,对于域BH,第三矩阵为空。)这个实现细节如图2所示。CrystalGAN的第二步第二步GAN将由第一步GAN生成并由特征转移过程修改的数据作为输入。第二步的结果是描述从化学观点来看应该是稳定的三元化学化合物几何约束控制生成数据的质量。晶体结构完全由局部分布来描述.该分布由到给定晶体结构中每个原子的所有最近邻的距离确定我们使用以下几何约束来执行第二步GAN,这些几何约束满足我们的科学领域应用的几何条件。图1b中也显示了实施的约束。设S={si}m是第一近邻的距离集i=1=d(GAHB2 <$GBHA2(yBHAg),yBHAg).生成对抗损失函数由下式给出LGANBHAg=−ExAHBg<$PAHBg[log(DBHA(GAHB2(xAHBg)],(二十七)LGA NAHBg= −EyBHAg<$PBHAg[log g(DAHB(GBHA2(yBHAg)]。(二十八)该步骤的生成损失函数定义如下:LGAHB2=LGANBHAg +LRAHB,(29)LGBHA2 =LGANAHBg +LRBHA.(三十)第二步的损失可以定义为:LDBHA=−EyBHAg<$PBHAg[log(DBHA(yBHAg))](31)−ExAHBg<$PAHBg[log(1−DBHA(GAHB2(xAHBg)],晶体结构中所有原子的硼有在生成新数据时要考虑两个几何约束第一几何(geo)约束定义如下:2LDAHB =−ExAHBg<$PAHBg[log(DAHB(xAHBg))](32)− E yBHAg<$PBHAg[lo g(1−DAHB(GBHA2(yBHAg)].现在,我们有了定义完整生成损失函数的所有元素:Lgeo1=f(d1,s1,...,sm)=mind1−s2,(18)LG2 =LG AHB2 +LG BHA2 +Lgeo(33)其中d1是给定晶体结构中两个第一最近邻之间的最小距离第二个几何约束采用以下形式:=λ1LGANBHAg+λ2LRAHB+λ3LGANAHBg+λ4LRBHA+λ5Lgeo1+λ6Lgeo 2,其中λ1、λ2、λ3、λ4、λ5和λ6是控制项的影响的Lgeo =f(d2,s1,.,sm)=−mind2−s2,(19)第二步的全判别损失函数2s∈SLD2 采用以下形式:其中d2是两个第一最近邻之间的最大距离对第二步GAN的损失函数进行了扩充LD2=LDAHB +LDBHA.(三十四)总之,在第二步中,我们使用来自特征转移的数据集作为包含两个do的输入通过以下几何约束:Lgeo=Lgeo1+ Lgeo2。(20)从前一步骤中得到xAHBg和yBHAg,我们得到:评价:将被用作Crys第二步的训练集-2xAHB2=GAHB 2(xAHBg),(21)电源xAHBg和yBHAg。我们训练跨域GAN考虑到晶体学环境的约束。我们整合了晶体学和材料科学专家提出的环境 限制,并 提高合 成稳定的 三元化 合物的 速率Crystal- GAN的第二步绘制在图1b上。AHB1R××−- -- -AHBHGAN架构发电机网络定义为GAHB:Rl×m,Rl×m→其中AH、BH是输入域,AHB1是输出域,l和m是输入的维数,k和m是输出样本的维数。的 鉴别器 网络 是 表示 作为 DAH:K MAHB1 →[0,1],在定义域中判别样本AHB1. 每个生成器获取大小为l m的观测值,并将其传递给编码器-解码器对。 注意,GBHA1、GAHB2、GBHA2、DBH、DAHB和DBHA的定义类似。编码器和解码器由全-连接层。层的数量范围从5到10取决于域。这个函数还有一个额外的层,一个sigmoid函数,用来输出一个预测的标签。实验任务描述:探索新型氢化物氢化物是将氢原子与其他化学元素结合在一起的化合物,被积极地用于蓄电池技术,如镍-金属氢化物电池。已经探索了许多电池作为燃料电池驱动的电动汽车的氢存储手段。晶体结构可以使用POSCAR文件表示,POSCAR文件是VASP代码下DFT计算的输入文件(Kresse和Joubert,1999)。 这些是坐标文件,它们包含晶格几何形状和原子位置,以及晶体晶胞中原子的数量(或组成)和性质。我 们 使 用 从 ( Bourgeoiset al. , 2017 年 ;Villars 和Cenzual,2017年)。我们的训练数据集包含POSCAR文件,并且所提出的CrystalGAN 也生成POSCAR文件。这样的文件包含三个矩阵:第一个是abc矩阵,对应于定义系统的晶胞的三个晶格矢量,第二个矩阵包含H原子的原子位置,第三个矩阵包含金属原子A(或B)的坐标。文件中的信息被输入到四维张量中。POSCAR文件的示例及其对应的GAN表示如图3所示。在图4中,我们显示了图 3 : 描 述 钯 和 氢 组 成 的 POSCAR 文 件 示 例 以 及CrystalGAN中的数据表示。观察原型。以下是此任务的简要数据描述输入数据集尺寸PDH[35、4、18、 3]NIH[35、4、18、 3]其中18和3分别是每个矩阵中的最大行数和列数。在CrystalGAN中,我们需要为每个生成的POSCAR文件计算最近邻居的所有距离。在给定的晶体结构中,氢原子H之间的距离应遵循某些几何规则,原子AB、AA我们应用了上一节介绍的相邻原子(晶体结构中的每个原子)之间注意,距离AH和BH不受约束的惩罚。实现细节为了计算生成的数据中所有最近邻之间的距离,我们使用了Python库Py matgen(Onget al.,2012)专门为材料分析而开发。对于本文中的所有实验,距离都是由我们在晶体学和材料科学3D. 请注意,我们通过以下特征增加了数据复杂性:d1=1。8A(埃,10−10米)和d2=3A。We通过添加占位符转移过程。我 们 的 训 练 数 据 集 包 括 1 , 416 个 二 元 向 量 的POSCAR文件,分为63个类,其中每个类表示为4维张量。每一类二元氢化物都含有两种元素:氢H和元素周期表中的另一种元素M这是从图7中突出显示的63个M元素(黄色)中选择的。在实验中,我们与材料科学工作者讨论后,从“钯-氢”二元体系的观察出发,着重探索了“钯-氢-镍”三元体系的“镍氢”所以,AH= PdH,BH= NiH。我们还考虑了另一个任务,以产生三元化合物从每个系统(域)中,我们选择了35个晶体结构(稳定和亚稳),其中包括实验,通过交叉验证设置所有超参数,然而,我们发现当所有λi具有相似的值并且非常接近1时,可以达到合理的性能。 我们使用标准的 AdamOptimizer,学习率α =0。0001,β1= 0。五、epoch的数量设置为1000(我们验证了函数收敛)。最小批量大小等于35。CrystalGAN架构的每个块(生成器和判别器)是一个具有5个隐藏层的多层神经网络。每层包含100个单元。我们使用整流线性单元(ReLU)作为神经网络的激活函数。所有这些参数通过交叉验证固定(对于两个选择的域我们的代码是用Python(TensorFlow)实现的。我们使用GPU与NVIDIA Quadro M5000图形卡进行实验1组合物GAN(标准)DiscoGANCrystalGAN没有约束CrystalGAN使用几何约束钯镍氢0049镁钛氢0028表2:通过测试方法产生的良好质量的三元组合物的数量图4:稳定结构的可视化。结果在我们的数值实验中,我们将提出的CrystalGAN与经典的GAN,DiscoGANKim etal.(2017)和CrystalGAN进行了比较,但没有几何约束。所有这些GAN生成POSCAR文件,我们通过生成的满足几何晶体学环境的三元结构的数量来评估模型的性能。表2显示了所考虑方法的成功次数。经典的GAN以高斯噪声作为输入,不能产生可接受的化学结构。DiscoGAN方法在生成新的伪二元结构时表现良好,但不适用于合成三元结构。我们观察到,水晶GAN(几何约束)优于所有测试的方法。图5示出了新生成的三元(H-Pd-Ni)稳定结构的特征:在左侧,我们示出了晶体学结构中最近邻之间的距离,并且在右侧,我们可视化生成的POSCAR文件。我们要强调的是,生成的结构尊重几何约束。讨论在这里,我们提供了一些重要的意见,在这方面的贡献考虑的任务。发现稳定的化学结构,特别是新的储氢材料,是一项具有挑战性的任务。从与材料科学和化学专家的多次讨论中,首先,我们知道新的稳定化合物的数量不可能很高,如果我们合成几个满足约束条件的稳定结构,就已经被认为是成功的因此,我们不能真正从机器学习和数据挖掘中广泛使用的准确率或错误率方面进行第二,对一个稳定结构的评价并不是直截了当的.对于一个新的组成,只有密度泛函理论(DFT)计算的结果才能给出这个组成是否足够稳定,以及它是否能应用于实际的结论。然而,DFT计算在计算上过于昂贵,并且在我们使用CrystalGAN生成的所有数据上运行它们是毫无疑问的在我们的工作中,为了避免DFT计算,我们隐含了由人类经验提出的几何约束来控制生成的化合物的性质,例如Switendick准则(Switendick,1979)。 计划对一些预先选择的生成的三元组合物进行DFT计算,以最终决定化合物的实际效用。所产生的晶体结构的评估也可以通过实验室实验来完成,基于原子之间的距离探索组合物的几何性质例如,图4示出了立方NaCl原型中的稳定结构。合成数据的另一种表示是在给定距离处的最近邻的数量的直方图,其形成对分布函数(PDF)。图6显示了稳定结构的PDF曲线,其中原子之间的最小距离为对于6个第一最近邻,dmin(A,H)=2A(埃)(在本例中,立方晶胞参数为4A)。结论我们的目标是发展一种原则性的方法,从观察到的二元(即只含有两种化学元素)中产生新的三元稳定晶体结构。我们提出了一种名为CrystalGAN的学习方法来发现真实数据中的跨域关系,并生成新的结构。所提出的方法可以有效地集成,在形式的约束,先验知识提供的人类专家。CrystalGAN是第一个为生成材料科学领域的科学数据而开发的GAN据我们所知,它也是第一种生成更高阶复杂度的数据的方法三元结构,其中域与观察到的二元化合物很好地分离。特别是,CrystalGAN成功地进行了测试,以应对发现储氢新材料的挑战。目前,我们研究了不同的GAN架构,还包括强化学习的元素,以产生更高复杂度的数据,例如,含有四种或五种化学元素的化合物请注意,尽管CrystalGAN是为材料科学中的应用而开发和测试的,但它是一种通用方法,其中的约束可以很容易地适应任何科学问题。HH一一一HH一图5:最近邻居列表(左侧);相应生成的POSCAR文件(右侧)。啊302520图7:我们的数据集中包含的元素被高亮显示.105致谢这项工作得到了法国国家研究机构(ANRJCJCDiagnoLearn)的支持。最近邻距离图6:结构中每个原子在给定距离处的最近邻数。引用Almahairi,A.;Rajeshwar,S.;Sordoni,A.;Bachman,P.;和Courville,A. 2018.增强的cycleGAN:从未配对的数据中学习多对多映射。在ICML。Arjovsky,M.;Chintala,S.;和Bottou,L.2017年。沃瑟斯坦河arXiv:1701.07875。Bourgeois,N.;Crivello,J.C.的; Cenedese,P.;和Joubert,J.2.02.82843.46414.04.47214.8995.6569156.00M. 2017年。二元金属离子的系统第一性原理研究ACS Combinatorial Science19(8):513-523.Butler,K.T.; 戴维斯,D.W的; Cartwright,H.;Isayev,O.;和Walsh,A. 2018.分子和材料科学的机器学习。第559章意外Crivello,J.C.的; Dam,B.;丹尼斯河五、Dornheim,M.;格兰特D. M.; Huot , J.; Jensen , T. 的 R.; de Jongh , P.;Latroche,M.; Milanese,C.;Milcius,D.;沃克,G.S.的; 韦伯角J.道:Zlotea,C.;和Yartys,V.A. 2016年。镁镁合金基材料的发展与优化。应用物理A.Durugkar,I.;Gemp,I.;和Mahadevan,S.2017年。生成多对抗网络。国际学习表征会议(ICLR)Friedman,J.H.; Tibshirani,R.;和Hastie,T. 2009. 统计学习的要素。斯普林格。哥 B. 人 ; Siegel , C.; Vishnu , A.; 和 Hodas , N. 2017.ChemNet:一个用于小分子性质预测的可转移和可推广的深度神经网络。NIPS分子和材料机器学习研讨会。古德费洛岛J.道:Pouget-Abadie,J.; Mirza,M.;徐,B.;Warde-Farley,D.;Ozair,S.;Courville,A.;还有本吉奥Y. 2014.生成对抗网络。神经信息处理系统进展27(NIPS)。古德费洛岛2016. NIPS 2016年主题:生成式广告网络。arxiv:1701.00160。Gulrajani,I.; Ahmed,F.; Arjovsky,M.; Dumoulin,V.;和Courville,A. 2017.改进Wasserstein GAN的训练。神经信息处理系统进展30(NIPS)。胡,Y.; Koren,Y.;和Volinsky,C. 2008.隐式反馈数据集的协同过滤。在ICDM。Isola,P.;朱,J. - Y的;周,T.;和Efros,A. A. 2017.使用条件对抗网络的图像到图像翻译在计算机视觉和模式识别(CVPR),2017年IEEE会议上。Janz,D.; van der Westhuizen,J.; Paige,B.; Kusner,M.J.道:和Hern a'nel-Lobato,J. M. 2017年。在复杂离散结构中学习基因相对模型的有效性NIPS分子和材料。Kim,T.;Cha,M.;金,H.;Lee,J.K.的; Kim,J. 2017.学习发现跨域关系与生成对抗网络。第34届机器学习国际会议论文集。Kresse,G.,Joubert,D. 1999.从超软赝势到投影增强波方法。物理评论B。米尔扎,M.,和Osindero,S. 2014.条件生成对抗网。arXiv:1411.1784。Oliynyk , A. 的 O.; 阿 杜 图 姆 湖 一 、 鲁 迪 克 湾 W 的 ;Pisavadia, H.;Lotfi ,S.;Hlukhyy ,V.;Harynuk , J.J.道:Mar,A.;和Brgoch,J. 2017.通过机器学习解开结构混乱:等原子三元相的结构预测和多态性。美国化学会.翁,S。P的; Richards,W.D.的; Jain,A.;Hautier,G.;科赫尔,M.; Cholia,S.;Gunter,D.;谢夫里耶河谷L.的; K.W.一 、 和 Ceder , G. 2012. Python Materials Genomics(py- matgen):一个用于材料分析的强大的开源Python库计算材料科学68(2013)314Ren,Z.,(1986 - 1990),美国,和Lee,Y. J. 2017.使用合成影像的跨领域自我监督多任务特征学习ArXiv预印本arXiv:1711.09082。Salimans,T.;古德费洛岛扎伦巴,W.;Cheung,V.;Rad-ford,A.;和Chen,X. 2016.用于训练GAN的改进技术。神经信息处理系统进展29(NIPS)。Sanchez-Lengeling,B.; Outeiral,C.;吉马良斯湾 L.的;和Aspuru-Guzik,A. 2017.优化分子空间的分布。一个用于逆向设计化学(ORGANIC)的增强型遗传对抗网络。预印本:chemrxiv:5309668。Schmidt,J.;陈,L.;Botti,S.;和Marques,M.A. L. 2018年用密度泛函理论和机器学习预测三元金属间化合物的稳定性Journal of Chemical Physics 148,241728(2018).Seko,A.; Hayashi,H.; Kashima,H.;和Tanaka,I. 2018.基于矩阵和张量的推荐系统,用于发现目前未知的无机化合物。物理修订材料2,013805。Seko,A.;多哥,A.;和Tanaka,I. 2017.材料数据的机器学习描述符。arXiv:1709.01666。Swann,E.;孙,B.; Cleland,D. M.;和Barnard,A. 2018.为无监督机器学习提供分子和材料数据。分子模拟。Switendick,A. 1979.金属氢体系的能带结构计算。Z.Phys.Chem NF117:89.Villars,P.,和Cenzual,K.,eds. 2017. Pearson’s Crys-tal Data Crystal Structure Database for Inorganic Com-poundsASM International.杨,X.;张,J.;Yoshizoe,K.;Terayama,K.;津田,K. 2017. ChemTS:一个用于从头分子生成的高效Python库。材料信息学通讯。Yazdani,M. 2017. RemixNet:用于混合多个输入的生成对抗网络。语义计算(ICSC)。朱,J. - Y的;帕克,T.; Isola,P.;和Efros,A. A. 2017.使用循环一致对抗网络的不成对图像到图像翻译。在计算机视觉(ICCV),2017年IEEE国际会议上。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功