没有合适的资源?快使用搜索试试~ 我知道了~
为获得学位而提交的论文医生来自博士学院社会、政治、公共卫生专业公共卫生、生物统计学[美]佩琳·奥雷特著惩罚性Lasso回归用于应用于通过定量限校正的HIV病毒载量和微生物群组成数据支持于28/11/2019评审团CHIQUET Julien DR INRA,法国巴黎萨克雷大学报告员FLANDRE Philippe CR INSERM,皮埃尔·路易流行病学和公共卫生研究所报告员Meza Cristian智利瓦尔帕莱索大学教授RONDEAU Virginie INSERM博士,波尔多大学,法国考官DELHAES Laurence PU-PH,法国波尔多大学受邀者THIÉBAUT Rodolphe PU-PH,法国波尔多大学团队负责人AVALOS Marta MCU,法国波尔多大学博士生导师23前言我为论文设想的第一个标题是Lasso,用于因此,这篇论文是蒙彼利埃大学生物统计学硕士2实习的延续,我在Marta Avalos的指导下在SISTM团队中进行了实习,在此期间,我对纵向数据的统计学习方法的适应性进行了评估在横断面研究的情况下,我们首先解决了在HIV数据中发现的一个问题:由于检测限而进行的大规模审查。这项研究是与Linda Wittkop合作进行的,Linda然而,这一部分占据了我论文的前两年,从而危及了与Lasso方法适应纵向数据相关的方法学发展然后考虑了一个重新定位:将开发的专业知识投资于将生物数据的惩罚性回归应用于具有特定结构的数据,即微生物组数据这项工作是与Laurence Delheas的团队合作完成的,特别是与Louise Eva Vandenborght合作2017年,我在澳大利亚堪培拉的Data61团队工作了3个月,在那里我加入了我的移动性博士生导师与Cheng Soon Ong就这一主题进行的交流是有益的,并开辟了新的研究途径这些途径是在我的论文之外发展起来的。在整个论文过程中遇到的一个困难是关于研究的书面恢复,无论是写文章还是论文除此之外,还有对于4前言:即将发表在《科学报告》上的关于囊性纤维化恶化的研究已经被三家期刊拒绝。L’utilisation de méthodes prove- 这些障碍2018年6月,从技术上讲,这我目前的任务包括以科学文章和会议论文的形式介绍我们的研究成果论文年也是一个机会,投资于J’ai ainsi encadré un stage de M1 et co-encadré unstage 此外,作为我行政职责5谢谢你J’adresse 朱利安·奇凯和M.菲利普·弗兰德斯,他让我感谢您花时间审阅以及您丰富的评论。我还要感谢Virginie Rondeau担任评审团主席,感谢Cristian Meza担任本论文的评审员非常感谢Laurence Delhaes对我的信任。很高兴与您一起工作,感谢您接受我的邀请加入评审团。我也要感谢Rodolphe允许我在SISTM团队中完成这篇您的建议和不懈的支持对本论文的实施和成功做出了很大贡献我特别感谢我的论文导师Marta Avalos,感谢她在整个论文过程中给予我的信任、鼓励和批评性意见你的可用性和你的宝贵帮助使这项工作得以进行。如果没有一定数量的合作,这篇论文就首先,我要感谢我感谢Linda Wittkop我还要感谢Hélène Jacqmin-Gadda我还要感谢Louise-Eva和Florence的合作,这篇关于微生物群的文章非常漂亮还要感谢Cheng Soon Ong让我能够在世界上最美丽的国家之一澳大利亚实现流动性 我要感谢波尔多大学,感谢他们,我获得了Idex卓越流动奖学金和Zellidja奖学金,使我能够进行这次美丽的我感谢Christtified Webers的帮助和知识分享。这次旅行我非常感谢Florent Arnal和谢谢你。6m’avoir 特别要提到我最喜欢的"针织成瘾者"罗宾。很高兴能和你一起你的热情和激情是灵感的源泉。尤其是不要改变。我今天也成了一个"编织成瘾者"我也要感谢Maeva和Hao信任我来指导他们的我还要感谢EDSP2博士学校,感谢他们的资助,使我能够进行这篇我还要感谢参与博士生协会的博士生,以及EDSP2和Ghyslaine的负责人非常感谢整个SISTM团队和生物统计团队,感谢他们带来的L’isped 首先,我想感谢Anais和MatMat在我进入M2阶段时欢迎我加入青年组。你的生活乐趣是呼吸新鲜空气。我还要感谢Boris在整个论文过程中提供的建议感谢45号办公室的人"英国星期四"对我很有... ... 或不。但我的论文许多段落,但我想感谢哈德良,布鲁诺,劳拉,艾琳,索莱娜,查里夫,让-诺埃尔和其他人但最重要的是,非常感谢我最喜欢的Ziiiitteuuurr, Loic和亨利。你我想念你从下午4点开始的笑声,这让. .非常感谢我的共同办公室Chloe,没有她,我就不会有今天你一直是我的支柱,你没有也非常感谢Alex,他除了在办公室支持我之外,还在公寓里支持我感谢您在论文最后一年的支持。谢谢你,艾米莉,谢谢你的慷慨和你一直以来的存在,现在也是。感谢整个M组...对于这些饭菜,开胃酒,小吃,卡拉OK,品酒等等。但最重要的是,感谢你反复的笑声和分享的时刻,这将永远铭刻在我的记忆。我还要感谢Isped的所有其他博士生/工程师,我与他们分享了从远处到近距离的时刻今天首先是谢谢你的帮助,你的精力和决心。 谢谢你,Chmitass,即使在走廊的另一边也能让我笑谢谢你利维。7谢谢你。当我们需要你的时候,你总是在那里(即使是在减速的时候谢谢你Michou感谢Laura、Christine和Sandrine欢迎我加入BMK团队并对我充满信心,感谢我所有的施维雅新非常感谢我的图卢兹人Mathou和Fatou !谢谢你支持我将近10年了,这一切感谢您的支持、鼓励和一切你的幻想使你独一无二。非常感谢我一生的朋友,我的鳕鱼:Juju,Vivi和Anais谢谢你让我一进入停车场就有空。谢谢你,即使谢谢你,这些疯狂的笑声,这些咆哮,这些只有我们才能理解的哲学讨论,这些开胃酒,谢谢感谢其他来自开普敦的朋友,雷诺,劳里,萨利姆,基库,露露,法拉,莱娅,库德克,艾玛,雅尼克,艾丽西娅,卢多,我可能忘记了这些美好的夜晚在我也要感谢Djila在我可能不再住在那里,但我的心将永远留在西班牙圣尤拉利。首先,我要感谢节日委员会的所有成员,在过去的两年里,我一直是该委员会的共同主席,特别是菲卢、豆豆和马农。 但最重要的是,我要感谢我的联合主席鲍里斯,他首先是我的朋友。谢谢最后,我要感谢我的家人,他们是我最大的支持者。谢谢你在我需要的时候扮演姐姐的角色谢谢我的男朋友让我不用担心我妹妹的幸福感谢我的哥哥Nanou和我的两个侄子,Mathis和Maël,当我需要充电的时候,他们庇护我,欢迎感谢马努在整个学习过程中对我的鼓励感谢我的祖父照顾西班牙苔藓我会以我的父母结束。没有你我不可能做到这一点。谢谢你感谢您从那时起的大力支持。我谢谢你。89目录1导言131.1大维度生物医学数据131.2临床目标和方法学挑战151.2.1考虑大数据的审查:应用于预测HIV病毒载量的基线HIV突变151.2.2微生物群数据分析:理解囊性纤维化的严重程度181.3论文结构212惩罚性回归232.1评级232.2型号242.3山脊24号2.4套索252.5Bridge26回归2.6弹性网272.7自适应套索272.8博拉萨282.9GroupLasso282.10 稀疏组套索302.11 扩展到3对于通过定量限审查的数据,惩罚性Lasso回归333.1导言333.1.1通过检测333.1.2艾滋病毒的背景343.1.3基因型突变研究中的定量限353.1.4对艾滋病毒相关研究论坛数据的应用363.2文章:左截尾高斯结果和高维预测因子3.3结论51谢谢你。104微生物群数据分析:最新技术水平4.1导言534.2现有数据和信息的提取544.3治疗前564.4分析微生物群数据的最新技术水平4.4.1注释584.4.2多样性分析584.4.2.1多样性α594.4.2.2多样性β614.4.3相关性分析644.4.3.1成分数据644.4.3.2零的管理674.4.3.3大尺寸情况下的相关性分析684.4.4鉴别丰度分析4.4.4.1全球丰度差异4.4.4.2差异丰富的OTU754.4.4.3协方差分析794.4.4.4OTU81中的预测方法5囊性纤维化患者呼吸道微生物群数据分析(MucoFong队列)895.1MucoFong89队列5.2MucoFong 92队列的分析方案5.3MucoFong队列数据分析的模拟研究........................................................................5.3.1.1模拟研究的比较方法5.3.1.2正则化参数的选择和比较准则975.3.1.3结果和讨论985.4结论1316一般结论133参考书目136材料表与论文15312材料表131简介1.1大规模近年来,科学、技术和信息技术的进步大大提高了测量、存储和处理数据的特别是,医学和生物学领域已经成为数据的主要生产者[Marx,2013; Thiébaut et al. (2014年;穆尼和佩贾弗,2018年)。例如,测序技术的发展和成本的降低加速了医学研究。直到10年前qPCR(定量聚合酶链反应)分析,其中原理是从少量扩增已知靶的脱氧核糖核酸(DNA)或核糖核酸(RNA),已经提高了对微生物的认识[ MacDougall等人,2000]。2018年]。但直到在培养物中,逐个探索细菌的存在如果无法获得指导探索的信息另一方面,可以从测序数据中提取所研究环境的总体组成,而无需对细菌有 因此,对于给定的环境,可以检测到多达几百个物种。 这些新技术使得开发新的策略来回答诸如"微生物特征是否与慢性呼吸道疾病(如哮喘、慢性阻塞性肺病)或遗传疾病(如囊性纤维化)相关?[Delhaes等人。2012年]。技术贡献的另一个例子是今天,抗逆转录病毒治疗可以防止疾病的进展,对抗逆转录病毒治疗具有耐药性突变的病毒的复制可导致治疗失败。检查是否存在耐药引言14因此,在开始新的治疗之前,在患者的基因组这些测试基于基因测序数百种已知可能与病毒耐药性相关的突变正在被探索。这些检测使得有可能为特定患者调整抗逆转录我们面临着大量的数据需要分析,其中变量的数量(p)通常与使经典统计不合适的个体数(n)具有相同的数量级,甚至更大,我们说的是维度数据。统计研究通过开发新的分析方法来应对这一海量数据的产生在然而,在医学研究中,通常寻求识别、解释与感兴趣的反应相关的因素哪些HIV突变与HIV感染患者的病毒载量增加相关如果对临床医生来说,解释性目标或预测性目标是相似的,那么对统计学家来说就不一样了在第一种情况下,相比之下,当目标是预测性的时,重点是获得对未来患者感兴趣的反应的准确预测,而不一定要问因果关系问题将寻求最小化偏倚和方差的组合,可能牺牲解释以支持准确预测[ Breiman et al. 2001年; Shmueli等人。,2010; Helmbold andLong,2012; Falissard,2018](全数字时代的统计认识论,Falissard Bruno,博士学校SP2日,2018年,波尔多大学)。在生物医学应用中,很难在两者之间做出选择一般来说,人们希望获得一个允许理解的预测模型或一个允许(逻辑上)预测的解释模型。 在一个大的维度背景下,从预测的角度来处理统计问题更容易。因此,在解释变量的作用时,对结论保持谨慎是很重要的相反,如果选择了一个解释性模型,我们必须承认,所选择的模型可能不会导致最临床医生和统计学家之间的讨论对于设定目标和警告至关重要。引言15分析在解释方面的局限性在解释/识别和预测之间具有良好折衷的方法族是惩罚回归(例如Ridge [Hoerl和Kennard , 1970] 、 Lasso [Tibshirani , 1996] ) 和 偏 最 出 行 ( PLS [Wold 等 人 ,1996 ])。1983年]。实际上,基础模型是生物学和医学领域中众所周知的模型(线性回归模型、逻辑回归模型、Cox模型等)。 不同的是估计和选择变量的步骤。 此外,再抽样程序与惩罚回归相结合,在识别与响应变量实际相关的预测因子方面提供了更稳健的结果[ Bach,2008 ]。大尺寸并L’augmentation 实际上,根据最初的临床问题,设计、所需数据和所使用的技术可能不同。本文特别关注两种结构首先,我们研究了由于测量技术缺乏灵敏度而产生的量化限制所导致的审查问题在第二步中,我们探索了微生物群数据的层次结构和组成(生活在特定环境中的微生物群落,在这里是本论文的重点是1.2临床目标和方法学1.2.1考虑大数据的编辑:应用于根据HIV突变预测HIV病毒载量由于测量设备灵敏度的缺陷而导致的左盲一个例子是HIV患者血浆中病毒载量的定量因此,病毒载量的"真实"值然而,测量技术的灵敏度发生了变化,RNA的检测阈值从10,000拷贝/mL降至20拷贝/mL在统计学中,我们说的是通过量化极限向左剔除的数据,这可以被认为是价值问题的一个特例。引言16失踪。 已经提出了几种统计学方法来解释这些定量变量的审查:在横断面研究中,但也在纵向研究中。标准方法包括多重插补、生存法(通过将缺失问题向右翻转)、分位数回归或缺失分位数回归。另一种标准方法是Tobit模型[Tobin,1958]。从在传统的低维背景下,这些方法比简单插补(用另一个值替换审查值)表现更好在艾滋病毒感染的背景下,试图分析某些艾滋病毒突变与抗逆转录在个体中传播的HIV毒株可能具有与抗逆转录病毒治疗(cART)失败相关的突变。这些突变称为耐药突变(图1.1)。因此,为了评估耐药性,对开始新的抗逆转录病毒治疗(图1.1中的第二种cART)的患者或由于耐药菌株传播而感染HIV的新患者进行基因型检测[Hirsch et al.2008年; Wittkop等人。2011年; Hofstra等人。2016年; Wensing等人。2017年]。统计分析的目的是检测与病毒学应答相关的基因型突变,以预测对治疗的耐Lasso型线性和逻辑回归[Rabinowitz et al. 2006年; Beerenwinkel等人。2013年; Cozzi-Lepri等人。(2011),PLS逻辑回归(Wittkop等人,2011)。[Assoumou等人,2008]和多重性调整单变量检验[Assoumou等人,2008]。在p = 100和n = 1000的大维度共同背景下应用[Rhee et al. 2006年]。然而,这些研究使用二元反应或简单插补,以避免在大维度背景下的定量变量二分法的一个局限性是信息和模型功效的我们假设,在高维度一些作品同时解决了审查和大维度的问题,但基本上局限于生存数据(右边的审查)。惩罚性回归在很大程度上被扩展到右盲,Tibshirani [1997]对Cox模型,分位数回归,[Shows et al. 2010年; Wang等人。Müller和van de Geer,2015],或更容易解释的加速失效时间(AFT)模型,已知为引言17图1.1治疗阶段更 容 易 解 释 [Huang 等 人 。 2006 年 ; Datta 等 人 。 2007 年; Wang 等 人 。 , 2008 年 ;Johnson,2008年,2009年b,a; Ueki,2009年; Wang和Wang,2010年; Chung等人。2013年; Zhao等人(2014年; DiRienzo,2016年)。此外,还提出了用于生存分析的其他 学 习方 法 , 例 如 随机 森 林[ Ishwaran et al. [2008],支持向量机 [Wang 等人。(2016)和神经网络(Van der Burgh et al. 2017年]。L’algorithme PLS回归的扩展[Huang et al. [Johnson,2008,2009 b; Cai et al.]和套索回归被提出来管理右翼审查[Johnson,2008,2009 b; Cai et al. (2009年; Wang和Wang,2010年)。 最近,Wiegand等人。[2016]在一项横断面、低维研究中将该算法应用于一个左盲案例。我们的工作提出了Buckley-James方法的套索扩展。 我们的第一种方法是反转响应变量,以获得右侧审查,从而使用惩罚性非参数Buckley-James版本[ Wang和Wang,2010 ]。第二步,我们提出了一个基于高斯假设的Buckley-James估计量的惩罚参数化版本本研究的数据集来自"HIV耐药性检测项目的标准化和相关性"项目[Cozzi-Lepri,2008]。本研究中的患者受益于引言18反向转录酶样本量略小于预测因子的数量。大约一半的预测因子与逆转录基因特异性突变的存在/不存在相对应其他的是蛋白酶基因特异性的。反应变量是治疗后第8周测量的对数病毒载量,中等缺失率的检测限为100拷贝/mL。在本论文的框架内,我们将自己限制在具有预测目标的方法的开发。1.2.2微生物群数据分析:了解高通量测序(HGS)技术的成本降低,特别是与人类微生物群落(微生物群)细菌成分测序的16S基因相关,为人类疾病研究提供了新的视角,自21世纪初以来的出版物数量就证明了这一点。结果,已经检测到微生物群和各种疾病之间的关联例如,肠道菌群改变与2型糖尿病之间的联系[Qin et al. 2012年],心血管疾病[Koeth et al. [CryanandO'Mahony,2011],观察到肠-脑轴引起的心理疾病,以及克罗恩病和肠易激综合征。到目前为止,肠道微生物群仍然是研究最多的,到目前为止,气道一直被认为是无菌的。然而,测序技术已经揭示了后者的多样性不如肠道微生物群,现在被认为是一个特定的生态系统,其中微生物的丰度和多样性是每个个体所独有的[ Dickson et al. (2013年;Marsland和Gollwitzer,2014年;Andréjak和Delhaes,2015年)。该领域的文献主要集中在健康受试者的肺部细菌群落之间的比较[Charlson et al. [Hiltyetal.2011]和哮喘等慢性肺部疾病患者[ Hilty et al. 2011]。2010年;Goleva等人。2013年; Marri等人。2013年; Simpson等人。2016年; Zhang等人。2016年; Durack等人。2017年; Sverrild等人。慢性阻塞性肺疾病(COPD)[Weinreich和Korsgaard,2008; Molyneaux等人,2017 ] 2013年; Zakharkina等人。2013年; Huang等人。[Frayman et al. 2014],囊性纤维化[Frayman et al. 2017年; Pittman等人。2017年; Leite等人。2017年; Acosta等人。2017年; Heirali等人。2017年; Feigelman等人。2017年; Cox等人。2017年; Boutin和Dalpke,2017年; Nguyen等人。2016年; Beaume等人。2017年;克里布斯引言19和Beck,2017年;来自Koff等人。,2016],特发性肺纤维化[Wang et al. (2017)或肺癌[Hosgood et al. 2014年; Yu等人。2016年; Lee等人。2016年]。在肺部疾病中,特别是囊性纤维化(或囊性纤维化),感染起着关键作用。通过分析患者气道中存在的多微生物群落的NGS数据,进一步丰富了当前评估[O'Brien和Fothergill,2017;Botterel等人,2017]。2017年; Nguyen等人。2016年; Quinn等人。2016 b; Whiteson等人。2014年; Willger等人。2014年; Lim等人。2013年; Charlson等人。2012年;Delhaes等人。2012年; Willner等人。2012年]。囊性纤维化的急性搏动性加重是一个重大临床事件,显著影响肺功能下降和疾病进展,需要适当的抗感染治疗[ Bhatt,2013 ;Stenbit和Flume,2011 ; Bilton et al. (2011年;戈斯和伯恩斯,2007年)。最近使用组学方法证实了急性加重和菌群之间的相关性[Nguyenet al. 2016年; Quinn等人。,2016 a,2015;Carmody等人。2013年; Tunney等人。2013年;泽曼尼克和其他人2013年; Filkins等人。2012年; Fodor等人。2012年; Zhao等人2012年]。关于真菌组成,尽管一些种属与肺功能下降相关,但很少有研究调查与急性加重的相关性[ Nguyen et al. 2016年;Willger等人。2014年]。测序数据以计数数据的形式出现(通常具有大量的零),其被解释为微生物群落中分类群的丰度。为了使样品具有可比性,对数据进行归一化,并以观察到的所有细菌的相对丰度表示。这CoDA是加起来为1的非负度量的集合知道了和,一个分量可以从其他分量的和中确定。然后,合成的各部分在数学上是相关的,并且属于称为单纯形的特定空间CoDA可以使用非线性变换转移到欧几里得空间,此外,微生物群数据是根据系统发育-网络结构组织的(图1.2),当树木的深度很大时,这可能导致更大的情况与此同时,为了满足需要,出现了具体的统计方法和计算工具。 由于新颖性,评估现有方法的适用性和准确性还为时过早。模拟研究模拟真实数据的分布,是比较竞争统计方法性能的标准工具。然而,微生物群数据的复杂性使得难以产生现实的数据。引言20图1.2每个特征代表一个分支,分支在节点处分开,点表示叶子。在本论文的框架内,我们对微生物群数据分析的方法进行了"非详尽"的回顾,从多样性分析到统计学习方法。还进行了一项模拟研究,以比较惩罚方法,目的是识别与临床状态相关的微生物。在第二步中,我们将细菌和真菌组成视为研究肺微生物群与严重程度之间关系的独特实体我们的结果使用微生物相关的共发生/共排除方法进行解释[Delhaeset al. 2012年; Charlson等人。2012年; Conrad等人。2013年; Quinn等人。2014年; Whiteson等人。2014年; Willger等人。2014年; Kramer等人。2015年; Quinn等人。2016a,b; Nguyen等人。2016年; O 'Brien和Fothergill,2017年; Botterel等人2017年; Krause等人。2017年]。分析的数据来自MucoFong队列中的一项病例对照研究:少数患者的靶向宏基因组学数据可用于确定呼吸道微生物群和真菌群。在本论文中,我们应用了文献中确定的微生物群数据的统计分析方法,目的是更好地了解细菌和真菌成分在粘液恶性病严重程度中的作用。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功