没有合适的资源?快使用搜索试试~ 我知道了~
ACADÉMIE DE MONTPELLIERU N I V E R S I T É M O N T P E L L I E R IISciences et Techniques du LanguedocTHÈSEprésentée au Laboratoire d’Informatique de Robotiqueet de Microélectronique de Montpellier pourobtenir le diplôme de doctoratSpécialité:InformatiqueFormation Doctorale:InformatiqueÉcole Doctorale:Information, Structures, SystèmesDéveloppement de méthodes et d’algorithmes pour la caractérisation etl’annotation des transcriptomes avec les séquenceurs haut débitparNicolas PHILIPPESoutenue le 29 septembre 2011, devant le jury composé de :Directeur de thèseM. Éric RIVALS, directeur de recherche. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .LIRMM, Université Montpellier II, FranceCodirectrice de thèseMme. Thérèse COMMES, professeur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .CRBM, Université de Montpellier II, FranceRapporteursM. Roderic GUIGO, directeur de Recherche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . CRG, Barcelone, EspagneM. Gregory KUCHEROV, directeur de Recherche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . LIGM, Paris, FrancePrésident du juryM. Jamal TAZI, professeur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IGMM, Montpellier, FranceExaminateursM. Didier AUBOEUF, chargé de Recherche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . INSERM, Lyon, FranceM. Dominique LAVENIER, directeur de Recherche. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .IRISA, Rennes, FranceiRemerciementsJ’exprime tout d’abord mes profonds remerciements à mon directeur et ma directrice dethèse, Eric Rivals et Thérèse Commes. D’une part, Eric m’a apporté la rigueur, la justesse etles démarches méthodiques pour concevoir et développer le mieux possible une idée, il m’aappris à ressortir les éléments fondamentaux d’un travail lors de l’écriture d’une publicationafin de transmettre un message scientifique clair et précis. D’autre part, Thérèse m’a apportétous les fondamentaux de la génomique ce qui m’a permis de mieux comprendre les problé-matiques biologiques, elle a toujours été disponible pour moi que ce soit le soir, le week-endet même pendant ses vacances, mais surtout, elle m’a souvent éclairé sur les problèmes bio-logiques reliant des besoins en informatique et en mathématiques, autour de réflexion etde discussion, soulevant des points cruciaux lors de mes recherches. De façon générale, tousdeux m’ont fait confiance. Ils m’ont laissé une grande liberté lors de mes créations et ils m’ontencadré d’une façon exemplaire.Il est naturel que je remercie toute mon équipe de travail avec notamment Anthony Bou-reux, Elias Bousamra, Mireille Galloni et Florence Ruffle pour les conseils et les travaux quenous avons pu partager pendant mes années de thèses.Je remercie très cordialement mon jury de thèse. D’une part mes deux rapporteurs RodericGuigo et Gregory Kucherov qui sont deux scientifiques de renommée internationale. Ils ontpris de leur temps précieux pour lire méticuleusement mon manuscrit et juger de manière0我的三位考官Didier Auboeuf、Dominique Mancheron和Floréal Morandat。由于他们在生物信息学领域的经验和专业知识,他们对我的工作提出了建设性的意见0Lavenier和Jamal Tazi在我的答辩中陪伴我的评委。由于他们在生物信息学领域的经验和专业知识,他们对我的工作提出了建设性的意见0他们的建议经常引发了有趣的思考0你们五个一直给我带来了有益的讨论和有意义的问题,让我思考0现在,我要感谢不同的人,每个人都以自己的方式对我有所帮助0ii0首先是我的家人,特别是Bruno和Marie-José Philippe,他们为我付出了很多牺牲0他们在我博士期间始终给予我帮助0Camille Godron,我的伴侣,Bernard和Marie-Christiane Godron,我的岳父母0我的父母,他们让我有机会在最好的条件下进行高等教育0还有其他的祖父母、叔叔、阿姨、堂兄弟姐妹,还有我的两只小猫Mauka和Zéphyr0他们不仅满足了我的需求,还与我的兄弟Thomas Philippe一起为我提供了帮助0我为拥有这样一个美丽的家庭而感到自豪和幸运。此外,我很高兴他们能够花时间审阅我的论文,改进一些句子的表达方式0Romain Godron,我的姐夫,以及其他祖父母、叔叔、阿姨、堂兄弟姐妹,还有我的两只小猫Mauka和Zéphyr0当然,我还要特别感谢Camille,她在整个过程中一直支持我0他们给予了我热情、信任、爱和关注,非常慷慨地给予了我0在我最困难的时刻给予我支持,并原谅我在独处时的孤独0我要感谢Camille、Bernard和Marie-Christiane Godron,他们为我花费了很多时间0然后,我要感谢我的父母、Camille和我的岳父母,他们以最大的关心照顾我0为了尽可能消除我键盘上可能出现的拼写错误0还有Camille,她在整个过程中一直支持我0在我(或者更准确地说是我们)辛勤工作的过程中,他给了我很多建议和安慰0在我最困难的时刻给予我支持,并原谅我在独处时的孤独0我们一起度过了很多个深夜工作的夜晚0然后,我要感谢我的父母、Camille和我的岳父母,他们以最大的关心照顾我0他们精心准备了我的答辩:还有美味的香槟和小点心0还有以爱心制作的小点心0至于Mikaël Salson,他是我多年的朋友和宝贵的合作伙伴,我只能感激不尽0我对与他合作感到非常兴奋。我们已经完成了几个项目0我们从大学时代就开始合作了。我很幸运能够与他合作0在我的博士期间,他在Gk软件开发方面表现出色0他还为我在tikZ方面提供了额外的帮助0实际上,如果我花时间提高自己的设计能力,那完全是他的错...0在我的口头报告设计过程中,他给了我很多帮助(尽管我没想到他会是这样的人)0他也是一位出色的平面设计师(几年前...)0在这些注重做好事情的人中,我要感谢Alban0Mancheron和Floréal Morandat在计算机方面表现出色。他们是真正的“极客”0在各种情况下,他经常帮助我,特别是在我的打包工作中0Alban在软件方面的能力,以及Floréal在LaTeX样式设计方面的能力0最后,我要感谢Thierry Lecroq和Martine Léonard,他们是我的教授之一iiipréférés de l’université de Rouen et avec qui j’ai pu collaborer durant ma thèse.D’un point de vue personnel, je souhaite remercier tous mes amis qui ont suivi mon che-minement, tout en ayant partagé avec moi des moments de détente et de bonheur. Pour n’enciter que quelques-uns avec qui j’ai passé mes dernières vacances (par ordre alphabétiquedes noms de famille) : Emmanuel Bénard, Guillaume Buwalda, Elsa Dollé, Camille Godron,Jean-Daniel Lomenede, Laëtitia Plisson, Camille Serrecourt, Élodie Serurier-Duceau, MikaëlSalson, Nicolas Toublanc et Stéphanie Verbreugh.Je tiens aussi à remercier mes colocataires Thomas Bailly, Raphaël Chartier et LaurentVertu pour leurs différentes contributions lors de la phase finale de mon doctorat, commem’avoir écouté lors des sessions blanches de ma soutenance. J’insiste tout particulièrementsur Thomas qui, de son plein gré, a su se montrer serviable en s’occupant des différentsinvités présents à mon pot de thèse, en compagnie de ma famille.Pour finir, je me permets de faire un petit clin d’œil à Roger Federer et au FC-Barcelonede Lionel Messi qui m’ont permis de me ressourcer lors de mes journées et soirées intensivesde réflexion et d’écriture.Pour toutes les personnes qui m’auraient apporté de l’aide et qui sont déçues de nepas être remerciées, j’en suis par avance sincèrement désolé. Cependant, sachez par avancequ’il n’y a personne que je ne souhaite pas remercier.Table des matièresTable des matièresvIntroduction1IÉtat de l’art71Contexte scientifique91.1Introduction à la génomique . . . . . . . . . . . . . . . . . . . . . . . . . . . .91.1.1L’ADN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .101.1.2L’ARN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .101.1.3La protéine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .131.1.4Le gène. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .161.1.5Le génome. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .171.2Introduction à la transcriptomique. . . . . . . . . . . . . . . . . . . . . . . .181.2.1La transcription. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .181.2.2L’essor de la transcriptomique . . . . . . . . . . . . . . . . . . . . . . .201.2.3Les premières techniques . . . . . . . . . . . . . . . . . . . . . . . . . .221.2.4Les génomes et les transcriptomes sont indissociables. . . . . . . .231.2.5Les ARN non-codants . . . . . . . . . . . . . . . . . . . . . . . . . . . .241.3Introduction à la bioinformatique . . . . . . . . . . . . . . . . . . . . . . . . .251.3.1La bioinformatique et les séquences biologiques . . . . . . . . . . . .25vviTABLE DES MATIÈRES1.3.2Les notations et définitions relatives aux séquences . . . . . . . . . .261.4Mutations biologiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .272Émergence du haut débit dans l’étude des transcriptomes312.1Séquenceurs haut débit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .322.1.1Les différents types de séquenceurs . . . . . . . . . . . . . . . . . . . .332.1.2Les séquenceurs et les erreurs générées. . . . . . . . . . . . . . . . .332.1.3Les séquenceurs et les applications . . . . . . . . . . . . . . . . . . . .342.2Différentes techniques du transcriptome par séquençage . . . . . . . . . . .352.2.1La DGE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .352.2.2Le RNA-Seq . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .372.2.3Le ChIP-Seq . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .412.2.4Le WGSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .412.2.5La nouvelle dimension de la transcriptomique . . . . . . . . . . . . .422.3Structures d’indexation et haut débit . . . . . . . . . . . . . . . . . . . . . . .432.3.1Les structures d’indexation classiques . . . . . . . . . . . . . . . . . .432.3.2Les structures compressées . . . . . . . . . . . . . . . . . . . . . . . . .472.4Outils de mapping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .482.4.1Les outils pour les séquences courtes . . . . . . . . . . . . . . . . . . .492.4.2Les approches par filtration et les graines. . . . . . . . . . . . . . . .522.4.3Les limites du mapping . . . . . . . . . . . . . . . . . . . . . . . . . . .572.5Erreurs de séquences et polymorphisme . . . . . . . . . . . . . . . . . . . . .572.5.1La correction des erreurs . . . . . . . . . . . . . . . . . . . . . . . . . .582.5.2La détection des SNV/SNP . . . . . . . . . . . . . . . . . . . . . . . . .592.6Jonctions d’épissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .602.6.1Les épissages classiques . . . . . . . . . . . . . . . . . . . . . . . . . . .602.6.2Les épissages chimériques . . . . . . . . . . . . . . . . . . . . . . . . .64II Résultats753Méthodes pour annoter des reads sur un génome773.1Modélisation du bruit de fond. . . . . . . . . . . . . . . . . . . . . . . . . . .793.1.1Définitions et notations des outils statistiques. . . . . . . . . . . . .793.1.2Définitions des modèles. . . . . . . . . . . . . . . . . . . . . . . . . .843.2Estimations des erreurs de séquences . . . . . . . . . . . . . . . . . . . . . . .873.2.1Occurrence et tag. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .88TABLE DES MATIÈRESvii3.2.2Modélisation des estimateurs. . . . . . . . . . . . . . . . . . . . . . .883.2.3Calcul de l’erreur standard . . . . . . . . . . . . . . . . . . . . . . . . .893.3Annotation des transcrits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .923.3.1Pipeline transcriptomique . . . . . . . . . . . . . . . . . . . . . . . . .923.3.2Méthode biologique pour valider l’expression des transcrits . . . . .963.4Études expérimentales et résultats . . . . . . . . . . . . . . . . . . . . . . . . .973.4.1Études statistiques sur le positionnement des reads sur un génome .983.4.2Évaluation des erreurs sur des ensembles de données réelles . . . . .1013.4.3Optimisation de la phase de mapping. . . . . . . . . . . . . . . . . .1063.4.4Annotation et validation de nouvelles régions transcrites . . . . . . .1093.5Conclusion et discussions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1143.5.1Les erreurs de séquences . . . . . . . . . . . . . . . . . . . . . . . . . .1143.5.2Les séquences non localisées . . . . . . . . . . . . . . . . . . . . . . . .1153.5.3La longueur des séquences : ni trop courte, ni trop longue. . . . . .1163.5.4Une stratégie d’annotation : la détection de nouveaux transcrits . . .1174Algorithmes pour indexer et interroger des reads1194.1Description de notre approche . . . . . . . . . . . . . . . . . . . . . . . . . . .1214.1.1Les requêtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1224.1.2Les applications. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1234.2Implantation de la structure et résultats. . . . . . . . . . . . . . . . . . . . .1254.2.1L’algorithme principal . . . . . . . . . . . . . . . . . . . . . . . . . . . .1254.2.2L’algorithme de construction par étape . . . . . . . . . . . . . . . . . .1284.2.3La procédure pour répondre aux requêtes . . . . . . . . . . . . . . . .1324.2.4Les considérations pratiques sur les Gk arrays. . . . . . . . . . . . .1344.3Description des méthodes alternatives aux Gk arrays. . . . . . . . . . . . .1364.3.1Les tables des suffixes généralisées . . . . . . . . . . . . . . . . . . . .1374.3.2Les tables de hachage . . . . . . . . . . . . . . . . . . . . . . . . . . . .1414.4Comparaisons des structures de données. . . . . . . . . . . . . . . . . . . .1414.4.1La description des expériences . . . . . . . . . . . . . . . . . . . . . . .1414.4.2Les comparaisons expérimentales . . . . . . . . . . . . . . . . . . . . .1424.5Conclusion et discussions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1474.5.1Les Gk arrays, meilleurs que les structures actuelles . . . . . . . . . .1484.5.2Les Gk arrays : une structure versatile. . . . . . . . . . . . . . . . . .1484.5.3Les limites et les éventuelles perspectives . . . . . . . . . . . . . . . .149viiiTABLE DES MATIÈRES5Algorithme spécialisé dans le traitement du RNA-Seq1515.1Description de notre approche . . . . . . . . . . . . . . . . . . . . . . . . . . .1535.2.1Vue d’ensemble. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1545.2.2Formalisation de l’algorithme . . . . . . . . . . . . . . . . . . . . . . .1555.2.3Distinguer les erreurs des causes biologiques . . . . . . . . . . . . . .1575.2.4Analyse des breaks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1615.2.5Identifier des informations sur les régions multiples . . . . . . . . . .1655.2.6Optimiser l’algorithme à cause des fausses localisations . . . . . . . .1655.2.7Classifier les reads . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1715.3Les méthodes expérimentales. . . . . . . . . . . . . . . . . . . . . . . . . . .1735.3.1La simulation de RNA-Seq . . . . . . . . . . . . . . . . . . . . . . . . .1735.3.2Calcul des scores pour différencier erreurs et causes biologiques. .1755.3.3Traitement plus strict de CRAC pour les chimères. . . . . . . . . . .1795.4.1Les données simulées . . . . . . . . . . . . . . . . . . . . . . . . . . . .1795.4.2Les données réelles. . . . . . . . . . . . . . . . . . . . . . . . . . . . .1825.4.3Les logiciels utilisés pour les comparaisons . . . . . . . . . . . . . . .1825.5.1Comparaisons sur les données simulées . . . . . . . . . . . . . . . . .1835.5.2Comparaisons sur les données réelles. . . . . . . . . . . . . . . . . .1975.6Conclusion et discussions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .203Conclusion générale et Perspectives205AMatériels supplémentaires209A.1Matériels supplémentaires des Gk arrays . . . . . . . . . . . . . . . . . . . . .209A.2Matériels supplémentaires de CRAC . . . . . . . . . . . . . . . . . . . . . . . .213Table des figures235Liste des tableaux239Liste des exemples24105.2 L’algorithme de CRAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15305.4 Matériels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17905.5 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183IntroductionLa recherche dans le domaine des sciences de la vie a pâti durant quelques années d’unestagnation des techniques de séq
下载后可阅读完整内容,剩余1页未读,立即下载
![application/msword](https://img-home.csdnimg.cn/images/20210720083327.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 京瓷TASKalfa系列维修手册:安全与操作指南
- 小波变换在视频压缩中的应用
- Microsoft OfficeXP详解:WordXP、ExcelXP和PowerPointXP
- 雀巢在线媒介投放策划:门户网站与广告效果分析
- 用友NC-V56供应链功能升级详解(84页)
- 计算机病毒与防御策略探索
- 企业网NAT技术实践:2022年部署互联网出口策略
- 软件测试面试必备:概念、原则与常见问题解析
- 2022年Windows IIS服务器内外网配置详解与Serv-U FTP服务器安装
- 中国联通:企业级ICT转型与创新实践
- C#图形图像编程深入解析:GDI+与多媒体应用
- Xilinx AXI Interconnect v2.1用户指南
- DIY编程电缆全攻略:接口类型与自制指南
- 电脑维护与硬盘数据恢复指南
- 计算机网络技术专业剖析:人才培养与改革
- 量化多因子指数增强策略:微观视角的实证分析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)