Python环境下isomiR生成与数据处理教程 - CSDN文库

需积分: 5 117 浏览量更新于2024-12-26 收藏 78.75MB ZIP 举报

资源摘要信息:"isomiR_biogenesis" 知识点一：isomiR概念与生物生成 isomiR是指在RNA编辑和剪接过程中产生的微小RNA(microRNA, miRNA)变体，这些变体可能与正常的miRNA序列有所不同，但仍然可以调节基因表达。在生物生成过程中，原始miRNA转录本经过一系列的酶处理，包括Dicer酶和Argonaut酶的作用，最终形成成熟的miRNA分子。然而，在这一过程中，可能会出现长度、序列或加帽修饰的变异，这些变异的miRNA分子被统称为isomiRs。由于isomiRs在功能和稳定性上可能与标准miRNA有所不同，因此它们在研究中受到越来越多的关注。知识点二：miRBase与TCGA数据 miRBase是一个在线数据库，它存储了miRNA序列、注释信息以及miRNA基因的家族信息。研究者们可以从该数据库中获取miRNA的标准参考序列，这些序列是分析miRNA表达和功能研究的基础。TCGA（The Cancer Genome Atlas，癌症基因组图谱）是一个大规模的癌症基因组研究项目，该项目生成了大量不同癌症类型患者的遗传和表观遗传数据，包括mRNA、miRNA、基因突变等信息。在分析isomiRs与癌症相关性时，TCGA数据库提供了宝贵的数据资源。知识点三：Python环境配置为运行本资源相关的代码，需要在计算机上安装几个关键的Python库：NumPy、Pandas、scikit-learn和SciPy。NumPy是一个强大的科学计算库，提供了多维数组对象、各种派生对象（如掩码数组和矩阵）、以及用于快速操作数组的各种例程。Pandas提供了快速、灵活和表达力强的数据结构，旨在进行“关系”或“标签”数据的轻松操作。scikit-learn是一个广泛使用的机器学习库，包含了用于分类、回归、聚类等任务的各种算法。SciPy是一个开源的Python算法库和数学工具包，用于科学和技术计算，尤其在数值计算和工程领域非常有用。知识点四：代码运行步骤根据给定的描述信息，使用Python运行相关代码的步骤包括： 1. 更改当前目录到脚本所在的目录： ``` cd script ``` 2. 运行prepare.py脚本以准备数据，这可能包括从miRBase数据库获取miRNA的标准参考序列： ``` python3 parse_miRBase.py ``` 3. 提取标准的isomiRNA序列，这一步可能涉及对miRNA数据进行处理以识别并提取isomiRs： ``` python3 extract_canonical_isomiRNA.py ``` 4. 根据TCGA数据聚合并生成表格，汇总isomiR在不同癌症类型中的表达比例： ``` python3 aggregate_fraction_table_by_TCGA.py ``` 这些步骤指导用户在安装了必要的软件包后如何处理和分析miRNA数据，以及如何从TCGA数据库中提取相关数据进行进一步的科学研究。掌握这些步骤对于进行miRNA或isomiR的生物信息学分析至关重要。

资源目录

收起资源包目录

Python环境下isomiR生成与数据处理教程（91个子文件）

isomiR_TCGA-ESCA.tsv 2.73MB

run_all_kmers.bash 236B

3term_3p_gap_2.tsv 5KB

isomiR_TCGA-READ.tsv 2.64MB

prepare_miRBase.py 861B

3term_5p.png 82KB

5term_3p_ungap_1.tsv 4KB

5term_3p_ungap_3.tsv 5KB

5term_3p.png 113KB

5term_5p_gap_2.tsv 5KB

isomiR_TCGA-KIRC.tsv 6.89MB

isomiR_TCGA-CHOL.tsv 603KB

3term_3p_gap_1.tsv 4KB

isomiR_TCGA-MESO.tsv 1.45MB

3term_3p_ungap_2.tsv 5KB

isomiR_TCGA-LUAD.tsv 9.1MB

isomiR_TCGA-THYM.tsv 2.74MB

main_isomiRs.tsv 240KB

README.md 356B

isomiR_TCGA-UCS.tsv 1.02MB

run_all.bash 209B

5term_5p_ungap_3.tsv 5KB

5term_5p_gap_4.tsv 5KB

LICENSE 1KB

isomiR_TCGA-BRCA.tsv 15.41MB

isomiR_TCGA-PCPG.tsv 3.73MB

get_shift_unstable_isomiRs.py 1KB

3term_5p_gap_3.tsv 5KB

isomiR_TCGA-THCA.tsv 10.75MB

3term_3p_ungap_1.tsv 4KB

get_valuable_kmers.py 2KB

isomiR_TCGA-OV.tsv 7.48MB

5term_3p_gap_3.tsv 5KB

run_all_subseq.bash 240B

.gitignore 2KB

3term_5p_ungap_2.tsv 5KB

5term_5p_ungap_4.tsv 5KB

3term_5p_gap_4.tsv 5KB

5term_3p_gap_2.tsv 5KB

3term_5p_gap_2.tsv 5KB

5term_3p_gap_1.tsv 4KB

5term_3p_gap_4.tsv 5KB

main_isomiRs_TCGA_stability.py 2KB

5term_5p.png 81KB

3term_5p.png 114KB

isomiR_TCGA-LUSC.tsv 8.11MB

isomiR_TCGA-ACC.tsv 1.29MB

isomiR_TCGA-STAD.tsv 6.47MB

3term_5p_ungap_3.tsv 5KB

isomiR_TCGA-KIRP.tsv 4.53MB

miRNA.str 9.18MB

isomiR_TCGA-LGG.tsv 8.75MB

3term_3p_ungap_3.tsv 5KB

3term_3p.png 86KB

isomiR_TCGA-COAD.tsv 6.87MB

3term_3p_gap_3.tsv 5KB

5term_5p_gap_1.tsv 4KB

5term_5p_gap_3.tsv 5KB

3term_3p.png 117KB

isomiR_TCGA-LIHC.tsv 6.01MB

5term_3p_ungap_4.tsv 5KB

isomiR_TCGA-PAAD.tsv 3.15MB

isomiR_TCGA-UCEC.tsv 9.99MB

isomiR_TCGA-DLBC.tsv 714KB

5term_5p_ungap_1.tsv 4KB

isomiR_TCGA-HNSC.tsv 9MB

extract_local_cleavage_nucleotides.py 9KB

identify_main_isomiRs.py 4KB

isomiR_TCGA-CESC.tsv 5.3MB

5term_5p_ungap_2.tsv 5KB

isomiR_TCGA-TGCT.tsv 3.22MB

miRBase.pkl 6.84MB

isomiR_TCGA-SARC.tsv 3.19MB

merge_main_isomiRs_across_TCGA.py 2KB

get_valuable_subseq.py 2KB

run_all.bash 209B

3term_3p_gap_4.tsv 5KB

5term_3p.png 86KB

main_isomiRs_TCGA_stability.py 1KB

3term_5p_ungap_1.tsv 4KB

isomiR_TCGA-UVM.tsv 1.36MB

3term_5p_gap_1.tsv 4KB

isomiR_TCGA-KICH.tsv 1.22MB

isomiR_TCGA-SKCM.tsv 1.57MB

5term_5p.png 107KB

3term_5p_ungap_4.tsv 5KB

isomiR_TCGA-BLCA.tsv 6.64MB

5term_3p_ungap_2.tsv 5KB

isomiR_TCGA-PRAD.tsv 7.2MB

3term_3p_ungap_4.tsv 5KB

main_consensus_isomiRs.tsv 5KB

共 91 条

太远有一点点

粉丝: 46
资源: 4740

最新资源