如何从1000 Genomes Project FTP下载欧洲基因参考组
时间: 2024-09-25 14:19:55 浏览: 41
从1000 Genomes Project (1KGP) 的FTP服务器下载欧洲基因组参考数据通常需要几个步骤:
1. **访问FTP服务器**:
访问1KGP的数据下载页面:https://ftp.1000genomes.ebi.ac.uk/vol1/ftp/
然后选择"Phase_3"目录,这是1KGP的主要版本。
2. **定位欧洲数据**:
在"Phase_3/integrated_call_samples_vcf/"目录下,找到"ALL.chr{chr}.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz"文件系列,这里的"chr"代表染色体编号。对于欧洲人群,你会看到像"EUR"这样的子目录,它包含了相关的样本。
3. **登录并下载**:
如果你是第一次下载,可能需要创建一个账户并接受使用条款。然后,你可以通过命令行工具如`wget`、`curl`或直接浏览器下载这些大型文件。例如,如果你想要下载第20号染色体的数据,可以运行类似下面的命令(将`your_username`和`your_password`替换为你的账号信息):
```
wget -u your_username -p ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/.../EUR/all.20.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz
```
4. **解压**:
下载完成后,你需要解压缩这些`.gz`文件。可以使用`gunzip`命令,如:
```
gunzip ALL.chr20.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz
```
然后再处理得到的`.vcf`文件。
5. **备份和组织**:
最好将文件存储在一个有结构的文件夹中,以便于后续查找和分析。
阅读全文