dockop项目：加速超大规模分子库对接研究

需积分: 9 118 浏览量更新于2024-12-06 收藏 12.33MB ZIP 举报

Dockop（Docker-Based Orchestration of Kinase Pharmacophore Optimization）项目聚焦于提高药物发现中对接（docking）流程的效率。对接是一种模拟药物分子与目标蛋白之间相互作用的计算方法，对于新药研发具有重要的意义。传统的对接方法需要对大量的配体分子库进行计算，以识别那些可能对治疗特定疾病有用的分子。随着计算化学的发展，市场上可以获取的虚拟分子库数量巨大，从百万到十亿级别的规模，这对于对接计算提出了极高的要求。 Dockop项目提出了一种新的方法，通过使用替代模型来减少必须对接的分子数量，从而大幅提高效率。这种方法的核心在于使用随机样本和对应对接分数来训练机器学习模型，如sklearn的LogisticRegression（逻辑回归）模型，以及结合RDKit工具中的Morgan指纹和药效团原子不变量。Morgan指纹是一种化学信息学中用于描述分子结构的二进制编码方式，而药效团原子不变量则是用来表征分子中活性部位的特征。使用这种方法，研究者不必对整个大型分子库进行耗时耗力的对接计算，而是在较小的样本集上训练模型，然后用此模型来筛选出最有可能与目标蛋白结合的分子。此替代模型能够在极短的时间内，通过最少的训练时间达到与完整对接相同甚至更好的结果。此外，Dockop项目还依赖于高性能计算（High-Performance Computing，HPC）集群，这是因为尽管替代模型加快了筛选过程，但计算过程仍需要强大的计算资源支持。高性能计算集群提供了必要的计算能力，以处理大规模的数据集和复杂的计算任务。提及的文献[1]中，吕建坤等人发表在《自然》杂志上的一篇文章详细介绍了超大型图书馆对接系统，这是一种用于发现新化学类型的对接系统。该文献可能讨论了大规模库对接的策略、挑战和成功案例。dockop项目的提出可能与这类研究有所关联，体现了对现有技术的改进和创新。需要注意的是，标签“HTML”似乎与Dockop项目的实际内容不匹配，因为Dockop项目涉及的是计算化学和机器学习算法的应用，并非与HTML直接相关。标签“HTML”一般与网页开发有关，可能是文件信息的误标记。通过文件名称列表“dockop-master”，可以推测这是该项目的代码库或者相关资源的主目录。通常在软件开发中，“master”指代的是主分支或者主版本，这表明这是一个项目的主干文件或代码集合。综上所述，Dockop项目的主要知识点包括：大规模分子库对接的挑战与需求、替代模型训练与应用、机器学习在药物发现中的应用、高性能计算集群的作用、以及相关的计算化学工具（如RDKit）。这些内容不仅涉及了现代药物研发的关键技术，还展示了如何通过技术创新来解决实际问题。

资源目录

收起资源包目录

dockop项目：加速超大规模分子库对接研究（80个子文件）

README.md 2KB

AmpC_single_0.3.csv 4KB

knn_classifier.py 2KB

evaluate.cpython-37.pyc 8KB

hit_rate_vs_rank.svg 44KB

time_comparison.html 28KB

fpsize_logreg.html 37KB

evaluator.cpython-38.pyc 2KB

41586_2019_917_MOESM4_ESM.csv 78KB

plot_ampc_ap.py 1KB

D4_reconstruction_0.3_1_.csv 3KB

evaluation_estimators.json 1KB

knn.svg 819KB

active_learning_percentage.html 28KB

D4_single_0.3.csv 4KB

estimator.cpython-37.pyc 4KB

single_it_enrichment.svg 75KB

utils.cpython-38.pyc 726B

write_estimators_json.py 4KB

main.py 1KB

utils.cpython-37.pyc 718B

run_knn.py 3KB

estimator.py 5KB

D4_all_iterative.ipynb 12KB

README.md 377B

D4_all_single.ipynb 19KB

AmpC_short.smi 39.8MB

logreg_only.json 217B

empirical_hit_rate_fit.ipynb 155KB

run_all.sh 332B

knn_classifier.cpython-38.pyc 2KB

LICENSE 1KB

fpsize_logreg.svg 106KB

compdays.html 69KB

ampc_reconstruction_0.3_1_.csv 2KB

set_up.py 10KB

single_it_enrichment.html 56KB

fpsize_figure.html 310KB

plot_time_optimisation.py 6KB

single_it_computationdays.svg 77KB

fpsize_figure.svg 688KB

parse_data.py 1KB

ampc_ap.csv 1KB

estimator.cpython-38.pyc 4KB

evaluate.cpython-38.pyc 2KB

set_up.cpython-38.pyc 8KB

run_morgan_feat_trainingSet.sh 458B

rawdat.png 26KB

single_it_computationdays.html 55KB

dockop.yml 273B

clusterer.py 6KB

AmpC_all_figures.ipynb 64KB

ampc_cutoff.csv 24KB

plot_knn.py 959B

AmpC_all_iterative.ipynb 8KB

plot_wholedataset.py 6KB

plot_logreg.py 4KB

AmpC_short.npy 1.84MB

ampc_ap.html 56KB

AmpC_all_generate_FPs.ipynb 11KB

set_up.cpython-37.pyc 8KB

utils.py 492B

active_learning_percentage.svg 48KB

trainingSetSize.html 5KB

active_learning_computationdays.html 28KB

plot_fpcomparison_figure.py 4KB

knn.html 180KB

.gitignore 392B

active_learning_computationdays.svg 49KB

.gitattributes 66B

plot_trainingSetSize.py 3KB

hit_rate_vs_rank.html 9KB

d4_smallModel.joblib 257KB

README.md 5KB

AmpC_all_single.ipynb 20KB

ampc_ap.svg 61KB

evaluation_estimators_clf.json 2KB

D4_all_generate_FPs.ipynb 11KB

fpsize_logreg_d4.svg 109KB

trainingSetSize.svg 25KB

共 80 条

msjhfu

粉丝: 33

dockop项目：加速超大规模分子库对接研究

汇川四轴机械手自动装配程序详解：PLC信号对接与运动控制实战指南，附机器人程序、IO点分配表及接线图,汇川四轴机械手自动装配程序详解：PLC信号对接与运动控制实践，附机器人程序、IO点分配及接线图,汇

物联网云平台：工业设备对接、远程控制、数据采集、视频接入、源码开放、MQTT协议支持，可二次开发与固件升级，云存储开关状态记忆系统 ,物联网云平台：工业设备对接、远程控制、数据采集、视频接入、源码开放

Z-blog免登陆通用发布插件：新手快速对接指南

分子对接实验：构建蛋白质对接算法的研究

LightDock：通用蛋白质对接框架详解

AutoShim：开源分子对接活性预测工具

自定义地图服务：MapboxGL对接WMS教程

EnsembleDocking：探索合奏对接技术的最新进展

售前工具包：项目信息对接与投标分析

东软医保接口操作手册：HIS系统对接指南

最新资源