没有Precomputed datasets
时间: 2023-10-18 16:56:46 浏览: 35
非常抱歉,我的回答再次有误。您可以按照以下步骤下载BBBP数据集:
1. 访问 ChemBL 官网:https://www.ebi.ac.uk/chembl/
2. 点击页面右上角的“Data”按钮,选择“Downloads”选项。
3. 在“Downloads”页面中,找到“Data for download”部分,然后点击“ChEMBL Structural Data”链接。
4. 在“ChEMBL Structural Data”页面中,您可以找到BBBP数据集的下载链接。该链接位于页面底部的“Additional Downloads”部分,名称为“BBBP (Blood-Brain Barrier Penetration) Data Set”。点击链接即可开始下载。
请注意,BBBP数据集可能非常大,因此下载可能需要一些时间。另外,该数据集是用于药物设计和发现的,因此需要一定的化学和生物学知识才能充分理解。
相关问题
chembl数据库数据集怎么下载BBBP.csv
您可以按照以下步骤从 ChemBL 数据库下载 BBBP 数据集的 CSV 文件:
1. 访问 ChemBL 官网:https://www.ebi.ac.uk/chembl/
2. 点击页面右上角的“Database”按钮,选择“Downloads”选项。
3. 在“Downloads”页面中,找到“Precomputed datasets”部分,然后点击“Download”链接。
4. 在“Precomputed datasets”页面中,您可以找到BBBP数据集的下载链接,该链接位于“Blood-Brain Barrier Permeation”选项卡下。点击链接即可下载BBBP数据集的 ZIP 文件。
5. 解压 ZIP 文件并找到名为“BBBP.csv”的文件。您可以使用任何文本编辑器或数据处理软件打开该文件。
请注意,BBBP 数据集包含一系列化合物及其在血脑屏障通透性方面的实验数据。该数据集是用于药物设计和发现的,因此需要一定的化学和生物学知识才能充分理解。
SKlearn.clustering.spectralClustering
Spectral clustering is a clustering technique that uses the spectrum (eigenvalues) of the similarity matrix of the data to perform dimensionality reduction before clustering in fewer dimensions. The SpectralClustering class in the scikit-learn library is an implementation of this technique.
The SpectralClustering class takes the following parameters:
- n_clusters: the number of clusters to form
- affinity: the affinity matrix to use, which can be one of ‘nearest_neighbors’, ‘rbf’, or ‘precomputed’
- gamma: kernel coefficient for rbf kernel
- eigen_solver: the eigenvalue decomposition strategy to use, which can be one of ‘arpack’, ‘lobpcg’, or ‘amg’
- n_components: the number of eigenvectors to use when performing dimensionality reduction
Once the SpectralClustering instance is created, the fit_predict() method can be used to perform clustering on the data and return the cluster labels for each data point.
Spectral clustering can be useful for datasets with complex geometric structures or non-linear relationships between the data points. However, it can be computationally expensive for large datasets.