基于SBERT的CORD-19数据集搜索工具开发

需积分: 38 31 浏览量更新于2025-01-07 收藏 799KB ZIP 举报

资源摘要信息: "CORD-19-ANN：ANN使用SBERT搜索COVID CORD-19数据集"项目是一个以自然语言处理技术为基础的搜索平台，目的是为了帮助研究人员和医疗人员高效检索和利用COVID-19相关研究资料。该项目使用了SBERT（Sentence-BERT），一个基于Transformer的预训练模型，用于生成句子的嵌入向量，这些向量能够捕捉句子的语义信息。使用SBERT进行嵌入是为了克服传统搜索方法在深度语义理解方面的局限性，提供更精准的搜索结果。而FAISS（Facebook AI Similarity Search）作为一个库，用于加速相似性搜索和密集向量聚类，被用于优化搜索效率。该项目使用了PyTorch，这是一个广泛使用的机器学习库，特别适合深度学习研究和应用。同时，由于该项目需要处理大规模的数据和复杂的模型，使用Conda环境管理器来安装所需的软件包被强烈建议。Conda能够创建独立的环境来管理不同项目依赖，简化安装过程并减少依赖冲突。项目中提到的"FAISS索引"是FAISS库中的一种结构，用于存储和检索向量集合。另外，该项目还提供了预训练模型和一个前端界面。预训练模型是指已经在大规模数据集上训练过的模型，可以在特定任务上直接应用，避免了从头开始训练模型所需的时间和资源。前端界面则允许用户通过图形用户界面（GUI）进行交互，实现方便快捷的数据检索和信息提取。项目的运行和部署指南可以在仓库中找到。在技术栈中，项目还提及了Spacy和ScispaCy。Spacy是一个先进的自然语言处理库，提供从分词、解析到实体识别的一系列功能，而ScispaCy是专门为生物医学文本处理优化的Spacy模型。这些技术的选择说明了项目注重于处理生物医学领域的专业文本。 CORD-19数据集（COVID-19 Open Research Dataset Challenge）是一个开放的数据集，包含数以千计的研究论文和摘要，覆盖COVID-19、SARS-CoV-2及相关冠状病毒的研究。该项目使用这些数据来训练和测试其搜索系统，展示了AI技术在医疗和公共卫生领域的实际应用。标签“machine-learning”，“pytorch”，“spacy”，“transformer”，“scispacy”，“covid-19”，“cord-19”，“COVID-19Python”提示我们，这个项目是基于机器学习和深度学习的，主要使用PyTorch框架，利用自然语言处理技术和专门针对生物医学文本处理的库。最后，该项目提醒用户，尽管它提供了有价值的工具和服务，但开发团队并不专注于医学领域，因此对于反馈和改进建议持开放态度，鼓励用户通过问题或Pull Request的形式贡献自己的见解。同时，项目目前托管在Google Cloud Platform（GCP）实例上，并表示如果有人能提供更永久的托管方案，将会非常感激。安装指南中仅提供了一个命令来安装FAISS，但完整安装指南可以在FAISS的GitHub仓库中的INSTALL.md文件找到，提示用户可以参考更详尽的安装指导。文件名称列表“CORD-19-ANN-master”表明该项目的代码和资源被组织在一个主仓库中，用户可以利用git clone命令来克隆这个仓库，下载所需的代码和数据。

资源目录

收起资源包目录

基于SBERT的CORD-19数据集搜索工具开发（44个子文件）

LICENCE 1KB

d3-overrides.css 200B

babel.config.js 2KB

getSearchResults.js 180B

cord_ann_example.gif 895KB

Progress.js 477B

LandingPage.js 643B

ResultCard.js 4KB

index.js 84B

docker-compose.yml 289B

.eslintrc.js 482B

colors.js 511B

TitleAppBar.js 807B

webpack.config.js 4KB

setup.py 209B

download_data.py 1KB

README.md 5KB

package.json 2KB

README.md 10KB

App.js 494B

create_index.py 2KB

generate_embeddings.py 1KB

__init__.py 0B

Dockerfile 1KB

ResultShow.js 4KB

mapping.py 1KB

index.py 6KB

search_index.py 2KB

index.js 136B

index.html 227B

index_server.py 3KB

clusters.py 469B

cluster_sentences.py 2KB

extract_sentences.py 2KB

server.js 305B

requirements.txt 182B

Dockerfile 333B

dark.js 202B

embeddings.py 704B

.env.defaults 27B

light.js 269B

.gitignore 12B

.gitmodules 128B

SearchBar.js 2KB

共 44 条

Dilwanga

粉丝: 31
资源: 4681

基于SBERT的CORD-19数据集搜索工具开发

SBERT-WK-Sentence-Embedding:纸代号

电子测量中的Agilent推出具有最低测试成本3Gb/s BERT

layoutlm_CORD:在 CORD 数据集上评估 Layoutlm 模型

CORD-19数据集的训练集测试集验证集有多少

CORD-19数据集有多少

给一个新冠数据集下载地址

kaggle经典例题

kaggle医疗数据集推荐

你知道有哪些肺炎诊断相关的医学图像数据集吗

网线、光纤、同轴电缆、AV线、高清线、通信电缆、电梯电缆、电源线、双绞线、音频线

最新资源