BM25与BGE检索算法结合RAG增强技术实现大模型服务

版权申诉

5星 · 超过95%的资源 75 浏览量更新于2024-11-12 2 收藏 4.02MB ZIP 举报

资源摘要信息:"该压缩包内含的文件名称为'rag-omni-master'，其主要内容涉及了基于BM25（Best Match 25）和BGE（Bi-gram Language Model）检索算法的检索增强技术，并集成了支持OpenAI风格的大模型服务。此类技术通常被用于信息检索系统，以及像问答系统和推荐系统这样需要理解用户查询并从中抽取相关答案的场景中。 BM25是信息检索领域中的一种著名文档排名算法。BM25算法改进了早期的词频-逆文档频率（TF-IDF）模型，通过引入了多个参数来调整词项的权重，可以更有效地在大量文档中找出最相关的文档。BM25算法的改进包括考虑文档长度的归一化以及词项频率的非线性饱和等，使得算法能够更好地平衡查询词项在文档中的频率和重要性。 BGE算法，即Bi-gram Language Model，是基于双元语法模型的语言模型，它可以用来捕捉文本中单词之间成对出现的规律。这种模型在处理自然语言时可以更精准地理解语言的上下文关系，因而在检索算法中也常用来提升相关性的判断。 RAG，即Retrieval-Augmented Generation，是一种结合了检索（Retrieval）和生成（Generation）的技术。RAG通过检索相关的信息来增强生成模型的性能，使其生成的答案不仅仅基于训练数据中的模式，而且能够整合到实时的信息。它通常用于生成问答系统中，其中大模型服务如OpenAI提供的GPT系列模型，可以利用检索到的信息来生成更准确、更相关的回答。 OpenAI风格的大模型服务通常指的是以GPT（Generative Pre-trained Transformer）系列为代表的一类大型预训练语言模型，这些模型在大量文本数据上进行预训练，具有理解自然语言和生成文本的强大能力。支持OpenAI风格的大模型服务意味着本示例可能集成了类似GPT这类预训练模型的功能，能够通过检索增强技术来提供更精确的回答或生成内容。整体来看，该压缩包中'rag-omni-master'文件的集合是一个集成了检索增强技术和大模型服务的工具集，其目标是提升检索系统的性能，特别是在需要理解复杂查询并提供精确回答的场景中。这类技术的集成能够有效提升问答系统、推荐系统等应用的用户体验和满意度。"

收起资源包目录

基于BM25、BGE检索算法的检索增强生成RAG示例，支持OpenAI风格的大模型服务.zip （91个子文件）

__init__.py 294B

用于RAG的结构化数据.png 380KB

download_qwen_model.py 491B

embedding.py 2KB

download_baichuan_model.py 511B

rope.py 2KB

formatter.py 6KB

batch_docx_to_json.py 877B

evaluation_args.py 1KB

stop_words.txt 9KB

llm_server.py 482B

rag_server.py 4KB

__init__.py 0B

download_bge_model.py 855B

common.py 580B

template.py 32KB

docx_to_json.py 1KB

logging.py 2KB

log.py 504B

loader.py 7KB

response.py 1KB

__init__.py 110B

checkpointing.py 4KB

BM25算法公式解析.png 152KB

parser.py 15KB

llm_server_test.py 1KB

BGE向量检索与其他检索的对比.png 88KB

llm_server_stress_test.py 2KB

国务院关于加强地方政府性债务管理的意见.docx 22KB

bge.py 3KB

log.py 510B

README.md 55KB

retrieval_test.py 342B

constants.py 41KB

中共中央办公厅国务院办公厅印发《关于做好地方政府专项债券发行及项目配套融资工作的通知》.json 17KB

attention.py 2KB

bm25.py 5KB

RAG技术范式.png 196KB

RAG与FT的比较.jpg 513KB

BM25检索算法的返回值.png 241KB

code.py 257B

collator.py 2KB

chat.py 7KB

finetuning_args.py 12KB

generating_args.py 2KB

rag_solve.py 4KB

protocol.py 3KB

__init__.py 377B

unsloth.py 3KB

RAG原理.png 741KB

patcher.py 5KB

RAG发展时间轴.png 432KB

pdf_to_docx.py 845B

大模型服务压力测试效果.png 829KB

data_args.py 4KB

response.py 1KB

中共中央办公厅国务院办公厅印发《关于做好地方政府专项债券发行及项目配套融资工作的通知》.docx 21KB

__init__.py 0B

如何评价RAG的效果.png 112KB

misc.py 3KB

callbacks.py 8KB

model_args.py 8KB

parser.py 5KB

adapter.py 9KB

__init__.py 0B

.gitignore 61B

retrieval_server.py 3KB

loader.py 6KB

misc.py 7KB

preprocess.py 14KB

ploting.py 2KB

base_engine.py 2KB

国务院关于加强地方政府性债务管理的意见.json 13KB

packages.py 2KB

RAG与FT的关系.png 174KB

longlora.py 14KB

code.py 257B

vllm_engine.py 8KB

quantization.py 6KB

moe.py 2KB

app.py 3KB

aligner.py 6KB

hf_engine.py 11KB

mod.py 832B

utils.py 3KB

rag_test.py 366B

valuehead.py 2KB

__init__.py 494B

chat_model.py 5KB

visual.py 1KB

RAG基本介绍.png 295KB

共 91 条

GZM888888

粉丝: 516
资源: 3067

BM25与BGE检索算法结合RAG增强技术实现大模型服务

《AI大模型应用》-Embedding检索算法的检索增强生成RAG示例，支持OpenAI风格的大模型服务.zip

《AI大模型应用》--基于BM25、BGE、OpenAI Embedding检索算法的检索增强生成RAG.zip

Python_RAGFlow是一个开源的基于深度文档理解的RAG检索增强生成引擎.zip

开源大模型RAG开发流程

如何在Python中实现BM25文本匹配算法，并通过一个实例来展示其文本搜索过程？

基于 BM25 算法的排序

RE2算法和BM25算法在文本匹配中的性能对比

掉包实现BM25算法

BM25算法 实现原理

如何在Python中使用BM25算法进行高效文本匹配？请结合具体代码实例进行说明。

最新资源

BM25算法实现原理