知识图谱检索增强的GraphRAG(基于Neo4j代码实现）-软文云

图检索增强生成（graph rag）正逐渐流行起来，成为传统向量搜索方法的有力补充。这种方法利用图数据库的结构化特性，将数据以节点和关系的形式组织起来，从而增强检索信息的深度和上下文关联性。图在表示和存储多样化且相互关联的信息方面具有天然优势，能够轻松捕捉不同数据类型间的复杂关系和属性。而向量数据库则处理这类结构化信息时则显得力不从心，它们更专注于处理高维向量表示的非结构化数据。在 rag 应用中，结合结构化化的图数据和非结构化的文本向量搜索，可以让我们同时享受两者的优势，这也是本文将要探讨的内容。

构建知识图谱通常是利用图数据表示的强大功能中最困难的一步。它需要收集和整理数据，这需要对领域知识和图建模有深刻的理解。为了简化这一过程，可以参考已有的项目或者利用LLM来创建知识图谱，进而可以把重点放在检索召回上，以提高LLM的生成阶段。下面来进行相关代码的实践。

1.知识图谱构建

为了存储知识图谱数据，首先需要搭建一个 Neo4j 实例。最简单的方法是在 Neo4j Aura 上启动一个免费实例，它提供了 Neo4j 数据库的云版本。当然，也可以通过 Docker 本地启动一个，然后将图谱数据导入到 Neo4j 数据库中。

步骤I：Neo4j环境搭建

下面是本地启动docker的运行示例：

步骤II：图谱数据导入

演示中，我们可以使用伊丽莎白一世的维基百科页面。利用 LangChain 加载器从维基百科获取并分割文档，后存入Neo4j数据库。为了试验中文上的效果，我们导入这个Github上的这个项目（QASystemOnMedicalKG）中的医学知识图谱，包含近35000个节点，30万组三元组，大致得到如下结果：

图片

或者利用LangChainLangChain 加载器从维基百科获取并分割文档，大致如下面步骤所示：

2.知识图谱检索

在对知识图谱检索之前，需要对实体和相关属性进行向量嵌入并存储到Neo4j数据库中：

实体信息向量嵌入：将实体名称和实体的描述信息拼接后，利用向量表征模型进行向量嵌入（如下述示例代码中的add_embeddings方法所示）。
图谱结构化检索：图谱的结构化检索分为四个步骤：步骤一，从图谱中检索与查询相关的实体；步骤二，从全局索引中检索得到实体的标签；步骤三，根据实体标签在相应的节点中查询邻居节点路径；步骤四，对关系进行筛选，保持多样性（整个检索过程如下述示例代码中的structured_retriever方法所示）。