RAGFlow 把 Word、PDF、Excel、扫描件、网页一键变成可溯源的问答知识库

开源 作者:iTrust 2025-07-18 13:19:27 阅读:8

 RAGFlow 是由 InfiniFlow 开源的一套完整的 RAG(Retrieval-Augmented Generation,检索增强生成)引擎,基于深度文档结构理解构建,旨在为各类规模的企业和开发者提供高效、可靠的 RAG 工作流解决方案。

该系统支持从复杂格式文档(如 PDF、DOCX、Excel、图像 等)中提取结构化知识,通过模板化切片、嵌入落地等处理方式,结合大型语言模型(LLM)实现有源可查、基于引用的真实问答能力。其内建的可视化分块机制与引用追踪系统有效减少模型幻觉,显著提升生成质量与答案可信度。

RAGFlow 广泛适用于科研研发、行业分析、AI 驱动业务应用等场景,是构建企业级智能问答与知识检索系统的强大引擎基础。

核心功能亮点

1.深度文档理解

  • • 针对 Word、Excel、PDF、扫描图像等复杂格式结构化提取知识,构建语义理解管道。

2.模板化内容切片

  • • 支持可解释分段方式,将文档拆解为千级代码结构块,用于生成输入提示与索引。

3.可溯源问答
-回答结果附带引用文档位置,减少 hallucination 并提升答复可信度。

4.多源混合检索

  • • 支持不同类型的嵌入模型与多阶段召回策略,结合 web 搜索与内部知识库,实现融合重排序。

5.多模态与跨语言支持

  • • 支持 PDF 中图像读取、跨语言提问、代码执行等特性。

6.代码执行 Sandbox

  • • 2025 年 5 月新增 Python/JavaScript 代码执行组件,用于安全、沙箱内运行用户输入内容。

系统架构概览

  • • DeepDoc 模块:布局分析与结构识别;
  • • RAG 模块:文档切片 → 嵌入 → 召回 → LLM 生成;
  • • Agent 模块:流程管理、执行器支持(如代码运行);
  • • Web UI 与 API:提供交互式问答及操作控制台;
  • • 部署方式:Docker + Compose、自建、Helm、K8s。

安装与使用指南

1.环境要求:

  • • CPU ≥ 4 核,内存 ≥ 16 GB,磁盘 ≥ 50 GB;
  • • Docker ≥ 24.0,Compose ≥ v2.26 及以上。

2.Docker 快速启动:

sysctl -w vm.max_map_count=262144 git clone https://github.com/infiniflow/ragflow.git cd ragflow docker compose up -d

或使用 launch_backend_service.sh 配合本地依赖方式运行(推荐 Linux)。

3.源码开发环境:

pipx install uv pre-commit git clone … uv sync --python3.10 --all‑extras uv run download_deps.py bash docker/launch_backend_service.sh cd web && npm install && npm run dev

4.使用流程:

  • • 上传 PDF、DOCX、网页等资料;
  • • 系统自动结构分析、生成嵌入;
  • • 在 Web UI/API 中发起查询,观察带引用的回答结果。

项目信息一览

  • • 项目地址:https://github.com/infiniflow/ragflow
  • • 在线 Demo:https://demo.ragflow.io
  • • Stars / Forks:≈ 59.7k / 6k
  • • License:Apache‑2.0
  • • 语言与架构:核心用 Python + TypeScript 构建,项目包含 deepdoc、agent、api、web 等模块,支持 Docker、Kubernetes、Helm 等多种部署方式
  • • 适用场景:企业知识库、文档问答、数据分析支持、LLM 增强服务

RAGFlow 把“文件堆”秒变“可溯源的企业知识大脑”,一键 Docker 起服务,十分钟上线 AI 问答

赞助链接

Copyright © 2024 5xcloud.com All rights reserved.

蜀ICP备20006130号