项目
pdf Parser 其他Parser
存储结构
retrieval LLM调用
其他方面
RAGFlow
(python-
TypeScript
)
pyPDF2+ocr
优化了中文解析
正则化
• markdown
• pptx,docx
• html_text,
readability
• chardet
• openpyxl
• deepdoc:ocr+ts
r
minio->FS
mysql->基本信息
redis->向量存储,chunks
• Documents (PDF, DOCS)
• Tables (XLSX)
• Pictures (JPEG, JPG, PNG,
TIF, GIF)
普通:chunks,qa对,表格,
laws,ppt,一整个文件直接储
存方式
本地部署支持:
• bge全系列
• jina-embedding-v2
• nomic-embed-text
• all-MiniLM-L6-v2
• bce-embedding-base_v1
ollama和
inference部署
• 细粒度解析和文档溯源
展示做的比较好。
• 目前支持英语、简体中
文和繁体中文。
• 内置文档解析模型
LangFlow
(JS-
TypeScript
)
react-pdf 正在开发图像、音
频、视频等解析储
存
• code_parser
• image:
OpenSeadrago
n
Astra DB, postgre->chunks,向
量
支持chromadb
• Amazon Bedrock
Embeddings
• Astra vectoriz
• Cohere Embeddings
• OpenAI Embeddings
本地
• Ollama Embeddings
• VertexAI Embeddings
• Hugging Face Embeddings
本地:
• Qianfan
• Vertex AI
• Ollama
用户可以编辑或删除之前
的问答内容给后面的对话
做可控prompt
更方便构建agent工作流
FastGPT
(TypeScrip
t-JS)
pdfjs
只能识别文字
可以解析word,
excel,可以构建
表
MongoDB->FS储存
Postgre->chunk,向量储存
Mysql->openapi
在上传知识库处理时,就需要进
行分类储存管理:支持直接
chunk,qa对处理,外部url知识
库,高级摘要索引转化功能
embedding model支持:
内置的embedding api接口较
少
本地部署支持m3e,bge
通过openapi控
制
可以兼容ollama
和docker端口访
问模式
• 技术栈:NextJs +
TypeScript + ChakraUI
• 强调自己有独特的qa结
构,适合客服问答场景
• 点击提示需要付费的高
级功能按钮太多
DocsGPT(
python-
TypeScript
)
pyPDF2 • epub_parser
• rst_parser
• markdown_par
ser
• openapi3_pars
er
• csv&pandas_p
arser
MongoDB->FS储存
redis->向量存储,chunks
本地部署embedding模型暂时
位置
定制优化的llm:
Docsgpt-7b-
mistral
Docsgpt-14b
Docsgpt-40b-
falcon
对代码的,面向工程开发
文档的解析能力强
有py2doc,js2doc,
java2doc