在搭建AI知识库这事儿上,有不少成熟的框架,我推荐使用FastGPT。这篇文章笔者就使用过的两款平台做个比较,FastGPT和百度千帆平台。
随着企业的运营,企业的私有数据越来越多(结构化、半结构化、非结构化的数据)。这么多数据,我们不可能都记在大脑里,就算老员工能记住,那对于一个新人来说如何快速上手呢?
所以搭建知识库就成了刚需。得益于LLM(大模型)的发展,让AI可以更好的理解自然语言,再加上向量数据库的检索,让许多沉睡的知识可以被唤醒。
企业可以通过搭建知识库提高工作效率,提升服务质量,还可以基于知识做出更好的决策。
LLM存在幻觉问题,对于它不知道的知识会胡编乱造,可靠性差。所以在搭建知识库的技术方案上,一般有2个争论:
微调大模型,就是将已有的知识喂给LLM,让LLM学习。暂不说这种方式的安全性如何。单单从模型迭代的角度来看就不合适。
不管是部署开源模型 还是 采用闭源模型,随着时间的推移,模型的迭代非常快,模型会越来越聪明。模型每14天都会小迭代一次。迭代之后,之前投喂的数据会失效,而且之前做过的优化,会随着模型能力变强后,会变成无用功。
所以,我更推荐RAG技术。检索增强生成(Retrieval Augmented Generation,RAG)是一种强大的工具,它可以将企业的私有知识 通过LLM + 外接向量数据库的方式整合到一起。
技术方案选定后,我们常规的搭建知识库的步骤如下:
文档加载 → 文档分割 → 文档嵌入 → 向量化存储 → 文档检索 → 生成回答
方案和步骤有了,下面看看选哪种框架。业内用LLM做知识库的方案较多,比如FastGPT、Dify、自己基于LangChain开发、百度的千帆平台等等。
本篇主要介绍FastGPT和 百度千帆平台。基于LangChain开发的方案之前的文章也介绍过,感兴趣的朋友自行翻阅之前的文章。
下面就两个主角在知识库问答领域的效果做个比较。
操作界面上都差不过,从首页,到上传文件到知识库,再到创建AI应用,操作都很简便。
我个人更喜欢FastGPT的页面风格,页面比较清爽,很明显地看到 知识库、创建大模型应用 这2个版块。
FastGPT
首页
创建知识库,将处理好的本地文档、网页、QA问答上传,然后利用词嵌入模型处理,再存入向量数据库。
创建AI应用
百度千帆
首页:
创建知识库,将处理好的本地文档、网页、QA问答上传,然后利用词嵌入模型处理,再存入向量数据库。
创建AI应用
在文档嵌入这一步,需要选择词嵌入模型。FastGPT可以选择适合自己的模型,但是百度千帆没有选择项,只能用百度的模型。
FastGPT
在AI回答这一步,也需要用到大模型。FastGPT可以选择适合自己的模型,但是百度千帆没有选择项,只能用百度的模型。
FastGPT
百度千帆
发布渠道这一局,算百度完胜了!百度千帆集成了多个发布渠道,使用感受较好。FastGPT相对来说就有点少了,而且还需要额外的搭建和部署。
FastGPT
百度千帆
他俩在正常的问答结果上都差不多,这个结果跟选择的词嵌入模型和问答模型有关。但是在使用的体验上,我有几点要吐槽:
FastGPT
FastGPT源码开放,可以自己搭建,模型也可以自己搭配。对于企业内部使用非常友好。
自行搭建的话,需要开发者介入。不过FastGPT也有云上的SaaS版本,按需付费使用,无需开发者介入。
百度千帆
百度千帆是百度的闭源产品,模型也是闭源,而且模型只能用百度。这个对于企业内部使用不友好。
无需开发者介入,稍微懂些产品,看下文档,即可使用。
如果从数据安全方面考虑,只能选择FastGPT了,所有的数据都可以存储在企业自己的服务器上。
总之,没有最优的方案,只有最合适的方案。
大部分场景下FastGPT都是比较胜任的。如果只考虑以最小代价快速实现一个知识库问答,我推荐使用百度千帆平台。其余情况,我推荐使用FastGPT。
在操作界面上、词嵌入模型上、问答模型上、对话体验和数据安全上,我觉得FastGPT都是很专业的。FastGPT的发力点就是在构建专业的知识库领域。
=====>>>>>> 关于我 <<<<<<=====
本篇完结!欢迎点赞 关注 收藏!!!