分享一个快速搭建本地知识库的方法！

👉 项目官网：https://www.python-office.com/ 👈

👉 本开源项目的交流群 👈

已发布：https://mp.weixin.qq.com/s/y5lFntiZodekGavSOXtKYg

大家好，这里是程序员晚枫，正在all in AI编程实战，今天给大家推荐一个搭建本地知识库的神器：EasyDoc！

体验地址：https://www.easylink-ai.com/easy-doc/

使用说明，点击查看：https://www.bilibili.com/video/BV1DoubzuEL9

高效搭建知识库

之前给大家分享过一些传统的OCR（文字识别）的工具，但使用过程中会遇到一个问题：

当我们遇到合同、报表、手册等广泛存在的复杂文档进行识别、解析时，识别结果不够清晰准确。

尤其是现在AI时代，个人或者企业想搭建一个本地专属知识库，喂给知识库的文档解析结果，将直接影响知识库训练的准确度。

使用EasyDoc，可以轻松解决这个问题。

一键上传，解析文档

对于使用解析工具的人来说，无需编程基础，简单方便的使用文档解析非常重要！

一键上传

使用EasyDoc，鼠标直接上传就可以启动智能解析，生成结构树。

并且还可以快速获取结构化的JSON格式，这是专为 AI 应用和程序化处理流程设计的。

甚至还可以生成Markdown形式的内容，提供更灵活的数据组织与展示方式。

解析结果

一份图表、文字复杂的文档，EasyDoc可以精准识别内容并进行布局，它是采⤤”按块处理”技术，可以完整保留文档的原始逻辑结构，精准解析每个单元格间的关系和上下₂。

区别于传统OCR

我体验了一段时间，发现相比于传统OCR，EasyDoc有独特的优势。

布局精准识别，层次分明

无论是复杂的学术论文，还是图文混排的报告，
EasyDoc都能精准识别内容块，即标题、段落、表格、图表…
甚至坐标位置都被完整记录，为LLM提供清晰的”阅读框架”。

定位结果

知识逻辑洞察，构建结构树

传统的解析工具，把文字提取正确就不错了。

EasyDoc通过AI分析文档逻辑，将章节、小节、段落关联成树状结构！

结构树

LLM从此能理解’章节-小节-内容’的上下文关系，回答问题更精准。

多模态内容解析，图表深度解读

大家平时在工作中，遇到复杂表格、甚至是动态图表时，是不是只能自己用肉眼去识别图标的含义。

使用EasyDoc，不仅能提取数据，更能进行深度解读：表格行列关系、图片中的数据含义，都可以轻松解读。

识别图标

生成LLM可理解的语义信息，让多模态数据真正实现”开口说话”。

支持主流AI应用

不仅有以上几个特点，EasyDoc还对目前大火的RAG和Dify，做了专门的优化。

RAG系统的优化

EasyDoc的输出还专门为RAG系统做了优化：

第一个是语义分块，相比于业界通常采用字数、标点、页面等规则进行分块，Easydoc是根据语义信息识别进行分块的，像段落、表格、图表及其标题、注释，它还可以实现合并跨页/跨栏的内容，这样有助于形成逻辑完整的语义单元块。
第二个是上下文增强，通过识别出来的层级结构为每个语义单元提供文档路径上下文，这样就可以保留这个文档内容的关联性，提升检索的召回率与准确性。
第三个是精准溯源，识别的时候，同步提供页码和视觉坐标信息，是可以很好的有助于大语言模型（ LLM）** 高效定位信息源。**

单元块

上架Dify平台

不光如此，EasyDoc的在线解析功能已经上架dify平台，可以直接安装使用。

官方教程：教程来啦丨EasyDoc Dify 插件超详细配置攻略 + 工作流实战案例！

这么好用的工具，还可以免费试用，搜索EasyDoc用起来，从此办公更高效，少加班多锻炼！

Dify

开发者友好

功能太强大，甚至有点溢出了怎么办？

不用担心，针对不同的需求，EasyDoc根据不同需求设置了三大解析模式：

Lite模式：快速识别文档布局，保留逻辑且层级结构清晰
Pro模式：智能合并跨页内容，构建完整文档层次
Premium模式：深度解析图表表格，输出丰富结构化数据”

三大模式

顺便给大家推荐一下我们专门为EasyDoc发布的开源项目：poel，一行代码实现文档解析！

poel详解，请看：1行代码搭建知识库，我发现了一个部署本地大模型的开源神器

首先下载poel：

1	pip install poel

下载以后，1行代码就可以实现文档的解析：

import poel

poel.easydoc.parse_files(api_key='api_key', file_path=r"test_files",mode='lite')

运行以上代码，返回值就是解析后的文档内容了！

写在最后

搭建知识库的过程中，文档解析的准确度将直接影响知识库的使用效率。

有了EasyDoc，在企业，我可以自动化处理千份合同，像手术刀一样精准切割文本块，提取金额/日期等关键字段，智能合并跨页条款，自动组装完整逻辑链。

EasyDoc可以把文档解剖成逻辑层级（章→节→要点），像给知识库装了GPS，并且可以直接解析技术图表和表格，知识库秒变’最强大脑’，工程师再也不用’海底捞针’！

请记住，任何行业，只要进行文档解析，EasyDoc都可以进入你的实现方案！

另外，大家去给小明的小红书👇账号点点赞吧~！我不想努力了，想吃软饭了。

小红书：爱吃火锅的小明

扫一扫，领红包

美团红包

滴滴红包

相关阅读

给小白的《30讲 · AI编程训练营》

程序员晚枫专注AI编程培训，小白看完他和图灵社区合作的教程《30讲 · AI编程训练营》就能上手做AI项目。

缺失模块。
1、请确保node版本大于6.2
2、在博客根目录（注意不是yilia根目录）执行以下命令：
npm i hexo-generator-json-content --save

3、在根目录_config.yml里添加配置：

  jsonContent:
    meta: false
    pages: false
    posts:
      title: true
      date: true
      path: true
      text: false
      raw: false
      content: false
      slug: false
      updated: false
      comments: false
      link: false
      permalink: false
      excerpt: false
      categories: false
      tags: true

编程博主，全网粉丝30w+，开源项目：python-office，我的微信：python-office