👉 项目官网:https://www.python-office.com/ 👈

👉 本开源项目的交流群 👈

atomgit star github star gitee star PyPI Downloads AI交流群

已发布:https://mp.weixin.qq.com/s/y5lFntiZodekGavSOXtKYg

大家好,这里是程序员晚枫,正在all in AI编程实战,今天给大家推荐一个搭建本地知识库的神器:EasyDoc!

体验地址:https://www.easylink-ai.com/easy-doc/

使用说明,点击查看:https://www.bilibili.com/video/BV1DoubzuEL9

高效搭建知识库

之前给大家分享过一些传统的OCR(文字识别)的工具,但使用过程中会遇到一个问题:

当我们遇到合同、报表、手册等广泛存在的复杂文档进行识别、解析时,识别结果不够清晰准确

尤其是现在AI时代,个人或者企业想搭建一个本地专属知识库,喂给知识库的文档解析结果,将直接影响知识库训练的准确度。

使用EasyDoc,可以轻松解决这个问题。

一键上传,解析文档

对于使用解析工具的人来说,无需编程基础,简单方便的使用文档解析非常重要!

一键上传

使用EasyDoc,鼠标直接上传就可以启动智能解析,生成结构树。

并且还可以快速获取结构化的JSON格式,这是专为 AI 应用和程序化处理流程设计的。

甚至还可以生成Markdown形式的内容,提供更灵活的数据组织与展示方式。

解析结果

一份图表、文字复杂的文档,EasyDoc可以精准识别内容并进行布局,它是采⤤"按块处理"技术,可以完整保留文档的原始逻辑结构,精准解析每个单元格间的关系和上下₂。

区别于传统OCR

我体验了一段时间,发现相比于传统OCR,EasyDoc有独特的优势。

布局精准识别,层次分明

无论是复杂的学术论文,还是图文混排的报告,
EasyDoc都能精准识别内容块,即标题、段落、表格、图表...
甚至坐标位置都被完整记录,为LLM提供清晰的"阅读框架"。

定位结果

知识逻辑洞察,构建结构树

传统的解析工具,把文字提取正确就不错了。

EasyDoc通过AI分析文档逻辑,将章节、小节、段落关联成树状结构!

结构树

LLM从此能理解'章节-小节-内容'的上下文关系,回答问题更精准。

多模态内容解析,图表深度解读

大家平时在工作中,遇到复杂表格、甚至是动态图表时,是不是只能自己用肉眼去识别图标的含义。

使用EasyDoc,不仅能提取数据,更能进行深度解读:表格行列关系、图片中的数据含义,都可以轻松解读。

识别图标

生成LLM可理解的语义信息,让多模态数据真正实现"开口说话"。

支持主流AI应用

不仅有以上几个特点,EasyDoc还对目前大火的RAG和Dify,做了专门的优化。

RAG系统的优化

EasyDoc的输出还专门为RAG系统做了优化:

  • 第一个是语义分块,相比于业界通常采用字数、标点、页面等规则进行分块,Easydoc是根据语义信息识别进行分块的,像段落、表格、图表及其标题、注释,它还可以实现合并跨页/跨栏的内容,这样有助于形成逻辑完整的语义单元块。
  • 第二个是上下文增强,通过识别出来的层级结构为每个语义单元提供文档路径上下文,这样就可以保留这个文档内容的关联性,提升检索的召回率与准确性。
  • 第三个是精准溯源,识别的时候,同步提供页码和视觉坐标信息,是可以很好的有助于大语言模型( LLM)** 高效定位信息源。**

单元块

上架Dify平台

不光如此,EasyDoc的在线解析功能已经上架dify平台,可以直接安装使用。

官方教程:教程来啦丨EasyDoc Dify 插件超详细配置攻略 + 工作流实战案例!

这么好用的工具,还可以免费试用,搜索EasyDoc用起来,从此办公更高效,少加班多锻炼!

Dify

开发者友好

功能太强大,甚至有点溢出了怎么办?

不用担心,针对不同的需求,EasyDoc根据不同需求设置了三大解析模式:

  • Lite模式:快速识别文档布局,保留逻辑且层级结构清晰
  • Pro模式:智能合并跨页内容,构建完整文档层次
  • Premium模式:深度解析图表表格,输出丰富结构化数据"

三大模式

顺便给大家推荐一下我们专门为EasyDoc发布的开源项目:poel,一行代码实现文档解析!

poel详解,请看:1行代码搭建知识库,我发现了一个部署本地大模型的开源神器

首先下载poel:

1
pip install poel

下载以后,1行代码就可以实现文档的解析:

1
2
3
4
import poel

poel.easydoc.parse_files(api_key='api_key', file_path=r"test_files",mode='lite')

运行以上代码,返回值就是解析后的文档内容了!

写在最后

搭建知识库的过程中,文档解析的准确度将直接影响知识库的使用效率。

有了EasyDoc,在企业,我可以自动化处理千份合同,像手术刀一样精准切割文本块,提取金额/日期等关键字段,智能合并跨页条款,自动组装完整逻辑链。

EasyDoc可以把文档解剖成逻辑层级(章→节→要点),像给知识库装了GPS,并且可以直接解析技术图表和表格,知识库秒变'最强大脑',工程师再也不用'海底捞针'!

请记住,任何行业,只要进行文档解析,EasyDoc都可以进入你的实现方案!


另外,大家去给小明的小红书👇账号点点赞吧~!我不想努力了,想吃软饭了。

小红书:爱吃火锅的小明

扫一扫,领红包

美团红包

滴滴红包

相关阅读

🎓 AI 编程实战课程

程序员晚枫专注AI编程培训,通过 《30讲 · AI编程训练营》,让小白也能用AI做出实际项目。帮你从零上手!