【开源】从 PDF、邮件到 Excel,Docs2KG 统一建图,80% 企业知识困在非结构化文档里?这个开源项目用图谱帮你“捞干货”
领导突然丢来一堆 PDF、Excel、邮件,让你“半小时内总结要点”。想从公司几年积累的报告里找某个数据,只能靠关键词硬搜,一搜一大片,还不知道哪个是最新版。做 RAG(检索增强生成)时,发现 LLM 经常“一本正经地胡说八道”,却没法追溯到信息来源。问题的根源在于:企业里真正值钱的知识,有80% 以上都躺在各种非结构化文档里——合同、邮件、报告、病历……格式五花八门,传统搜索引擎和数据库根本搞不定。最近我关注到一个挺有意思的开源项目——Docs2KG,它就想解决这个老大难问题:把各种异构、非结构化文档,统一变成一张多模态知识图谱,让知识“可查、可推理、可追溯”。Docs2KG 是怎么来的?
它到底好在哪?
和别的类似工具比,它适合谁、不适合谁?
🤔 Docs2KG 是怎么
来的?
企业里 80% 的数据是非结构化文档,但这些文档散落在各处,格式各异,传统方法难以整合。
要分析这个病人的完整情况,就得把这些多模态、多格式的信息整合起来。但这面临三大挑战:- 多模态数据提取:文本、表格、图片、图形,要从各种格式里都抽得出来。
- 多模型统一集成:不同模态要用不同的模型处理,怎么把它们塞进一个统一框架?
- 语义表示与溯源:不仅要理解内容,还要保留“这句话来自哪份文档、哪个段落”,否则无法追溯,也无法减少 LLM 的“幻觉”。
现有的很多知识图谱工具,要么只处理单一数据源(比如只处理 PDF),要么只关注文本,很难应对企业里“文档类型杂、模态多、结构乱”的现实场景。于是,HKUDS 和 AI4WA 的研究团队提出了Docs2KG:一个专门从异构非结构化文档中,构建多模态统一知识图谱的开源框架。- 输入:各种文档(邮件、网页、PDF、Excel 等)。
- 输出:一张统一的知识图谱,既保留结构,又保留语义,还能追溯到原文。
- 特点:自动化、可扩展、支持人机交互,并且开源可用。
✨ Docs2KG 到底好在哪?
我体验下来,觉得它最吸引人的地方有四点:全、通、准、开。1. 全:支持多种文档类型
Docs2KG 能处理你日常能见到的绝大多数文档:它不只是简单读取文本,而是把文档拆成文本块、表格、图片、布局结构等多个部分,为后续构建多模态知识图谱打下基础。2. 通:双路径数据处理
这是 Docs2KG 的核心设计之一,简单来说就是“两条腿走路”:- Markdown Converter 路径:对于 HTML、结构化较好的 PDF/Excel,先转成 Markdown/JSON,再用 XPath 等方式提取文本、表格、图片,同时保留文档树结构。
- Image Converter 路径:对于扫描件、复杂排版的 PDF,先用深度学习模型做文档布局分析,识别出文本块、表格、图片及其位置,再分别提取内容。
这种双路径策略,既保证了结构化文档的处理效率,又兼顾了复杂文档的识别能力,让不同类型文档都能被统一处理。3. 准:多模态统一知识图谱
Docs2KG 把提取的信息,构建成一张包含结构和语义的多模态知识图谱,并存储在 Neo4j 图数据库中。- 模态内关系:比如标题和段落的“父子”关系,句子之间的“同时发生”、“支持”等语义关系。
- 跨模态关系:比如“这句话解释了这张图”、“这个表格补充了那段文字”等。
更重要的是,图谱中保留了布局实体(如页面、段落、表格的位置),这样你不仅能查到“说了什么”,还能追溯到“在哪份文档的哪一页”。4. 开:开源且可扩展
Docs2KG 是一个完全开源的项目,代码在 GitHub 上,文档和演示视频也很齐全。调整知识图谱的存储(默认 Neo4j,也可换其他图数据库)。这意味着,它不是一个“黑箱工具”,而是一个可以二次开发的“知识图谱构建框架”。
🆚 和其他类似工具比,它适合谁?
项目 | 核心定位 | 优点 | 缺点 | 适合谁 |
|---|
Docs2KG | 从异构非结构化文档构建多模态知识图谱 | 支持多种文档类型、双路径处理、保留布局和来源、开源可扩展 | 上手有一定门槛,需要理解知识图谱和 LLM 的基本概念 | 企业知识管理、RAG 增强、多模态文档分析 |
Connected Papers | 文献引用关系可视化 | 专注于学术文献,图谱直观,适合文献调研 | 只处理学术论文,不支持其他文档类型 | 科研人员、学生 |
iText2KG | 从文本构建增量知识图谱 | 专注于文本,增量构建,适合动态更新知识 | 不支持多模态,对非文本信息(如表格、图片)处理能力有限 | 文本密集型场景,如合同、报告分析 |
LangChain+KG | LLM 与知识图谱的集成框架 | 灵活,可定制性强,适合构建复杂的 LLM 应用 | 需要自己整合文档解析、知识图谱构建等组件,开发工作量大 | 有较强开发能力的团队 |
传统 ETL+KG | 企业数据集成与知识图谱构建 | 成熟稳定,适合结构化数据处理 | 对非结构化文档处理能力有限,依赖大量人工规则 | 以结构化数据为主的企业 |
如果你想从各种非结构化文档中提取知识,并构建一张可追溯的知识图谱,Docs2KG 是目前非常值得关注的选择。如果你只是想做文献调研,那 Connected Papers 可能更合适。如果你已经有了成熟的文档解析流程,只想用 LLM 增强知识图谱,那 LangChain+KG 或 iText2KG 可能更符合你的需求。
🚀 最后,给想动手的你一点建议
- 先跑通 Demo:去 Docs2KG 的官网或 GitHub,按照文档跑通一个简单的例子,比如处理一份 PDF 和一份 Excel,看看生成的知识图谱是什么样的。
- 再集成到现有系统:如果你有 RAG 系统,可以尝试用 Docs2KG 替换掉原来的文档解析和索引模块,看看效果有没有提升。
- 最后深入源码:当你熟悉了基本流程,再去看它的源码,理解双路径处理、多模态知识图谱构建等核心概念,相信你会对“文档智能”有更深的理解。
如果你也想把公司里“沉睡”的文档变成“活”的知识,不妨从 Docs2KG 开始。毕竟,知识只有被组织起来,才能发挥最大的价值。开源地址
猜您喜欢:
绝了!轻松做出媲美游戏级的数字孪生3D可视化效果!深度融合3D场景+物联网实时数据+多维UI图表
【开源】开箱即用的一体化后台,以SpringBoot3为底座,低代码 + 零 Controller:让后台系统飞起来
一键成片不是魔法:拆解AI短剧从灵感到成片的完整流水线
绝了!轻松做出媲美游戏级的数字孪生3D可视化效果!深度融合3D场景+物联网实时数据+多维UI图表
6元解锁620+优质开源项目!技术会员群上线,包括70+低开平台,50+AI平台
添加微信进相关交流群,
备注“微服务”进群交流
备注“低开”进低开群交流
备注“AI”进AI大数据,数据治理群交流
备注“数字”进物联网和数字孪生群交流
备注“安全”进安全相关群交流
备注“自动”进自动化运维群交流
备注“试用”可以申请产品试用
备注“定制”可以定制项目,全源码交付