前言
市面上有不少的pdf解析工具,但是要么效果不够好,要么价格太昂贵给各位佬自荐下我们开发的pdf解析工具Doc2X
效果够好(复杂布局,公式,表格都能handle),价格也足够便宜(网页0.01元/页,API 0.02元/页),
相比mathpix的 0.02美刀/页 textin 的0.05元/页 腾讯云的0.1元/页等还是便宜很多
效果展示
旋转表格识别:
screenshot-20250123-1155501920×1268 162 KB
公式识别效果:
screenshot-20250123-1157321920×1247 184 KB
使用方法
API 调用
api需要在 Doc2X开放平台 注册使用调用也很简单,我们提供了pip包 pdfdeal 轻松安装调用
pip 安装:
screenshot-20250123-1201271142×778 189 KB
也有文档提供使用
此外还可以使用我们的开源项目在Doc2X解析后翻译md:
Doc2X API翻译
网页/客户端使用
网页上使用 Doc2X则更方便:在 Doc2X 中注册后即可使用,并且每月签到会赠送100页的解析/翻译额度以及100张的图片识别额度
在当前评论区评论也有机会赠送我们的月度会员兑换码
导入知识库
fastgpt
github.com/labring/FastGPTdocSite/content/zh-cn/docs/guide/plugins/doc2x_plugin_guide.md
main---
title: "Doc2x 插件填写说明"
description: "如何配置和使用 Doc2x 插件"
icon: "doc_transform"
draft: false
toc: true
weight: 308
---
1. # 打开docx官网,创建账号,并复制 apikey


1. # 填写apikey到fastgpt中
**工作流****中:**
此文件已被截断。 显示原始文件
扣子
在扣子中搜索doc2x插件 并填入APIgraphrag
Menghuan1918's Blog – 26 Jun 24将PDF知识图谱化:graphrag+Doc2X+DeepSeek
巨硬最近新出了个 graphrag ,号称其能提取有意义的结构化数据,不过遗憾的是默认情况下其只能读取txt或者csv数据。这次就让我们用外部库pdfdeal将PDF转换为带格式化的txt,再结合更便宜的deepseek进行构建。cherry studio & others
以网页为例:
image704×608 46.6 KB
点击右上角的导出 markdown,选择公式模式等选项,得到的是一个zip包
里面有解析好的 md 文件和 图片等
或者使用导出在线图床,将md文件拖入对应软件即可
markdown预览推荐
Doc2X解析的内容推荐使用vscode 插件 shd101wyy.markdown-preview-enhanced并按照下面教程配置:
// ctrl/cmd + shift + p 打开vscode快捷面板
// 输入: preferences: open user settings (JSON)
// 将下面片段加入JSON 即可
"markdown-preview-enhanced.mathRenderingOption": "MathJax",
"markdown-preview-enhanced.mathInlineDelimiters": [
[
"$",
"$"
],
[
"\\(",
"\\)"
]
],
"markdown-preview-enhanced.mathBlockDelimiters": [
[
"$$",
"$$"
],
[
"\\[",
"\\]"
]
],
总结
使用Doc2X可以方便快捷便宜的将pdf解析成结构化的md文件,并且公式表格复杂布局等也能精准转换在当前评论区评论也有机会赠送我们的月度会员兑换码
大家有什么建议反馈也可以评论区留言,我们会不断优化效果