免费 千页pdf公式表格精准解析,轻松构建知识库

  • 主题发起人 主题发起人 Scare
  • 开始时间 开始时间

Scare

0xFF|主权幽灵
07
908
172
奇源币
0
管理成员
工作人员
版主
VIP


前言​

市面上有不少的pdf解析工具,但是要么效果不够好,要么价格太昂贵
给各位佬自荐下我们开发的pdf解析工具Doc2X
效果够好(复杂布局,公式,表格都能handle),价格也足够便宜(网页0.01元/页,API 0.02元/页),
相比mathpix的 0.02美刀/页 textin 的0.05元/页 腾讯云的0.1元/页等还是便宜很多

效果展示​

旋转表格识别:
screenshot-20250123-115550
screenshot-20250123-1155501920×1268 162 KB

公式识别效果:
screenshot-20250123-115732
screenshot-20250123-1157321920×1247 184 KB


使用方法​

API 调用​

api需要在 Doc2X开放平台 注册使用
调用也很简单,我们提供了pip包 pdfdeal 轻松安装调用
pip 安装:
screenshot-20250123-120127
screenshot-20250123-1201271142×778 189 KB

也有文档提供使用

此外还可以使用我们的开源项目在Doc2X解析后翻译md:
Doc2X API翻译

网页/客户端使用​

网页上使用 Doc2X则更方便:
Doc2X 中注册后即可使用,并且每月签到会赠送100页的解析/翻译额度以及100张的图片识别额度
在当前评论区评论也有机会赠送我们的月度会员兑换码

导入知识库​

fastgpt​

github.com/labring/FastGPT

docSite/content/zh-cn/docs/guide/plugins/doc2x_plugin_guide.md

main
---
title: "Doc2x 插件填写说明"
description: "如何配置和使用 Doc2x 插件"
icon: "doc_transform"
draft: false
toc: true
weight: 308
---

1. # 打开docx官网,创建账号,并复制 apikey


![](/imgs/doc2x_plugin1.png)

![](/imgs/doc2x_plugin2.png)

1. # 填写apikey到fastgpt中

**工作流****中:**

此文件已被截断。 显示原始文件


扣子​

在扣子中搜索doc2x插件 并填入API

graphrag​

Menghuan1918's Blog – 26 Jun 24

将PDF知识图谱化:graphrag+Doc2X+DeepSeek

巨硬最近新出了个 graphrag ,号称其能提取有意义的结构化数据,不过遗憾的是默认情况下其只能读取txt或者csv数据。这次就让我们用外部库pdfdeal将PDF转换为带格式化的txt,再结合更便宜的deepseek进行构建。


cherry studio & others​

以网页为例:
image
image704×608 46.6 KB


点击右上角的导出 markdown,选择公式模式等选项,得到的是一个zip包
里面有解析好的 md 文件和 图片等
或者使用导出在线图床,将md文件拖入对应软件即可

markdown预览推荐​

Doc2X解析的内容推荐使用vscode 插件 shd101wyy.markdown-preview-enhanced
并按照下面教程配置:

// ctrl/cmd + shift + p 打开vscode快捷面板
// 输入: preferences: open user settings (JSON)
// 将下面片段加入JSON 即可
"markdown-preview-enhanced.mathRenderingOption": "MathJax",
"markdown-preview-enhanced.mathInlineDelimiters": [
[
"$",
"$"
],
[
"\\(",
"\\)"
]
],
"markdown-preview-enhanced.mathBlockDelimiters": [
[
"$$",
"$$"
],
[
"\\[",
"\\]"
]
],

总结​

使用Doc2X可以方便快捷便宜的将pdf解析成结构化的md文件,并且公式表格复杂布局等也能精准转换
在当前评论区评论也有机会赠送我们的月度会员兑换码
大家有什么建议反馈也可以评论区留言,我们会不断优化效果
 
后退
顶部