PDF Data Extractor(PDF数据提取软件)是一款非常不错的PDF数据提取软件,用户能够使用这款软件对pdf文件的文本信息进行提取,在软件中用户能够设置信息提取规则,可自定义信息提取范围,并且支持对文字进行过滤处理等。
基本简介
PDF Data Extractor 可以提取 PDF 中的某些文本信息,如果您有例如需要提取帐号、姓名、地址等数据并将这些信息输出到 Excel CSV 文件的 PDF 语句,这是一个理想的产品。它使用水平、垂直文本位置匹配,对于更高级的匹配,它具有用于条件匹配的规则系统,例如仅当帐号:文本在同一页面上时才匹配。不同的字段也可以合并为一个,因此可以将名字和姓氏作为一个字段输出到 CSV 文件中。许多选项可用:数据提取、OCR pdf 选项、OCR 数字校正、调整倾斜的 pdf 页面选项、对其他语言文件的完整 Uni code 支持,例如希伯来语,从右到左阅读顺序选项,页面上的单词偏移,用于处理切碎的扫描 PDF,数字、日期和货币过滤,数据列顺序分配,在命令行上运行,标题输出,页码字段,文件名字段, 批处理文件列表,32 位和 64 位版本。
现在还可以根据提取的数据重命名文件或将文件复制到新位置。
功能介绍
支持 Windows XP、2003、2008、2012、2016、2019、Windows 7、Vista、8 和 Windows 10
32 位和 64 位版本用于更快的处理
对所有语言的 Uni code 支持,例如文件名和文本中的英语、日语、中文、希伯来语
子弹从多页pdf中提取数据
来自源pdf的多个输出字段,通过文本之前,位置,第一次匹配和最后一次匹配向下和向上匹配选项。
bullet 条件匹配规则系统
项目符号输出字段,例如:总页数、匹配的页码、文件名
项目符号列输出位置选项
子弹 OCR pdf 第一个选项
项目符号日期/金钱/字母/数字输出过滤
项目符号 将文本复制到剪贴板选项以放入其他软件
用于处理扫描的 pdf 文件的偏移位置开始,例如标题被切断或倾斜,因此可以从某个稳定的文本点计算所有位置
项目符号修复略微倾斜的扫描位置的垂直文本选项四舍五入到最接近的 5 点
用于向后镜像扫描的项目符号反向文本选项
对希伯来语等语言的从右到左单词选项支持
使用批处理列表处理处理 pdf 的批处理列表
可选在命令行上运行以实现自动化
根据提取的数据将文件重命名或复制到新位置
项目符号 支持除加密和保护之外的所有 pdf 类型。
项目符号 自动保存设置以备后用
项目符号 完整记录已处理、错误和移动的文件。
子弹安装程序
完整的 HTML 和 PDF 帮助
软件特色
直观的图形界面,带有大量工具
该应用程序的安装时间并不长,并且没有复杂的设置,您在实际使用它的功能之前就需要完成该设置。它具有一个真正直观的图形界面,并带有大量工具和功能。
该应用程序允许您从PDF文档中提取某些文本信息。例如,如果您有一个PDF语句,您需要提取诸如帐号,名称,地址之类的数据并将此信息输出到Excel csv文件中,则它将是一个有用的程序。
从PDF文档中提取文本
启动应用程序后,您需要做的第一件事是浏览计算机并找到您要处理的PDF文档。然后,您必须选择页码,应用程序将在记事本中显示文本,以便您可以提取它。
它使用水平,垂直文本位置匹配,并且对于更高级的匹配,它具有用于条件匹配的规则系统。
更多功能和工具
您可以根据提取的数据将文件重命名或复制到新位置。它带有更多选项,例如数据提取,在命令行上运行,标头输出,页码字段,文件名字段,要处理的文件批处理列表等等。
总而言之,PDF Data Extractor是一个非常不错的应用程序,您可以使用它来从各种PDF文档中提取文本。
更新日志
1.修复扫描ocr问题。
2. 修复了在一行和批处理中全部输出的问题,现在每个文件后都会自动添加换行符。
3. 对每个文件和位置一行处理的一些改进。
4. 修复潜在的换行问题。