多栏版面文档识别的阅读顺序不正确 #909

guoguo0646 · 2024-11-08T09:53:52Z

Description of the bug | 错误描述

使用0.9.0版本识别多栏版面文档识别的阅读顺序不正确

How to reproduce the bug | 如何复现

源pdf文档见附件
14-美国“马赛克战”作战概念解析_雷子欣.pdf
识别的版面阅读顺序不正确的截图

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.9.x

Device mode | 设备模式

cuda

myhloli · 2024-11-08T18:17:19Z

切换到layout顺序来看


这是有问题的两页，主要是因为排序模型是纯视觉的，没有使用到语义信息，
因此遇到图片占据上半空间且右侧有文本的情况下，会优先寻找右侧文本块。
同时由于该文档的span块比原始文本宽了不少，也容易导致排序模型作出错误的判断。
尝试开启强制ocr后，排序效果有一些改善，如下图

guoguo0646 · 2024-11-14T09:02:05Z

谢谢，使用ocr方法解析的效果有所提升，但还是存在顺序错乱的问题：第1栏结尾连接到了第3栏；还有个问题，原文档中的"效果网"解析成了“效果网”，多出了个空格；另外请问下您所说的“由于该文档的span块比原始文本宽了不少，也容易导致排序模型作出错误的判断。”，怎么排查得到span块比原始文本宽了许多？

myhloli · 2024-11-14T09:04:45Z

正常情况span的红框是贴着文本的，这个可视化结果红色线框差不多是正常文本的三倍宽了

guoguo0646 added the bug Something isn't working label Nov 8, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

多栏版面文档识别的阅读顺序不正确 #909

多栏版面文档识别的阅读顺序不正确 #909

guoguo0646 commented Nov 8, 2024

myhloli commented Nov 8, 2024

guoguo0646 commented Nov 14, 2024

myhloli commented Nov 14, 2024

多栏版面文档识别的阅读顺序不正确 #909

多栏版面文档识别的阅读顺序不正确 #909

Comments

guoguo0646 commented Nov 8, 2024

Description of the bug | 错误描述

How to reproduce the bug | 如何复现

Operating system | 操作系统

Python version | Python 版本

Software version | 软件版本 (magic-pdf --version)

Device mode | 设备模式

myhloli commented Nov 8, 2024

guoguo0646 commented Nov 14, 2024

myhloli commented Nov 14, 2024