需要多少个AI才能阅读PDF文件?

The Verge
解析PDF文件对AI来说仍然是一个重大挑战,需要专业模型才能准确提取结构化信息。

内容摘要

尽管AI取得了快速发展,但无处不在的PDF格式仍然是一个重大的障碍,经常导致数据提取不准确、总结错误或产生幻觉,即使是最先进的模型也是如此。这种困难源于该格式的设计,它优先考虑视觉保真度而非逻辑结构,在处理多栏布局、表格和脚注等元素时会使AI工具(如OCR)感到困惑。当开发人员试图分析司法部发布的数百万份不可搜索的Jeffrey Epstein文件时,这个问题尤为突出。像Reducto这样的公司正在通过使用专业化的、多遍的AI系统来解决这个问题,这些系统将页面分割成结构组件(标题、表格),然后再进行解析,从而实现了高准确性,甚至可以将图表转换为电子表格。人工智能研究所(Allen Institute for AI)和Hugging Face的研究人员也在开发专门的PDF阅读模型,因为他们认识到PDF中包含大量的优质训练数据。尽管取得了快速进展,但专家们一致认为,由于格式的复杂性和当前AI的概率性本质,完全准确地解析PDF仍然是一个持续的挑战,尽管该格式本身没有消失的迹象。

(来源:The Verge)