直接结论
PDF 翻译的难点主要来自格式本身,而不是语言转换。
常见问题表现
- 01段落顺序混乱
- 02表格结构被破坏
- 03多栏内容无法正确还原
根本原因
- 01PDF 只保存页面坐标,不包含逻辑结构
- 02文本、表格、图形在文件中是分散存储的
- 03翻译工具往往只能提取纯文本
有效应对方式
- 01先解析 PDF 的逻辑结构
- 02区分正文、表格、注释等内容类型
- 03在结构层内完成翻译和重排
最终判断
PDF 翻译的本质问题是结构理解,而不是翻译准确率本身。
PDF 翻译的本质问题是结构理解,而不是翻译准确率本身。