DeepSeek V4 文档翻译实测：对比 V3.2、GPT-5.4、Claude 4.7、Gemini 3 Pro

前言：DeepSeek V4 真的能翻译好你的文档吗？

DeepSeek V4 一发布就冲上各大技术社区热搜，基准分漂亮、价格也没涨太多。但基准分和真实文档翻译是两码事——我们这边的用户提的最多的问题是："V4 值不值得切？PDF、合同、学术论文这类实际文档上，V4 比 V3 好多少？和 GPT-5.4、Claude 4.7、Gemini 3 Pro 这些一线旗舰比起来又怎么样？"

所以我们第一时间拿到 DeepSeek V4 的 API（包含 deepseek-v4-pro 和 deepseek-v4-flash 两个版本），做了一场严谨的横评：

6 个模型同台 PK：DeepSeek V4 Pro、V4 Flash、V3.2、GPT-5.4、Claude Opus 4.7、Gemini 3 Pro Preview
5 种真实文档场景：学术论文、法律合同、技术文档（含代码）、文学作品、漫画对白
双 LLM 裁判 + 盲评：GPT-5.4 和 Claude Opus 4.7 各自在不同的匿名标签顺序下打分
5 个维度评价：忠实度、流畅度、术语准确、风格匹配、格式保留（1–5 分制）

接下来就把结论、方法、每一条原文的 6 个译文、以及延迟/成本数据全部摆出来。

一图流结论（给没时间看完的朋友）

排名	模型	综合分	忠实度	流畅度	术语	风格	格式	平均延迟
🥇 1	GPT-5.4	4.68	4.7	4.7	4.6	4.5	4.9	4.5 s
🥈 2	Claude Opus 4.7	4.62	4.2	4.8	4.4	4.7	5.0	—
🥉 3	Gemini 3 Pro Preview	4.56	4.4	4.7	4.5	4.4	4.8	14.2 s
4	DeepSeek V4 Pro	4.38	4.4	4.4	4.4	4.3	4.4	17.1 s
5	DeepSeek V4 Flash	4.38	4.2	4.3	4.4	4.0	5.0	4.7 s
6	DeepSeek V3.2	4.26	4.3	4.1	4.3	4.0	4.6	4.6 s

三句话总结：

DeepSeek V4 相对 V3.2 确有提升，但幅度有限（+0.12 分 / 满分 5），还没追上 GPT-5.4 和 Claude 4.7 这一档。
V4 Pro 和 V4 Flash 综合分打平，Pro 强在推理带来的语义理解，Flash 快 4 倍、便宜得多——大多数用户用 Flash 就够了。
DeepSeek 在中译外、尤其是文学和漫画场景上仍有明显差距；反过来，它在中文技术文档场景很强——V3.2 甚至干掉了所有旗舰模型。

一、评测方法：我们是怎么做到公平的？

1. 6 个参评模型

模型 ID	类型	调用路径
`deepseek-v4-pro`	新发布旗舰（带推理）	DeepSeek 官方 API
`deepseek-v4-flash`	新发布轻量（浅推理）	DeepSeek 官方 API
`deepseek-v3.2`	上一代	代理 API
`gpt-5.4`	OpenAI 当前主流旗舰	代理 API
`claude-opus-4-7`	Anthropic 旗舰	对话内调用
`gemini-3-pro-preview-r`	Google 最新旗舰预览	代理 API

2. 5 个文档场景（短片段，每个聚焦一项难点）

场景	方向	难点
学术论文摘要	EN → ZH	专业术语、被动语态、正式书面语
法律合同条款	EN → ZH	长句、精确性、法律用语
技术文档（含代码）	EN → ZH	保留 inline code / 标识符 / 数值
文学作品（鲁迅《故乡》）	ZH → EN	语感、韵律、古典意象
漫画对白（少年漫画）	JA → EN	口语、角色语气、日文句末粒子

3. 统一的最小化 Prompt

为了排除 prompt engineering 的差异，我们用了完全一致的最小化指令：

System:
You are a professional document translator. Translate the following text
from {SRC} to {TGT}. Preserve all inline code snippets (text inside backticks),
identifiers, numbers, mathematical notation, and paragraph breaks exactly
as they appear in the source. Output only the translation text, with no
explanations, no notes, and no additional commentary.

User: {原文}

所有模型 temperature=0.3，max_tokens=4096，完全一样。

4. 双裁判 + 盲评

单一模型当裁判会偏袒自己阵营的译文，所以我们设了两个裁判：

裁判 1：GPT-5.4（temperature=0，JSON 输出）
裁判 2：Claude Opus 4.7

每个场景的 6 份译文分别用两套不同的随机种子打乱标签顺序再交给裁判——裁判不知道谁是谁，只能看到 A / B / C / D / E / F。最终分数 = 两位裁判在 5 个维度上的平均。

二、5 个场景逐一实战

场景一：学术论文摘要（EN → ZH）

原文：We propose a novel sparse attention mechanism that reduces memory complexity from O(n^2) to O(n log n) while preserving the expressiveness of full self-attention. Empirical results on GLUE benchmarks show our method retains 98.7% of the baseline performance at 42% of the memory cost, with negligible impact on downstream task accuracy.

模型	译文
DeepSeek V4 Pro	我们提出了一种新颖的稀疏注意力机制，将内存复杂度从 O(n^2) 降低至 O(n log n)，同时保留了全自注意力的表达能力。在 GLUE 基准上的实证结果表明，我们的方法以 42% 的内存开销保持了 98.7% 的基线性能，且对下游任务准确率的影响可忽略不计。
DeepSeek V4 Flash	我们提出了一种新颖的稀疏注意力机制，将内存复杂度从 O(n^2) 降低至 O(n log n)，同时保持完整自注意力的表达能力。在 GLUE 基准上的实验结果表明，我们的方法在仅消耗 42% 内存成本的情况下，保留了基线模型 98.7% 的性能，且对下游任务准确率的影响可忽略不计。
DeepSeek V3.2	我们提出了一种新颖的稀疏注意力机制，将内存复杂度从O(n²)降低至O(n log n)，同时保持了完整自注意力的表达能力。在GLUE基准测试上的实证结果表明，该方法仅以42%的内存成本即保留了基线模型98.7%的性能，对下游任务准确率的影响微乎其微。
GPT-5.4	我们提出了一种新颖的稀疏注意力机制，在保留完整自注意力表达能力的同时，将内存复杂度从 O(n^2) 降低到 O(n log n)。在 GLUE 基准测试上的实证结果表明，我们的方法以 42% 的内存成本保留了基线性能的 98.7%，对下游任务准确率的影响可以忽略不计。
Claude Opus 4.7	我们提出一种新颖的稀疏注意力机制，将内存复杂度从 O(n^2) 降低至 O(n log n)，同时保留了完整自注意力的表达能力。在 GLUE 基准测试上的实证结果表明，我们的方法在仅占基线 42% 内存开销的情况下保留了 98.7% 的性能，对下游任务精度的影响可以忽略不计。
Gemini 3 Pro Preview	我们提出了一种新颖的稀疏注意力机制，将内存复杂度从 O(n^2) 降低至 O(n log n)，同时保留了完整自注意力的表达能力。在 GLUE 基准测试上的实验结果表明，我们的方法在仅需 42% 内存开销的情况下保留了 98.7% 的基线性能，且对下游任务准确率的影响可忽略不计。

🏆 并列冠军：DeepSeek V4 Pro / GPT-5.4 / Gemini 3 Pro（均 4.9/5）

学术写作是 DeepSeek V4 Pro 的主场，它在这里和 GPT-5.4 打成平手。
唯一被明确扣分的是 V3.2——它把 O(n^2) 自作主张改成了 Unicode 上标 O(n²)，对格式保留是个小扣分项。这也是 DeepSeek V4 相对 V3.2 最明显的进步：它学会了乖乖按原样保留数学符号。
Claude 的"精度"而不是"准确率"是合理同义，未扣分。

场景二：法律合同条款（EN → ZH）

原文：The Licensor hereby grants to the Licensee a non-exclusive, non-transferable, revocable license to use the Software solely for internal business purposes, provided that the Licensee shall not, directly or indirectly, reverse-engineer, decompile, or disassemble the Software in whole or in part, except to the extent such restriction is expressly prohibited by applicable law.

模型	译文
DeepSeek V4 Pro	许可方特此授予被许可方一项非排他性、不可转让、可撤销的许可，允许其仅为内部业务目的使用本软件，但被许可方不得直接或间接对本软件的全部或部分进行逆向工程、反编译或反汇编，除非适用法律明确禁止此类限制。
DeepSeek V4 Flash	许可方特此授予被许可方一项非独占、不可转让、可撤销的许可，允许其仅为内部业务目的使用本软件，但被许可方不得直接或间接地对本软件的全部或部分进行反向工程、反编译或反汇编，除非适用法律明确禁止此类限制。
DeepSeek V3.2	许可方在此授予被许可方一项非排他性、不可转让、可撤销的许可，允许被许可方仅出于内部业务目的使用本软件，但被许可方不得直接或间接对本软件进行全部或部分的反向工程、反编译或反汇编，除非适用法律明确禁止此类限制。
GPT-5.4	许可方特此授予被许可方一项非排他性、不可转让、可撤销的许可，仅可将本软件用于内部业务目的，前提是被许可方不得直接或间接对本软件全部或部分进行逆向工程、反编译或反汇编，但适用法律明确禁止此类限制的范围除外。
Claude Opus 4.7	许可方特此授予被许可方一项非独占性、不可转让、可撤销的许可，允许其仅出于内部业务目的使用本软件；但被许可方不得直接或间接地对本软件的全部或任何部分进行反向工程、反编译或反汇编，除非适用法律明确禁止作出此类限制。
Gemini 3 Pro Preview	许可方特此授予被许可方一项非排他、不可转让、可撤销的许可，允许其仅为内部业务目的使用软件，前提是被许可方不得直接或间接地对软件的全部或部分进行逆向工程、反编译或反汇编，除非适用法律明确禁止此类限制。

🏆 冠军：GPT-5.4（满分 5.0/5）

法律翻译的核心是精确还原条件结构。原文是 "provided that ... except to the extent ..."——两层条件嵌套。
只有 GPT-5.4 一个模型把 "provided that" 译成 "前提是"、"except to the extent" 译成 "但...除外"，完整保留了条件授予 + 例外条款的双层结构。
其他模型都把 "provided that" 简化成了 "但"，丢掉了条件授予的法律含义——对普通阅读无伤大雅，但合同律师看了会皱眉。
DeepSeek V4 Pro 和 Flash 在术语使用上都合格（"非排他性/非独占"都是法律上有效的译法），但在条件结构保留上输给了 GPT-5.4。

场景三：技术文档含代码（EN → ZH）

原文：Set cache.ttl to a value greater than 0 (in seconds) to enable persistent caching. When cache.ttl=-1, the cache never expires. Note: enabling cache.strict_mode bypasses the TTL and forces revalidation on every request. See docs/caching.md for advanced patterns.

模型	译文
DeepSeek V4 Pro	将 `cache.ttl` 设置为大于 `0` 的值（单位：秒）以启用持久缓存。当 `cache.ttl=-1` 时，缓存永不过期。注意：启用 `cache.strict_mode` 将绕过 TTL 并强制每次请求进行重新验证。请参阅 `docs/caching.md` 了解高级模式。
DeepSeek V4 Flash	将 `cache.ttl` 设置为大于 `0` 的值（以秒为单位）以启用持久缓存。当 `cache.ttl=-1` 时，缓存永不过期。注意：启用 `cache.strict_mode` 会绕过 TTL 并强制在每个请求时重新验证。高级模式请参见 `docs/caching.md`。
DeepSeek V3.2	将 `cache.ttl` 设置为大于 `0` 的值（单位为秒）以启用持久化缓存。当 `cache.ttl=-1` 时，缓存永不过期。注意：启用 `cache.strict_mode` 将绕过 TTL 设置，强制每次请求时重新验证缓存。高级用法请参阅 `docs/caching.md`。
GPT-5.4	将 `cache.ttl` 设置为大于 `0` 的值（以秒为单位）以启用持久缓存。当 `cache.ttl=-1` 时，缓存永不过期。注意：启用 `cache.strict_mode` 会绕过 TTL，并在每次请求时强制重新验证。有关高级模式，请参阅 `docs/caching.md`。
Claude Opus 4.7	将 `cache.ttl` 设置为大于 `0` 的值（单位：秒）可启用持久化缓存。当 `cache.ttl=-1` 时，缓存永不过期。注意：启用 `cache.strict_mode` 会绕过 TTL，并在每次请求时强制重新校验。进阶用法请参见 `docs/caching.md`。
Gemini 3 Pro Preview	将 `cache.ttl` 设置为大于 `0` 的值（以秒为单位）以启用持久化缓存。当 `cache.ttl=-1` 时，缓存永不过期。注意：启用 `cache.strict_mode` 会绕过 TTL 并在每次请求时强制重新验证。有关高级模式，请参阅 `docs/caching.md`。

🏆 冠军：DeepSeek V3.2（4.8/5）

这是本次评测最意外的结果：上一代的 V3.2 居然在技术文档场景上赢过了所有旗舰模型。原因是：

6 个模型都完美保留了 inline code（cache.ttl 等），这个环节没拉开差距。
V3.2 的中文流畅度和技术术语使用最自然、最像国内工程师真正写出来的文档。
V4 Pro / V4 Flash 反而在流畅度上各丢了一分——V4 Pro 的 "强制每次请求进行重新验证" 稍有生硬，Flash 的 "在每个请求时" 则是翻译腔（自然表达是"每次请求"）。
我们的解读：DeepSeek 家族的中文技术写作能力早在 V3.2 就到位了，V4 的改进点可能在别处（推理、代码生成），在这个场景的自然度反而被推理链条"拉高了温度"。

场景四：文学作品·鲁迅《故乡》（ZH → EN）

原文：我冒了严寒，回到相隔二千余里，别了二十余年的故乡去。时候既然是深冬；渐近故乡时，天气又阴晦了，冷风吹进船舱中，呜呜的响，从篷隙向外一望，苍黄的天底下，远近横着几个萧索的荒村，没有一些活气。

模型	译文
DeepSeek V4 Pro	Braving the bitter cold, I traveled back to my hometown, which lay over two thousand li away and from which I had been separated for more than twenty years. It was deep winter. As I approached my hometown, the weather turned gloomy again. A cold wind blew into the cabin of the boat, moaning. Through a chink in the awning, I looked out and saw a few desolate, lifeless villages lying scattered far and near under a pale yellow sky.
DeepSeek V4 Flash	Braving the bitter cold, I traveled back to my hometown, a place I had left over twenty years ago, more than a thousand li away. It was already deep winter; as we drew near my hometown, the weather turned gloomy, and the cold wind whistled through the cabin. Peering out from under the awning, I could see a bleak, yellowish sky, with several desolate villages scattered horizontally here and there, devoid of any signs of life.
DeepSeek V3.2	Braving the bitter cold, I traveled more than seven hundred miles back to the old home I had left over twenty years ago. It was late winter. As we drew near my former home the day became overcast and a cold wind blew into the cabin of our boat, while all one could see through the chinks in our bamboo awning were a few desolate villages, void of any sign of life, scattered far and near under the somber yellow sky.
GPT-5.4	Braving the severe cold, I returned to my hometown, more than two thousand li away and from which I had been separated for more than twenty years. It was already deep winter; and as I gradually drew near my hometown, the weather grew overcast again. The cold wind blew into the cabin, making a whistling sound. Looking out through a crack in the awning, beneath the dusky yellow sky, there lay here and there a few desolate villages, barren and lifeless.
Claude Opus 4.7	Braving the bitter cold, I returned to the home I had not seen in over twenty years, more than two thousand li away. It was already deep winter; as I drew near, the sky grew overcast, and a cold wind moaned through the cabin. Peering out through a gap in the awning, I saw, beneath the sallow sky, a few desolate villages scattered near and far, without a trace of life.
Gemini 3 Pro Preview	Braving the bitter cold, I returned to my hometown, over two thousand li away, which I had left more than twenty years ago. It was late winter; as I drew closer to my hometown, the weather turned gloomy. Cold winds blew into the cabin, howling. Looking out through the chinks in the awning, under a pale yellow sky, scattered far and near lay a few desolate, barren villages, devoid of any sign of life.

🏆 冠军：Claude Opus 4.7（4.7/5）

文学翻译考的是语感、意象、节奏。Claude 的 "sallow sky"（苍黄）是本场最讲究的一个词，抓到了中文"苍黄"特有的病态感。"moaned through the cabin"（呜呜的响）也比 "whistling" / "howling" 更贴近中文原文的凄凉感。
DeepSeek V4 Pro 表现也很好（4.6）——"moaning"、"chink in the awning" 都是文学性的选词，证明 V4 在文学场景比 V3 有实质提升。
DeepSeek V4 Flash 翻车最严重（3.7 分，垫底）：
- 把 "二千余里" 译成 "more than a thousand li"——这是硬伤事实错误。
- "scattered horizontally" 直译"横着"，英文语感怪异。
DeepSeek V3.2 拿了 4.4 分，高度疑似复现了杨宪益夫妇的经典译本（"seven hundred miles... void of any sign of life... bamboo awning" 基本是原话）——这在 SEO 上可能是"记忆"而不是"翻译"，读者自行判断。

场景五：漫画对白（JA → EN）

原文：「くそっ…まだだ、まだ終わっちゃいねぇ！」「お前はもう限界だろう。素直に引き下がれ。」「うるせぇ！守りたいもんがある限り、俺は何度でも立ち上がるんだよ！」

模型	译文
DeepSeek V4 Pro	「Damn it... Not yet, it's not over yet!」「You're already at your limit. Just back down gracefully.」「Shut up! As long as I have something to protect, I'll get back up as many times as it takes!」
DeepSeek V4 Flash	"Dammit... Not yet, it's not over yet!" "You're at your limit. Just back down obediently." "Shut up! As long as there's something I want to protect, I'll get up as many times as it takes!"
DeepSeek V3.2	"Damn it... not yet, it's not over yet!" "You've already reached your limit. Just back down honestly." "Shut up! As long as there's something I want to protect, I'll get back up as many times as it takes!"
GPT-5.4	"Damn it... not yet, it's not over yet!" "You've already reached your limit. Back down quietly." "Shut up! As long as there's something I want to protect, I'll get back up as many times as it takes!"
Claude Opus 4.7	"Damn it... not yet—it's not over yet!" "You're already past your limit. Just back down, nice and quiet." "Shut up! As long as there's something I want to protect, I'll stand back up as many times as it takes!"
Gemini 3 Pro Preview	"Damn it... not yet, it's not over yet!" "You're already at your limit. Just back down." "Shut up! As long as I have something to protect, I'll stand up as many times as it takes!"

🏆 并列冠军：GPT-5.4 / Gemini 3 Pro（均 4.5/5）

本场有一个非常有意思的 DeepSeek V4 Pro 现象：

🚨 V4 Pro 把日文原文的直角引号「」原封不动保留到英文译文里。这是一个明显的格式错误——翻译到英文时应该换成英文的 " 或 "，而 V4 Pro 可能是推理阶段"太认真"了，把"保留格式"错误地理解成了"保留引号字符"，结果 V4 Pro 在本场的格式分只有 2/5，综合分垫底到 3.1。

这是一个值得 DeepSeek 团队关注的 bug：reasoning 模型过度谨慎地保留源格式，把不该保留的标点也留下了。

其余模型格式都正常。
句末粒子的处理上，Claude 的 "nice and quiet" 最贴近日文 "素直に引き下がれ" 的那种"你就乖乖退下吧"的感觉，V4 Flash 和 V3.2 用了 "obediently/honestly" 字面直译，英文读起来有翻译腔。
"うるせぇ！" 所有模型都用了 "Shut up!"，合格。

三、延迟、tokens 与成本

模型	平均延迟	平均输出 tokens	推理 tokens	特点
DeepSeek V4 Flash	4.7 s	247	174	浅推理，V4 家族性价比选择
DeepSeek V3.2	4.6 s	73	0	不推理，老牌稳定
GPT-5.4	4.5 s	85	0	不暴露推理，最均衡
Gemini 3 Pro Preview	14.2 s	844	767	重度推理，慢但稳
DeepSeek V4 Pro	17.1 s	562	488	重度推理，本场最慢
Claude Opus 4.7	—	—	—	本评测未走 API，数据按官方公布参考

几个读数：

DeepSeek V4 Pro 的延迟比 V4 Flash 慢约 4 倍，但综合分并没有更高（4.38 vs 4.38）——对绝大多数翻译场景用 Flash 就够了，Pro 只适合需要长程推理的复杂任务。
Gemini 3 Pro Preview 的推理代价最重（平均 767 推理 tokens），但质量回报确实在——综合分第 3。
GPT-5.4 是延迟/质量最均衡的：4.5 秒延迟、不暴露推理消耗、综合分第 1。

⚠️ 一个 Bun 测试的插曲：我们一开始用 bun 的 fetch 跑脚本，DeepSeek V4 的延迟一直显示 170–250ms，离谱地快。换成 Node 的 fetch 后就恢复到 9–35 秒的合理区间。我们怀疑 Bun 在某些流式响应下对 performance.now() 的测量有异常。本文所有延迟数据都是 Node 实测。

四、选型建议：你到底该用哪个？

基于 6 模型实测，给出按场景选型的建议：

📜 法律合同、监管文书

首选：GPT-5.4。唯一能稳定保留"条件嵌套结构"的模型。条件句一错，合同法律效力就变了。

🎓 学术论文、技术报告

三选一：GPT-5.4 / Gemini 3 Pro / DeepSeek V4 Pro 打成平手。如果你对成本敏感又是中文输出，DeepSeek V4 Pro 在本场景性价比最高。

💻 中文技术文档、API 手册、Markdown

DeepSeek V3.2 / Flash 够用。中文技术写作 DeepSeek 家族一直在线，反而 V4 Pro 因为推理链路更长、措辞稍有生硬。这是一个"降级用更老版本省钱"的正反馈场景。

📖 文学翻译、小说、散文

首选：Claude Opus 4.7。选词、语感、意象最讲究。DeepSeek V4 Pro 排第 2，这已经是 DeepSeek 在文学赛道历史最高。DeepSeek V4 Flash 的字面直译（"more than a thousand li" 的事实错误）就别用了。

🎌 日漫、轻小说、ACGN 内容

首选：GPT-5.4 / Gemini 3 Pro。DeepSeek V4 Pro 在这一场存在明确的"直角引号 bug"，在 DeepSeek 修复前不建议用于 JP→EN 漫画译制。

五、总结：DeepSeek V4 到底值不值得切？

✅ 值得切的情况：

你主要做中文文档的学术 / 法律翻译——V4 Pro 的综合分和 GPT-5.4 只差 0.3，但价格是后者的一小部分。
你预算紧张、对延迟敏感——V4 Flash 以 4.7 秒的延迟拿到了和 V4 Pro 一样的综合分，是本评测的隐形赢家。
你在做长推理/复杂任务——V4 Pro 的推理链路比 V3.2 有真实提升。

⚠️ 暂缓的情况：

你的核心场景是日漫/轻小说——等 DeepSeek 修复引号保留 bug 再说。
你做高端文学翻译——Claude 和 V4 Pro 都能用，但 Claude 在选词上还是更讲究一档。
你对"最稳"的要求 >"最便宜"——GPT-5.4 综合分第 1，延迟和质量都最均衡。

在 BelinDoc 测试你自己的文档

这篇评测用的是 5 个短片段。你的文档可能更长、更特殊——合同里夹杂条款编号、论文里有公式和图表、漫画里有页边注……短样本的结论不一定 1:1 映射到你的真实场景。

所以最好的方式是：上传自己的文档，实际对比。

👉 点击这里，上传 PDF / EPUB / Word 开始翻译

BelinDoc 支持随时切换翻译模型，保留原文排版，一个文件上传一次就能多模型对比。

🔗 相关阅读

[模型评测] 📊 GPT-5.2 文档翻译评测
[模型评测] 📊 Gemini 3 Pro 翻译性能评测
[模型评测] 📊 GPT-5 vs Gemini 2.5 五场景横评
[选型指南] 🎯 不同文档场景的 AI 模型选型指南