DeepSeek V4 문서 번역 실전 리뷰: V3.2, GPT-5.4, Claude 4.7, Gemini 3 Pro와 비교

📋 이 리뷰는 저희 테스트 방법론에 따라 진행했으나, 투명성을 위해 두 가지 예외를 밝혀 둡니다. 두 LLM 심사관(GPT-5.4와 Claude Opus 4.7)이 비교 대상 모델에도 함께 포함되어 있었고, 이번 회차는 현재의 8개가 아닌 5개 시나리오를 다뤘습니다. 이후 리뷰에서는 참가하지 않는 심사관을 사용합니다.

서문: DeepSeek V4는 정말로 당신의 문서를 잘 번역할까요?

DeepSeek V4는 출시 당일 주요 기술 커뮤니티의 화제를 독차지했습니다. 벤치마크 점수는 훌륭했고 가격도 크게 오르지 않았습니다. 하지만 벤치마크 점수와 실제 문서 번역은 전혀 다른 이야기입니다. 저희 사용자들이 가장 많이 던지는 질문은 이렇습니다. "V4로 갈아탈 만한가요? PDF, 계약서, 학술 논문 같은 실제 문서에서 V4는 V3보다 얼마나 나아졌나요? 그리고 GPT-5.4, Claude 4.7, Gemini 3 Pro 같은 일선 플래그십과 비교하면 어떤가요?"

그래서 저희는 출시 첫날 DeepSeek V4의 API(deepseek-v4-pro와 deepseek-v4-flash 두 버전 포함)를 확보해 엄격한 DeepSeek V4 리뷰를 진행했습니다.

6개 모델의 동일 조건 비교: DeepSeek V4 Pro, V4 Flash, V3.2, GPT-5.4, Claude Opus 4.7, Gemini 3 Pro Preview
5가지 실제 문서 시나리오: 학술 논문, 법률 계약서, 코드 포함 기술 문서, 문학 작품, 만화 대사
듀얼 LLM 심사관 + 블라인드 평가: GPT-5.4와 Claude Opus 4.7이 각각 다른 익명 라벨 순서에서 채점
5개 평가 차원: 충실도, 유창성, 용어 정확도, 스타일 일치, 포맷 보존 (1~5점 척도)

아래에 결론, 방법론, 각 원문의 6개 번역본, 지연·비용 데이터를 모두 공개합니다.

한눈에 보는 결론 (시간 없는 독자를 위한 요약)

순위	모델	종합 점수	충실도	유창성	용어	스타일	포맷	평균 지연
🥇 1	GPT-5.4	4.68	4.7	4.7	4.6	4.5	4.9	4.5 s
🥈 2	Claude Opus 4.7	4.62	4.2	4.8	4.4	4.7	5.0	—
🥉 3	Gemini 3 Pro Preview	4.56	4.4	4.7	4.5	4.4	4.8	14.2 s
4	DeepSeek V4 Pro	4.38	4.4	4.4	4.4	4.3	4.4	17.1 s
5	DeepSeek V4 Flash	4.38	4.2	4.3	4.4	4.0	5.0	4.7 s
6	DeepSeek V3.2	4.26	4.3	4.1	4.3	4.0	4.6	4.6 s

세 문장으로 요약하면:

DeepSeek V4는 V3.2 대비 확실히 개선되었지만 폭은 제한적입니다(+0.12점 / 만점 5점). 아직 GPT-5.4나 Claude 4.7 수준에는 이르지 못했습니다.
V4 Pro와 V4 Flash의 종합 점수는 동률입니다. Pro는 추론에서 오는 의미 이해의 깊이가 장점이지만, Flash는 4배 빠르고 훨씬 저렴합니다. 대부분의 사용자에게는 Flash면 충분합니다.
DeepSeek은 중국어→타 언어 번역, 특히 문학과 만화 장르에서는 여전히 격차가 뚜렷합니다. 반대로 중국어 기술 문서 시나리오에서는 매우 강력해서, V3.2조차 모든 플래그십 모델을 제쳤습니다.

1. 평가 방법론: 어떻게 공정성을 확보했는가

1.1 평가 대상 6개 모델

모델 ID	유형	엔드포인트
`deepseek-v4-pro`	신규 플래그십 (추론 포함)	DeepSeek 공식 API
`deepseek-v4-flash`	신규 경량 (얕은 추론)	DeepSeek 공식 API
`deepseek-v3.2`	이전 세대	프록시 API
`gpt-5.4`	OpenAI 현행 주력 플래그십	프록시 API
`claude-opus-4-7`	Anthropic 플래그십	대화 내 호출
`gemini-3-pro-preview-r`	Google 최신 플래그십 프리뷰	프록시 API

1.2 5가지 문서 시나리오 (각 시나리오는 하나의 난점에 집중)

시나리오	방향	난점
학술 논문 초록	EN → ZH	전문 용어, 수동태, 격식 있는 문어체
법률 계약 조항	EN → ZH	긴 문장, 정밀성, 법률 용어
코드 포함 기술 문서	EN → ZH	인라인 코드·식별자·숫자 보존
문학 작품 (루쉰 『고향』)	ZH → EN	어감, 리듬, 고전적 이미지
만화 대사 (소년 만화)	JA → EN	구어체, 캐릭터 말투, 일본어 종조사

1.3 통일된 최소 프롬프트

프롬프트 엔지니어링으로 인한 편차를 없애기 위해 모든 모델에 완전히 동일한 최소 지시를 사용했습니다.

System:
You are a professional document translator. Translate the following text
from {SRC} to {TGT}. Preserve all inline code snippets (text inside backticks),
identifiers, numbers, mathematical notation, and paragraph breaks exactly
as they appear in the source. Output only the translation text, with no
explanations, no notes, and no additional commentary.

User: {원문}

모든 모델에 temperature=0.3, max_tokens=4096을 동일하게 적용했습니다.

1.4 듀얼 심사관 + 블라인드 평가

단일 모델이 심사관을 맡으면 자기 계열 번역에 후한 점수를 주는 편향이 생깁니다. 그래서 심사관을 두 명 두었습니다.

심사관 1: GPT-5.4 (temperature=0, JSON 출력)
심사관 2: Claude Opus 4.7

각 시나리오의 6개 번역본은 두 개의 서로 다른 랜덤 시드로 라벨 순서를 섞어 각 심사관에게 제시했습니다. 심사관은 누가 어떤 결과를 냈는지 모르는 상태에서 A / B / C / D / E / F만 보고 채점합니다. 최종 점수는 두 심사관의 5개 차원 평균입니다.

2. 5개 시나리오 실전 분석

시나리오 1: 학술 논문 초록 (EN → ZH)

원문: We propose a novel sparse attention mechanism that reduces memory complexity from O(n^2) to O(n log n) while preserving the expressiveness of full self-attention. Empirical results on GLUE benchmarks show our method retains 98.7% of the baseline performance at 42% of the memory cost, with negligible impact on downstream task accuracy.

모델	번역
DeepSeek V4 Pro	我们提出了一种新颖的稀疏注意力机制，将内存复杂度从 O(n^2) 降低至 O(n log n)，同时保留了全自注意力的表达能力。在 GLUE 基准上的实证结果表明，我们的方法以 42% 的内存开销保持了 98.7% 的基线性能，且对下游任务准确率的影响可忽略不计。
DeepSeek V4 Flash	我们提出了一种新颖的稀疏注意力机制，将内存复杂度从 O(n^2) 降低至 O(n log n)，同时保持完整自注意力的表达能力。在 GLUE 基准上的实验结果表明，我们的方法在仅消耗 42% 内存成本的情况下，保留了基线模型 98.7% 的性能，且对下游任务准确率的影响可忽略不计。
DeepSeek V3.2	我们提出了一种新颖的稀疏注意力机制，将内存复杂度从O(n²)降低至O(n log n)，同时保持了完整自注意力的表达能力。在GLUE基准测试上的实证结果表明，该方法仅以42%的内存成本即保留了基线模型98.7%的性能，对下游任务准确率的影响微乎其微。
GPT-5.4	我们提出了一种新颖的稀疏注意力机制，在保留完整自注意力表达能力的同时，将内存复杂度从 O(n^2) 降低到 O(n log n)。在 GLUE 基准测试上的实证结果表明，我们的方法以 42% 的内存成本保留了基线性能的 98.7%，对下游任务准确率的影响可以忽略不计。
Claude Opus 4.7	我们提出一种新颖的稀疏注意力机制，将内存复杂度从 O(n^2) 降低至 O(n log n)，同时保留了完整自注意力的表达能力。在 GLUE 基准测试上的实证结果表明，我们的方法在仅占基线 42% 内存开销的情况下保留了 98.7% 的性能，对下游任务精度的影响可以忽略不计。
Gemini 3 Pro Preview	我们提出了一种新颖的稀疏注意力机制，将内存复杂度从 O(n^2) 降低至 O(n log n)，同时保留了完整自注意力的表达能力。在 GLUE 基准测试上的实验结果表明，我们的方法在仅需 42% 内存开销的情况下保留了 98.7% 的基线性能，且对下游任务准确率的影响可忽略不计。

🏆 공동 1위: DeepSeek V4 Pro / GPT-5.4 / Gemini 3 Pro (모두 4.9/5)

학술 글쓰기는 DeepSeek V4 Pro의 주특기입니다. 이 시나리오에서 GPT-5.4와 대등한 결과를 냈습니다.
명확한 감점을 받은 건 V3.2뿐입니다. V3.2는 O(n^2)을 멋대로 유니코드 위 첨자 O(n²)로 바꿔버렸고, 포맷 보존에서 소폭 감점을 받았습니다. 이것이 DeepSeek V4가 V3.2 대비 얻은 가장 가시적인 개선점입니다. V4는 수학 기호를 원문 그대로 보존하는 법을 익혔습니다.
Claude가 "准确率" 대신 "精度"를 쓴 것은 허용 가능한 동의어로 판단해 감점하지 않았습니다.

시나리오 2: 법률 계약 조항 (EN → ZH)

원문: The Licensor hereby grants to the Licensee a non-exclusive, non-transferable, revocable license to use the Software solely for internal business purposes, provided that the Licensee shall not, directly or indirectly, reverse-engineer, decompile, or disassemble the Software in whole or in part, except to the extent such restriction is expressly prohibited by applicable law.

모델	번역
DeepSeek V4 Pro	许可方特此授予被许可方一项非排他性、不可转让、可撤销的许可，允许其仅为内部业务目的使用本软件，但被许可方不得直接或间接对本软件的全部或部分进行逆向工程、反编译或反汇编，除非适用法律明确禁止此类限制。
DeepSeek V4 Flash	许可方特此授予被许可方一项非独占、不可转让、可撤销的许可，允许其仅为内部业务目的使用本软件，但被许可方不得直接或间接地对本软件的全部或部分进行反向工程、反编译或反汇编，除非适用法律明确禁止此类限制。
DeepSeek V3.2	许可方在此授予被许可方一项非排他性、不可转让、可撤销的许可，允许被许可方仅出于内部业务目的使用本软件，但被许可方不得直接或间接对本软件进行全部或部分的反向工程、反编译或反汇编，除非适用法律明确禁止此类限制。
GPT-5.4	许可方特此授予被许可方一项非排他性、不可转让、可撤销的许可，仅可将本软件用于内部业务目的，前提是被许可方不得直接或间接对本软件全部或部分进行逆向工程、反编译或反汇编，但适用法律明确禁止此类限制的范围除外。
Claude Opus 4.7	许可方特此授予被许可方一项非独占性、不可转让、可撤销的许可，允许其仅出于内部业务目的使用本软件；但被许可方不得直接或间接地对本软件的全部或任何部分进行反向工程、反编译或反汇编，除非适用法律明确禁止作出此类限制。
Gemini 3 Pro Preview	许可方特此授予被许可方一项非排他、不可转让、可撤销的许可，允许其仅为内部业务目的使用软件，前提是被许可方不得直接或间接地对软件的全部或部分进行逆向工程、反编译或反汇编，除非适用法律明确禁止此类限制。

🏆 1위: GPT-5.4 (만점 5.0/5)

법률 번역의 핵심은 조건 구조의 정확한 복원입니다. 원문은 "provided that ... except to the extent ..." 형태로 두 층의 조건이 중첩되어 있습니다.
오직 GPT-5.4만이 "provided that"를 "前提是"로, "except to the extent"를 "但...除外"로 옮겨 조건부 허가 + 예외 조항이라는 이중 구조를 온전히 보존했습니다.
다른 모델은 "provided that"를 단순한 "但"으로 축약해 조건부 허가라는 법적 의미를 잃었습니다. 일반 독해에서는 문제없지만, 계약 전문 변호사가 본다면 눈살을 찌푸릴 수준입니다.
DeepSeek V4 Pro와 Flash의 용어 선택은 적절했지만("非排他性"과 "非独占" 둘 다 법률적으로 유효한 번역입니다), 조건 구조 보존에서 GPT-5.4에 밀렸습니다.

시나리오 3: 코드 포함 기술 문서 (EN → ZH)

원문: Set cache.ttl to a value greater than 0 (in seconds) to enable persistent caching. When cache.ttl=-1, the cache never expires. Note: enabling cache.strict_mode bypasses the TTL and forces revalidation on every request. See docs/caching.md for advanced patterns.

모델	번역
DeepSeek V4 Pro	将 `cache.ttl` 设置为大于 `0` 的值（单位：秒）以启用持久缓存。当 `cache.ttl=-1` 时，缓存永不过期。注意：启用 `cache.strict_mode` 将绕过 TTL 并强制每次请求进行重新验证。请参阅 `docs/caching.md` 了解高级模式。
DeepSeek V4 Flash	将 `cache.ttl` 设置为大于 `0` 的值（以秒为单位）以启用持久缓存。当 `cache.ttl=-1` 时，缓存永不过期。注意：启用 `cache.strict_mode` 会绕过 TTL 并强制在每个请求时重新验证。高级模式请参见 `docs/caching.md`。
DeepSeek V3.2	将 `cache.ttl` 设置为大于 `0` 的值（单位为秒）以启用持久化缓存。当 `cache.ttl=-1` 时，缓存永不过期。注意：启用 `cache.strict_mode` 将绕过 TTL 设置，强制每次请求时重新验证缓存。高级用法请参阅 `docs/caching.md`。
GPT-5.4	将 `cache.ttl` 设置为大于 `0` 的值（以秒为单位）以启用持久缓存。当 `cache.ttl=-1` 时，缓存永不过期。注意：启用 `cache.strict_mode` 会绕过 TTL，并在每次请求时强制重新验证。有关高级模式，请参阅 `docs/caching.md`。
Claude Opus 4.7	将 `cache.ttl` 设置为大于 `0` 的值（单位：秒）可启用持久化缓存。当 `cache.ttl=-1` 时，缓存永不过期。注意：启用 `cache.strict_mode` 会绕过 TTL，并在每次请求时强制重新校验。进阶用法请参见 `docs/caching.md`。
Gemini 3 Pro Preview	将 `cache.ttl` 设置为大于 `0` 的值（以秒为单位）以启用持久化缓存。当 `cache.ttl=-1` 时，缓存永不过期。注意：启用 `cache.strict_mode` 会绕过 TTL 并在每次请求时强制重新验证。有关高级模式，请参阅 `docs/caching.md`。

🏆 1위: DeepSeek V3.2 (4.8/5)

이번 리뷰에서 가장 의외였던 결과입니다. 구세대인 V3.2가 기술 문서 시나리오에서 모든 플래그십 모델을 꺾었습니다. 이유는 다음과 같습니다.

6개 모델 모두 인라인 코드(cache.ttl 등)를 완벽히 보존했기 때문에 이 지점에서는 차이가 벌어지지 않았습니다.
V3.2의 중국어 유창성과 기술 용어 구사력이 가장 자연스러웠고, 중국 국내 엔지니어가 실제로 작성한 문서에 가까웠습니다.
V4 Pro와 V4 Flash는 유창성에서 각각 1점씩 감점되었습니다. V4 Pro의 "强制每次请求进行重新验证"는 다소 딱딱하고, Flash의 "在每个请求时"는 번역체입니다(자연스러운 표현은 "每次请求"입니다).
저희의 해석은 이렇습니다. DeepSeek 계열의 중국어 기술 글쓰기 역량은 이미 V3.2에서 정점을 찍었습니다. V4의 개선은 다른 영역(추론, 코드 생성)에 집중되어 있고, 이 시나리오에서는 오히려 추론 체인이 문장의 온도를 살짝 높여버렸습니다.

시나리오 4: 문학 작품 · 루쉰 『고향』 (ZH → EN)

원문: 我冒了严寒，回到相隔二千余里，别了二十余年的故乡去。时候既然是深冬；渐近故乡时，天气又阴晦了，冷风吹进船舱中，呜呜的响，从篷隙向外一望，苍黄的天底下，远近横着几个萧索的荒村，没有一些活气。

모델	번역
DeepSeek V4 Pro	Braving the bitter cold, I traveled back to my hometown, which lay over two thousand li away and from which I had been separated for more than twenty years. It was deep winter. As I approached my hometown, the weather turned gloomy again. A cold wind blew into the cabin of the boat, moaning. Through a chink in the awning, I looked out and saw a few desolate, lifeless villages lying scattered far and near under a pale yellow sky.
DeepSeek V4 Flash	Braving the bitter cold, I traveled back to my hometown, a place I had left over twenty years ago, more than a thousand li away. It was already deep winter; as we drew near my hometown, the weather turned gloomy, and the cold wind whistled through the cabin. Peering out from under the awning, I could see a bleak, yellowish sky, with several desolate villages scattered horizontally here and there, devoid of any signs of life.
DeepSeek V3.2	Braving the bitter cold, I traveled more than seven hundred miles back to the old home I had left over twenty years ago. It was late winter. As we drew near my former home the day became overcast and a cold wind blew into the cabin of our boat, while all one could see through the chinks in our bamboo awning were a few desolate villages, void of any sign of life, scattered far and near under the somber yellow sky.
GPT-5.4	Braving the severe cold, I returned to my hometown, more than two thousand li away and from which I had been separated for more than twenty years. It was already deep winter; and as I gradually drew near my hometown, the weather grew overcast again. The cold wind blew into the cabin, making a whistling sound. Looking out through a crack in the awning, beneath the dusky yellow sky, there lay here and there a few desolate villages, barren and lifeless.
Claude Opus 4.7	Braving the bitter cold, I returned to the home I had not seen in over twenty years, more than two thousand li away. It was already deep winter; as I drew near, the sky grew overcast, and a cold wind moaned through the cabin. Peering out through a gap in the awning, I saw, beneath the sallow sky, a few desolate villages scattered near and far, without a trace of life.
Gemini 3 Pro Preview	Braving the bitter cold, I returned to my hometown, over two thousand li away, which I had left more than twenty years ago. It was late winter; as I drew closer to my hometown, the weather turned gloomy. Cold winds blew into the cabin, howling. Looking out through the chinks in the awning, under a pale yellow sky, scattered far and near lay a few desolate, barren villages, devoid of any sign of life.

🏆 1위: Claude Opus 4.7 (4.7/5)

문학 번역에서 관건은 어감, 이미지, 리듬입니다. Claude가 선택한 "sallow sky"(苍黄)는 이번 라운드에서 가장 정교한 단어 선택으로, 중국어 "苍黄"이 품은 병적이고 창백한 느낌을 잘 포착했습니다. "moaned through the cabin"(呜呜的响) 역시 "whistling"이나 "howling"보다 원문의 처량한 분위기에 더 가깝습니다.
DeepSeek V4 Pro의 성적도 우수합니다(4.6). "moaning", "chink in the awning" 같은 문학적 단어 선택은 V4가 문학 시나리오에서 V3 대비 실질적으로 진보했음을 보여줍니다.
DeepSeek V4 Flash는 가장 크게 무너졌습니다(3.7점, 최하위).
- "二千余里"를 "more than a thousand li"로 번역 — 명백한 사실 오류입니다.
- "scattered horizontally"는 "横着"를 직역한 것으로, 영어 어감상 어색합니다.
DeepSeek V3.2는 4.4점을 받았는데, 양셴이·글래디스 양 부부의 고전 번역본을 그대로 재현한 것으로 강하게 의심됩니다("seven hundred miles... void of any sign of life... bamboo awning"이 거의 원문 그대로입니다). 이것이 "암기"인지 "번역"인지는 독자의 판단에 맡깁니다.

시나리오 5: 만화 대사 (JA → EN)

원문: 「くそっ…まだだ、まだ終わっちゃいねぇ！」「お前はもう限界だろう。素直に引き下がれ。」「うるせぇ！守りたいもんがある限り、俺は何度でも立ち上がるんだよ！」

모델	번역
DeepSeek V4 Pro	「Damn it... Not yet, it's not over yet!」「You're already at your limit. Just back down gracefully.」「Shut up! As long as I have something to protect, I'll get back up as many times as it takes!」
DeepSeek V4 Flash	"Dammit... Not yet, it's not over yet!" "You're at your limit. Just back down obediently." "Shut up! As long as there's something I want to protect, I'll get up as many times as it takes!"
DeepSeek V3.2	"Damn it... not yet, it's not over yet!" "You've already reached your limit. Just back down honestly." "Shut up! As long as there's something I want to protect, I'll get back up as many times as it takes!"
GPT-5.4	"Damn it... not yet, it's not over yet!" "You've already reached your limit. Back down quietly." "Shut up! As long as there's something I want to protect, I'll get back up as many times as it takes!"
Claude Opus 4.7	"Damn it... not yet—it's not over yet!" "You're already past your limit. Just back down, nice and quiet." "Shut up! As long as there's something I want to protect, I'll stand back up as many times as it takes!"
Gemini 3 Pro Preview	"Damn it... not yet, it's not over yet!" "You're already at your limit. Just back down." "Shut up! As long as I have something to protect, I'll stand up as many times as it takes!"

🏆 공동 1위: GPT-5.4 / Gemini 3 Pro (모두 4.5/5)

이번 시나리오에서 매우 흥미로운 DeepSeek V4 Pro의 현상이 하나 드러났습니다.

🚨 V4 Pro는 일본어 원문의 낫표 「」를 영어 번역에 그대로 보존했습니다. 이것은 명백한 포맷 오류입니다. 영어로 번역할 때는 "(또는 ")로 바꿔야 합니다. V4 Pro는 추론 단계에서 "너무 성실하게" 굴어서 "포맷 보존"이라는 지시를 "인용 부호 문자까지 보존"으로 잘못 해석한 것으로 보입니다. 그 결과 이 시나리오에서 V4 Pro의 포맷 점수는 2/5에 그쳤고 종합 점수도 3.1로 떨어지면서 최하위가 되었습니다.

이는 DeepSeek 팀이 주목할 만한 버그입니다. 추론 모델이 원문 포맷을 지나치게 보수적으로 보존하면서, 보존해서는 안 되는 구두점까지 남겨둔 사례입니다.

다른 모델들은 모두 인용 부호를 정상적으로 처리했습니다.
종조사 처리에서는 Claude의 "nice and quiet"가 "素直に引き下がれ"의 "얌전히 물러나라"는 뉘앙스에 가장 잘 맞았습니다. V4 Flash와 V3.2는 "obediently / honestly"처럼 문자 그대로 번역해 영어로는 번역체로 읽힙니다.
"うるせぇ！"는 모든 모델이 "Shut up!"으로 번역했고, 이 부분은 모두 합격점입니다.

3. 지연, 토큰, 비용

모델	평균 지연	평균 출력 토큰	추론 토큰	특징
DeepSeek V4 Flash	4.7 s	247	174	얕은 추론, V4 계열 가성비 선택
DeepSeek V3.2	4.6 s	73	0	추론 없음, 안정적인 베테랑
GPT-5.4	4.5 s	85	0	추론 비공개, 가장 균형 잡힘
Gemini 3 Pro Preview	14.2 s	844	767	중량 추론, 느리지만 안정적
DeepSeek V4 Pro	17.1 s	562	488	중량 추론, 이번 테스트 최저 속도
Claude Opus 4.7	—	—	—	이번 평가에서는 API 경로 미사용, 공식 스펙 참고

몇 가지 관찰:

V4 Pro는 V4 Flash보다 약 4배 느리지만, 종합 점수는 더 높지 않습니다(4.38 vs 4.38). 대부분의 번역 작업에는 Flash로 충분하고, Pro는 장문 추론이 필요한 복잡한 작업에서만 값어치를 합니다.
Gemini 3 Pro Preview의 추론 비용이 가장 큽니다(평균 767 추론 토큰). 다만 품질로 돌려받은 보상은 확실해서 종합 3위에 올랐습니다.
GPT-5.4는 지연과 품질의 균형이 가장 좋습니다. 4.5초 지연, 추론 토큰을 노출하지 않음, 종합 1위입니다.

⚠️ Bun 테스트 관련 일화: 처음에는 bun의 fetch로 스크립트를 돌렸더니 DeepSeek V4 지연이 계속 170~~250ms로 나왔습니다. 비정상적으로 빠른 값이었죠. Node의 fetch로 교체하자 9~~35초라는 합리적인 구간으로 돌아왔습니다. Bun이 특정 스트리밍 응답에서 performance.now() 측정에 이상을 일으키는 것으로 의심됩니다. 이 글의 모든 지연 수치는 Node 실측값입니다.

4. 어떤 모델을 골라야 할까?

6개 모델의 실측 결과를 바탕으로 용도별 선택 가이드를 제시합니다.

📜 법률 계약서, 규제 문서

GPT-5.4를 선택하세요. 중첩 조건 구조를 안정적으로 보존하는 유일한 모델입니다. 조건 하나가 틀리면 계약의 법적 효력이 달라집니다.

🎓 학술 논문, 기술 보고서

GPT-5.4 / Gemini 3 Pro / DeepSeek V4 Pro 3파전 동률입니다. 비용에 민감하고 중국어 출력이 필요하다면 DeepSeek V4 Pro가 이 시나리오에서 가성비가 가장 좋습니다.

💻 중국어 기술 문서, API 매뉴얼, Markdown

DeepSeek V3.2나 V4 Flash면 충분합니다. 중국어 기술 글쓰기는 V3.2 시절부터 DeepSeek의 강점이었습니다. 오히려 V4 Pro는 추론 체인이 길어지면서 표현이 다소 딱딱해집니다. "더 오래된 버전으로 다운그레이드해서 돈도 아끼는" 드문 사례입니다.

📖 문학 번역, 소설, 수필

Claude Opus 4.7이 최고입니다. 단어 선택, 어감, 이미지 모두 가장 정교합니다. DeepSeek V4 Pro가 2위인데, 이는 DeepSeek이 문학 분야에서 기록한 역대 최고 성적입니다. DeepSeek V4 Flash는 "more than a thousand li"라는 사실 오류 직역 때문에 권하지 않습니다.

🎌 일본 만화, 라이트노벨, ACGN 콘텐츠

GPT-5.4 / Gemini 3 Pro를 권합니다. DeepSeek V4 Pro에는 명확한 "낫표 버그"가 있습니다. DeepSeek이 수정하기 전까지 JP→EN 만화 로컬라이제이션에는 사용하지 마세요.

5. 정리: DeepSeek V4, 갈아탈 만한가?

✅ 갈아탈 만한 경우

주 용도가 중국어 문서의 학술·법률 번역인 경우 — V4 Pro의 종합 점수는 GPT-5.4와 0.3점 차이에 불과하지만 가격은 그 일부에 불과합니다.
예산이 빠듯하거나 지연에 민감한 경우 — V4 Flash는 4.7초 지연으로 V4 Pro와 동일한 종합 점수를 받은, 이번 평가의 숨은 승자입니다.
장문 추론·복잡한 작업을 다루는 경우 — V4 Pro의 추론 체인은 V3.2 대비 실질적인 개선입니다.

⚠️ 보류해야 할 경우

주 용도가 일본 만화나 라이트노벨인 경우 — DeepSeek이 낫표 보존 버그를 수정할 때까지 기다리세요.
고급 문학 번역을 다루는 경우 — Claude와 V4 Pro 모두 사용할 수 있지만, 단어 선택에서는 여전히 Claude가 한 수 위입니다.
"가장 저렴한 것"보다 "가장 안정적인 것"을 중시하는 경우 — GPT-5.4가 종합 1위이고 지연과 품질의 균형도 가장 좋습니다.

BelinDoc에서 직접 문서로 테스트해 보세요

이 리뷰는 5개의 짧은 스니펫을 사용했습니다. 여러분의 문서는 더 길고 더 복잡할 것입니다. 계약서에는 조항 번호가 섞여 있고, 논문에는 수식과 도표가 들어 있으며, 만화에는 페이지 여백 주석이 있습니다. 짧은 샘플의 결론이 실제 시나리오에 1:1로 맞아떨어진다는 보장은 없습니다.

그래서 가장 좋은 방법은 직접 문서를 업로드해 비교해 보는 것입니다.

👉 여기를 클릭해 PDF / EPUB / Word를 업로드하고 번역을 시작하세요

BelinDoc은 번역 모델을 자유롭게 전환할 수 있고, 원문 레이아웃을 그대로 유지하며, 한 번의 파일 업로드로 여러 모델을 비교할 수 있습니다.

❓ 자주 묻는 질문 (FAQ)

문서 번역에서 DeepSeek V4는 V3.2보다 나아졌나요?

나아졌지만 폭은 작습니다. 5점 만점 기준 V4는 V3.2보다 +0.12점 높았습니다. 실질적인 개선이긴 해도 ‘도약’이라 부르긴 어렵습니다. V3.2 결과에 만족하고 있다면, 대부분의 문서에서 V4로 바꿔도 체감 차이는 크지 않습니다.

V4 Pro와 V4 Flash 중 무엇을 써야 하나요?

종합 점수는 4.38점으로 동률입니다. Pro는 추론에서 오는 의미 이해의 깊이가 더해지지만, Flash는 약 4배 빠르고 훨씬 저렴합니다. 대부분의 사용자에게는 Flash로 충분하며, 긴 문맥 추론이 필요한 작업에만 Pro를 쓰는 편이 합리적입니다.

DeepSeek V4는 번역에서 GPT-5.4나 Claude만큼 좋은가요?

아직은 못 미칩니다. 이번 리뷰에서 GPT-5.4가 4.68점으로 1위, Claude Opus 4.7이 4.62점이었고 DeepSeek V4는 4.38점이었습니다. V4는 품질이 아니라 가격에서 격차를 좁혔을 뿐이며, 특히 문학·만화 콘텐츠에서는 여전히 두 플래그십에 뒤집니다.

DeepSeek는 만화나 소설 번역에 적합한가요?

가장 약한 영역입니다. V4에는 만화 대사의 낫표 「」를 그대로 남겨두는 포맷 버그가 아직 남아 있습니다. 반대로 DeepSeek가 빛나는 곳은 중국어→타 언어 기술 문서로, 이 시나리오에서는 구세대인 V3.2조차 모든 플래그십을 앞섰습니다.

제 문서로 DeepSeek V4를 직접 테스트할 수 있나요?

네. BelinDoc에서 PDF·EPUB·Word 파일을 업로드해 DeepSeek V4로 번역하고, 같은 파일에서 모델을 전환해 결과를 바로 비교할 수 있습니다. 실제 콘텐츠로 모델을 평가하는 가장 확실한 방법입니다.

🔗 관련 읽을거리

[모델 리뷰] 🆕 GPT-5.6 문서 번역 실전 리뷰: Sol·Terra·Luna 비교 (스캔 PDF는 왜 더 나빠졌나)
[모델 리뷰] 📊 GPT-5.2 문서 번역 리뷰
[모델 리뷰] 📊 Gemini 3 Pro 번역 성능 리뷰
[모델 리뷰] 📊 GPT-5 vs Gemini 2.5 5개 시나리오 비교
[선택 가이드] 🎯 문서 유형별 AI 모델 선택 가이드
[사용해 보기] 🚀 DeepSeek V4로 문서 번역하기