DeepSeek V4 mới tung ra có gì cải tiến ?

DeepSeek V4 mới tung ra có gì cải tiến ? 25-04-2026   35

Vào ngày 24 tháng 4 năm 2026, DeepSeek chính thức phát hành phiên bản xem trước của dòng mô hình DeepSeek-V4 và công bố mã nguồn mở. Đây là bản cập nhật lớn đầu tiên sau 15 tháng. V4 không đơn thuần là "nhồi nhét" tham số, mà tập trung vào hiệu quả xử lý văn bản dàikhả năng Agent và tối ưu chi phí.

Bài viết được dịch từ DeepSeek, bạn có thể trải nghiệm tại: https://chat.deepseek.com/

Dưới đây là tổng quan các cải tiến cốt lõi:

Khía cạnh Cải tiến cốt lõi & Điểm nổi bật về kỹ thuật
 Kiến trúc mô hình Đề xuất cơ chế attention hỗn hợp (CSA + HCA), giảm đáng kể chi phí tính toán cho văn bản dài.
Độ dài ngữ cảnh Trang bị tiêu chuẩn 1 triệu token, có thể xử lý cùng lúc khối lượng nội dung như bộ ba "Tam Thể".
Hiệu quả & Chi phí So với V3.2, mức tiêu hao tính toán suy luận giảm xuống 27%, bộ đệm KV giảm xuống 10%, giá API cực kỳ cạnh tranh.
Năng lực cốt lõi Năng lực Agent đạt mức SOTA (tiên tiến nhất) trong số các mô hình mã nguồn mở, hiệu suất suy luận sánh ngang các mô hình đóng tốt nhất thế giới.
Hệ sinh thái & Tương thích Tương thích sâu với các khung Agent phổ biến như Claude Code, OpenClaw; hỗ trợ nguyên bản Huawei Ascend (sức mạnh tính toán nội địa hóa Trung Quốc).

1.  Đột phá kiến trúc: Định nghĩa lại hiệu quả cho văn bản dài

Đột phá kỹ thuật lớn nhất của V4 nằm ở cơ chế attention mới. Mô hình giới thiệu công nghệ attention thưa DSA (DeepSeek Sparse Attention), thực hiện nén ở cấp độ token.

  • Chiến lược nén hai tầng:

    • CSA (Compressed Sparse Attention) : Nén cứ 4 token thành 1 token, lọc thông tin chính qua bộ chỉ mục.

    • HCA (Heavily Compressed Attention) : Nén cứ 128 token thành 1 token, thực hiện tính toán attention dày đặc.

  • Hiệu quả thực tế: Khi xử lý ngữ cảnh siêu dài 1 triệu token, mức tiêu hao tính toán suy luận cho mỗi token của V4-Pro chỉ bằng 27% so với V3.2, và bộ nhớ đệm KV (trí nhớ làm việc) chỉ bằng 10% so với trước. Điều này có nghĩa là khi xử lý cùng một văn bản dài, V4 không chỉ nhanh hơn mà còn giảm đáng kể chi phí.

2.  Năng lực Agent: Từ mô hình đến "Thực thể thông minh"

DeepSeek-V4 được định vị là một "nền tảng Agent" mạnh mẽ. Nó không còn đơn thuần là mô hình xử lý đầu vào, mà có thể chủ động gọi công cụ, viết mã, thực thi nhiệm vụ.

  • Điểm số chuẩn hàng đầu: Trong bài kiểm tra SWE Verified (giải quyết vấn đề mã nguồn thực tế), V4-Pro đạt tỷ lệ giải quyết 80,6%, ngang bằng với Claude Opus 4.6 và Gemini 3.1 Pro.

  • Phản hồi nội bộ: Nhân viên DeepSeek đã sử dụng nó làm trợ lý viết mã hàng ngày, phản hồi trải nghiệm tốt hơn Sonnet 4.5, chất lượng bàn giao gần với chế độ không suy luận (non-thinking) của Opus 4.6.

  • Tối ưu đặc thù: Mô hình giới thiệu token đặc biệt |DSML| mới và định dạng XML để gọi công cụ, giảm đáng kể lỗi phân tích cú pháp thường gặp với định dạng JSON trước đây.

3.  Giá cả phổ cập: "Rẻ như bèo" cho triệu token

Tiếp nối triết lý chi phí - hiệu suất cao, định giá của V4 đầy tính cạnh tranh, đặc biệt là giá khi trúng bộ nhớ đệm cực thấp, rất phù hợp cho các tác vụ Agent có nhiều prompt hệ thống lặp lại.

Phiên bản mô hình Đầu vào trúng bộ nhớ đệm Đầu vào không trúng bộ nhớ đệm Giá đầu ra
V4-Flash 0,2 NDT / triệu token 1 NDT / triệu token 2 NDT / triệu token
V4-Pro 1 NDT / triệu token 12 NDT / triệu token 24 NDT / triệu token
Nguồn dữ liệu:      

So sánh, giá đầu ra của GPT-5.5 là 30 USD/triệu token (khoảng 200+ NDT), giá đầu ra của V4-Flash chỉ bằng khoảng 1/100 so với GPT-5.5.

4.  Thích ứng sức mạnh tính toán nội địa hóa: Bước đi vững chắc trong chiến lược hệ sinh thái

Để giải quyết bài toán "nút thắt cổ chai" về công nghệ và giảm chi phí suy luận, ngay trong ngày đầu phát hành, DeepSeek-V4 đã hoàn tất thích ứng sâu với Huawei Ascend.

  • Số liệu hiệu suất: Dựa trên siêu nút Ascend 950, V4-Pro có thể đạt thông lượng 4700 token/giây trên mỗi thẻ, độ trễ giải mã khoảng 20ms.

  • Hợp tác sâu rộng: Đây không chỉ đơn thuần là "cấy ghép", mà là sự tối ưu hóa "phối hợp chip - mô hình" ngay từ giai đoạn phát triển, đảm bảo V4 cũng có thể phát huy hiệu năng hàng đầu trên nền tảng tính toán nội địa hóa.

5.  Hạn chế hiện tại và triển vọng

Mặc dù hiệu năng vượt trội, phiên bản xem trước DeepSeek-V4 hiện tại không có khả năng đa phương thức nguyên bản (tức là không thể trực tiếp nhận diện nội dung ảnh, video). Điều này có nghĩa là khi xử lý các tác vụ như phân tích biểu đồ, hiểu ngữ cảnh thị giác, V4 vẫn cần dựa vào các công cụ bên ngoài hoặc công nghệ OCR.

Triết lý cốt lõi của DeepSeek-V4 rất rõ ràng: Không chạy theo "đa năng" một cách mù quáng, mà tập trung đạt đến đỉnh cao ở hai điểm nhấn chuyên biệt là "hiệu quả suy luận với văn bản dài" và "khả năng thực thi tác vụ Agent". Dựa trên việc kiểm soát chi phí cực đoan và thích ứng với sức mạnh tính toán nội địa hóa, V4 cung cấp cho các nhà phát triển một mô hình nền tảng mạnh mẽ, thực sự có thể chi trả được và sử dụng tốt.

Tin tức khác

Dịch vụ lập trình ứng dụng Web App theo nhu cầu của doanh nghiệp

Dịch vụ lập trình ứng dụng Web App theo nhu cầu của doanh nghiệp

Raccoon.vn sẽ là nơi để bạn lựa chọn. Với nhiều năm kinh nghiệm trong lập trình website, và lập trình ứng dụng web app, lập trình mobile app cùng với các dịch…

Các AI hỗ trợ tạo hình ảnh sản phẩm bán hàng

Các AI hỗ trợ tạo hình ảnh sản phẩm bán hàng

Những công cụ này giúp bạn tạo ảnh studio chuyên nghiệp, thay nền, đặt sản phẩm vào bối cảnh thực tế (lifestyle), mockup, hoặc thậm chí generate từ đầu chỉ bằng text…

Các cách cải thiện website với AI Mode Google

Các cách cải thiện website với AI Mode Google

AI Mode là một phần của các tính năng tìm kiếm AI tiên tiến từ Google, bao gồm AI Overviews (tổng hợp câu trả lời nhanh từ nhiều nguồn) và chế độ…

Các lĩnh vực, công việc không nên sử dụng AI

Các lĩnh vực, công việc không nên sử dụng AI

Dưới đây là các loại công việc mà không nên sử dụng AI (hoặc chỉ nên dùng AI ở mức hỗ trợ rất hạn chế, con người vẫn phải chịu trách nhiệm…