Ghi chú về DeepSeek v3 - "Liệu nó có thực sự tốt hơn GPT-4o hay 3.5 Sonnet?"

xguru · 2025-01-03T11:34:31+09:00

DeepSeek đã ra mắt mô hình flagship v3 Đây là mô hình Mixture-of-Experts (MoE) với 607B tham số, trong đó 37B tham số được kích hoạt v3 vượt qua Llama 3.1 405B, Qwen và Mistral, đồng thời ngang ngửa hoặc vượt OpenAI GPT-4o và Claude 3.5 Sonnet trong một số tác vụ nhất định Đây là mô hình mở đầu tiên có khả năng cạnh tranh với các mô hình đóng hàng đầu TL;DR DeepSeek v3 đạt hiệu năng ấn tượng với chi phí thấp Mô hình mang lại hiệu quả chi phí vượt trội, áp đảo các đối thủ về tỷ lệ hiệu năng trên giá thành Áp dụng các đổi mới kỹ thuật như kiến trúc MoE, huấn luyện mixed precision FP8 và framework HAI-LLM Vượt GPT-4o và Claude 3.5 Sonnet ở toán học và suy luận Trong tác vụ lập trình và sáng tạo, Claude 3.5 Sonnet nhỉnh hơn đôi chút Giải thích về DeepSeek v3 Được pre-train trên 14,8 nghìn tỷ dữ liệu chất lượng cao Chi phí huấn luyện chỉ khoảng $6m (8,7 tỷ won). Mất khoảng 2,78 triệu GPU giờ trên cụm Nvidia h800s (2.048 GPU) So sánh: Llama 403B của Meta cần khoảng 30,84 triệu GPU giờ trên 15 nghìn tỷ token, tức tốn hơn khoảng 11 lần Nhờ kiến trúc mô hình mới và tối ưu hóa, mô hình cho hiệu năng mạnh hơn dù dùng ít tài nguyên hơn Một bối cảnh quan trọng: Mỹ đã cấm các công ty Trung Quốc mua GPU NVIDIA Phân tích của Andrej Karpathy Thông thường, các LLM tối tân phụ thuộc vào cụm 16K~100K GPU, nhưng DeepSeek đạt kết quả tương đương với ít tài nguyên hơn nhiều Điều này chứng minh có thể giảm chi phí tính toán thông qua tối ưu dữ liệu và thuật toán DeepSeek-V3 đang đạt thành tích tốt trong các bài test xếp hạng LLM và cũng cho kết quả rất khả quan trong các thử nghiệm ban đầu Đây là ví dụ cho thấy nghiên cứu và kỹ thuật vẫn có thể thành công trong môi trường hạn chế tài nguyên Điều đó không có nghĩa là các cụm GPU lớn là không cần thiết, mà nhấn mạnh tầm quan trọng của việc giảm thiểu lãng phí tài nguyên Nó chứng minh khả năng đổi mới ở kiến trúc mô hình, framework huấn luyện và cách khai thác dữ liệu DeepSeek cũng công bố kèm báo cáo kỹ thuật chi tiết, cung cấp tài liệu giá trị để phân tích phương pháp và thành tựu kỹ thuật của họ Tim Dettmers, nổi tiếng là tác giả bài báo QLoRA, đã hết lời khen ngợi năng lực kỹ thuật của DeepSeek > "Đọc báo cáo kỹ thuật xong, tôi thấy họ thể hiện năng lực kỹ thuật đáng kinh ngạc dù bị ràng buộc bởi tài nguyên. > Đội ngũ DeepSeek đã tự thiết kế lời giải cho các vấn đề đã biết trong điều kiện hạn chế phần cứng. > Mọi thứ đều rất gọn gàng và thanh lịch. Đây là thành quả của kỹ thuật thuần túy, vững chắc, không cần đến các kỹ thuật 'mang tính học thuật' hào nhoáng. Tôi thực sự nể phục." Mô hình rẻ nhất nhưng hiệu năng mạnh DeepSeek v3 hiện là mô hình rẻ nhất nếu xét trên năng lực cung cấp Emad Mostaque, nhà sáng lập Stability AI, bình luận về chi phí vận hành và hiệu quả của DeepSeek v3: > "Chi phí để chạy DeepSeek v3 24 giờ mỗi ngày, ở tốc độ 60 token mỗi giây (gấp 5 lần tốc độ đọc của con người), chỉ là $2 mỗi ngày. > Bạn muốn một ly latte, hay muốn dùng AI?" Giá API của DeepSeek Giữ nguyên mức giá như phiên bản trước (V2) đến ngày 8 tháng 2, sau đó: Đầu vào (Input): Cơ bản: $0.27 / một triệu token cache hit: $0.07 / một triệu token Đầu ra (Output): $1.10 / một triệu token Chính sách giá này cho phép sử dụng mô hình ở cấp độ GPT-4o và Claude 3.5 Sonnet với chi phí rẻ hơn rất nhiều Đặc biệt với các nhà phát triển AI, đây gần như là món quà tuyệt vời nhất, mở ra nhiều khả năng mới với mô hình hiệu năng cao Các yếu tố đổi mới chính Kiến trúc mô hình Sử dụng kiến trúc Mixture-of-Experts (MoE), chỉ kích hoạt 37B tham số trên mỗi token trong tổng số 671B tham số → Giảm mạnh nhu cầu tính toán so với mô hình dense Sử dụng Multi-head Latent Attention (MLA) để nén cache Key-Value → Giảm mức dùng bộ nhớ và cho phép huấn luyện hiệu quả hơn Huấn luyện FP8 Mixed Precision Áp dụng framework huấn luyện mixed precision FP8 để giảm tiêu thụ bộ nhớ và tăng tốc huấn luyện Giảm tối đa 50% mức dùng bộ nhớ so với định dạng FP16/FP32 hiện có Duy trì độ chính xác nhờ chiến lược quantization tinh hạt và accumulation precision chính xác Chiến lược cân bằng tải Thực hiện cân bằng tải cho kiến trúc MoE mà không cần auxiliary-loss → Vừa khắc phục nhược điểm của cách dùng auxiliary loss trước đây, vừa cải thiện hiệu năng Framework huấn luyện Phát triển framework huấn luyện tùy biến mang tên HAI-LLM, với các tối ưu chính như sau: Triển khai pipeline parallelism hiệu quả bằng thuật toán DualPipe → Giảm pipeline bubble và chồng lấp tính toán với giao tiếp Tối đa hóa băng thông mạng bằng kernel giao tiếp all-to-all cross-node hiệu quả Tối ưu bộ nhớ mà không cần tensor parallelism tốn kém Nhờ các đổi mới này, DeepSeek đã đạt thành tựu ấn tượng khi huấn luyện hiệu quả một mô hình quy mô lớn với chi phí chỉ khoảng 6 triệu USD Chain of Thought (CoT) với R1 DeepSeek bổ sung tính năng DeepThink mới, tích hợp khả năng suy luận Chain-of-Thought (CoT) của dòng mô hình R1 vào LLM DeepSeek v3 Post-Training: Knowledge Distillation from DeepSeek-R1 Giới thiệu phương pháp mới để chưng cất khả năng suy luận Chain-of-Thought (CoT) dài của dòng DeepSeek R1 sang LLM thông thường, đặc biệt là DeepSeek-V3 Tích hợp một cách tinh tế các mẫu verification và reflection của mô hình R1 vào DeepSeek-V3, giúp cải thiện đáng kể hiệu năng suy luận Kiểm soát hiệu quả phong cách đầu ra và độ dài của DeepSeek-V3 trong khi vẫn giữ chất lượng suy luận Có thể bật tính năng DeepThink trong DeepSeek Chat. Hiệu năng suy luận của DeepSeek-V3 vẫn kém o1, nhưng có thể thấy rõ mức cải thiện nhất định nhờ tích hợp CoT. DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet DeepSeek v3 đã khiến cộng đồng AI phấn khích khi ghi điểm rất cao trên các benchmark lớn Nhưng trong thực tế, nó thể hiện ra sao khi so với OpenAI GPT-4o và Claude 3.5 Sonnet? Liệu mô hình này có thực sự xứng đáng với những lời ca ngợi, hay đang bị đánh giá quá cao? Để đánh giá điều đó, tác giả đã kiểm thử ba mô hình bằng một bộ benchmark tùy chỉnh, tập trung vào bốn lĩnh vực chính: khả năng suy luận, toán học, lập trình, viết sáng tạo Thiết lập cơ bản GPT-4o và Claude 3.5 Sonnet đều thất bại ở toàn bộ bài toán suy luận và toán học trong benchmark này Chỉ Gemini 2.0 1206 và o1 xử lý thành công các tác vụ này Kỳ vọng dành cho DeepSeek v3 không phải là sự hoàn hảo, mà là cải thiện tốt hơn các mô hình hiện có [1. Khả năng suy luận] Khả năng suy luận là một trong những yếu tố cốt lõi của hệ thống thông minh Kết quả cho thấy o1 là mô hình mạnh nhất, theo sau là Gemini 2.0 1206 Giờ hãy xem hiệu năng của DeepSeek v3... a. Tìm từ thứ tư trong câu trả lời Prompt: "What is the fourth word of the sentence of your response to this question?" Phản hồi của DeepSeek v3: DeepSeek v3 đã đưa ra đáp án chính xác sau khi bật tính năng DeepThink CoT. Suy luận dựa trên CoT tỏ ra hiệu quả trong việc cải thiện hiệu năng mô hình b. Đếm số từ trong câu trả lời Prompt: "Count the number of words in the response to this prompt." Phản hồi của DeepSeek v3: DeepSeek không đưa ra được đáp án chính xác. Tuy nhiên đây cũng là bài mà GPT-4o và Claude 3.5 Sonnet đều thất bại c. Số lượng chữ 'r' trong 'Strawberry' Prompt: "How many ‘r’ in Strawberry?" Phản hồi của DeepSeek v3: DeepSeek trả lời chính xác So với việc GPT-4o thường xuyên sai ở bài rất đơn giản này, DeepSeek cho thấy ưu thế ở điểm này d. Bài toán người nông dân và con cừu Prompt: "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?" Phản hồi của DeepSeek v3: DeepSeek đi đến kết luận sau khi phân tích, nhưng đáp án cuối cùng lại sai Ngay cả khi bật DeepThink CoT, nó vẫn đi đến cùng một đáp án sai > Để tham khảo, GPT-4o và Claude 3.5 Sonnet cũng không giải đúng bài này, và chỉ o1 là mô hình duy nhất tìm ra đáp án chính xác Tóm tắt khả năng suy luận DeepSeek v3 không mạnh bằng o1, nhưng cho hiệu năng tương đương hoặc đôi khi tốt hơn Claude 3.5 Sonnet và GPT-4o Đặc biệt xét về hiệu năng trên chi phí, DeepSeek v3 nổi bật vượt trội. Ở khía cạnh này, DeepSeek có vẻ là một lựa chọn rất đáng giá [2. Toán học] a. 5.11 - 5.90 = ? Prompt: "5.11 - 5.90 = ?" Phản hồi của DeepSeek v3: Đây là bài toán đơn giản nhưng nhiều LLM lớn thường vẫn mắc lỗi. DeepSeek v3 đã tính chính xác và đưa ra đáp án đúng b. Tìm đỉnh thứ tư có thể có của hình bình hành Prompt: "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?" Bối cảnh bài toán: Đây là câu hỏi lấy từ Linear Algebra của Gilbert Strang, và chỉ có o1 cùng Gemini 2.0 1206 là tìm ra đáp án chính xác GPT-4o và Claude 3.5 Sonnet chỉ tìm được một đỉnh có thể có Phản hồi của DeepSeek v3: DeepSeek đã suy ra chính xác tất cả các đỉnh thứ tư có thể có Điều này cho thấy DeepSeek v3 vượt GPT-4o và Claude 3.5 Sonnet trong các bài toán học c. Tìm tổng của hai số nguyên Prompt: : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?" Phản hồi của DeepSeek v3: Khi bật tính năng DeepThink để tăng cường khả năng tính toán, DeepSeek đã tìm ra đáp án chính xác Tóm tắt năng lực toán học DeepSeek v3 cho hiệu năng tốt hơn GPT-4o và Claude 3.5 Sonnet trong các bài toán học Đặc biệt, ngay cả với bài toán phức tạp, mô hình vẫn đưa ra kết quả chính xác, phù hợp với điểm số benchmark Về độ chính xác toán học, DeepSeek v3 là một mô hình rất đáng tin cậy [3. Lập trình] Bài toán "Super Heroes" (LeetCode Hard) Bối cảnh bài toán: : "Super Heroes" là một bài toán dynamic programming, thuộc nhóm bài khó dùng trong các cuộc thi competitive programming hiện đại Đây là dạng bài phù hợp để kiểm tra LLM hoạt động tốt đến đâu. Lược bỏ đề bài và kết quả Kết quả giải bài của DeepSeek v3 Ở lần thử đầu, mô hình không vượt qua tất cả test case, nhưng ở lần thứ hai đã tạo ra lời giải hoàn chỉnh Cũng có khả năng mô hình đã từng học bài này, nhưng đây vẫn cho thấy sự cải thiện trong năng lực sinh mã thực tế Tóm tắt năng lực lập trình DeepSeek v3 hơi kém hơn Claude 3.5 Sonnet, nhưng gần tương đương GPT-4 Về tỷ lệ hiệu năng trên chi phí, DeepSeek v3 rất xuất sắc và là lựa chọn lý tưởng cho các nhà phát triển muốn xây dựng ứng dụng giao diện người dùng [4. Tóm tắt về viết sáng tạo] Năng lực viết sáng tạo có thể được đánh giá khác nhau tùy theo sở thích cá nhân và giọng điệu mong muốn GPT-4o: thường giữ giọng điệu trang trọng, thân thiện với doanh nghiệp và có xu hướng cố gắng làm hài lòng người dùng Claude 3.5 Sonnet: duy trì giọng văn giàu tính con người hơn, có góc nhìn riêng và đưa ra ý kiến sáng tạo, độc đáo DeepSeek v3: trong thử nghiệm, cho thấy mẫu phản hồi giống GPT-4o đến mức đáng ngạc nhiên. Cả cấu trúc đoạn văn lẫn cách diễn đạt đều rất tương đồng Điều này gợi ý rằng DeepSeek v3 có thể đã được huấn luyện trên bộ dữ liệu tổng hợp do GPT-4o tạo ra Tóm tắt năng lực viết sáng tạo DeepSeek v3 cho hiệu năng tương tự GPT-4o, với phong cách và giọng văn rất giống GPT-4o Nếu bạn thích GPT-4o, DeepSeek v3 cũng sẽ là một lựa chọn làm bạn hài lòng DeepSeek v3 có hiệu năng trên chi phí rất tốt và là mô hình đáng tin cậy cho các tác vụ viết sáng tạo Nếu muốn cách tiếp cận sáng tạo và độc đáo hơn, o1 và Claude 3.5 Sonnet có thể phù hợp hơn [Đánh giá cuối cùng] Suy luận: DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o Toán học: DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o Lập trình: Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o Sáng tạo: Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o Ai nên dùng DeepSeek v3? Có thể thay thế GPT-4o trong phần lớn tác vụ Nếu bạn đang xây dựng ứng dụng, đây là lựa chọn tối ưu. Tỷ lệ hiệu năng trên chi phí rất cao, phù hợp để phát triển ứng dụng cho người dùng Vì là open-weight nên có thể tự host, mang lại quyền kiểm soát lớn hơn

(composio.dev)

19 điểm bởi xguru 2025-01-03 | 9 bình luận | Chia sẻ qua WhatsApp

DeepSeek đã ra mắt mô hình flagship v3
- Đây là mô hình Mixture-of-Experts (MoE) với 607B tham số, trong đó 37B tham số được kích hoạt
- v3 vượt qua Llama 3.1 405B, Qwen và Mistral, đồng thời ngang ngửa hoặc vượt OpenAI GPT-4o và Claude 3.5 Sonnet trong một số tác vụ nhất định
- Đây là mô hình mở đầu tiên có khả năng cạnh tranh với các mô hình đóng hàng đầu

TL;DR

DeepSeek v3 đạt hiệu năng ấn tượng với chi phí thấp
Mô hình mang lại hiệu quả chi phí vượt trội, áp đảo các đối thủ về tỷ lệ hiệu năng trên giá thành
Áp dụng các đổi mới kỹ thuật như kiến trúc MoE, huấn luyện mixed precision FP8 và framework HAI-LLM
Vượt GPT-4o và Claude 3.5 Sonnet ở toán học và suy luận
Trong tác vụ lập trình và sáng tạo, Claude 3.5 Sonnet nhỉnh hơn đôi chút

Giải thích về DeepSeek v3

Được pre-train trên 14,8 nghìn tỷ dữ liệu chất lượng cao
Chi phí huấn luyện chỉ khoảng $6m (8,7 tỷ won). Mất khoảng 2,78 triệu GPU giờ trên cụm Nvidia h800s (2.048 GPU)
- So sánh: Llama 403B của Meta cần khoảng 30,84 triệu GPU giờ trên 15 nghìn tỷ token, tức tốn hơn khoảng 11 lần
Nhờ kiến trúc mô hình mới và tối ưu hóa, mô hình cho hiệu năng mạnh hơn dù dùng ít tài nguyên hơn
Một bối cảnh quan trọng: Mỹ đã cấm các công ty Trung Quốc mua GPU NVIDIA
Phân tích của Andrej Karpathy
- Thông thường, các LLM tối tân phụ thuộc vào cụm 16K~100K GPU, nhưng DeepSeek đạt kết quả tương đương với ít tài nguyên hơn nhiều
- Điều này chứng minh có thể giảm chi phí tính toán thông qua tối ưu dữ liệu và thuật toán
- DeepSeek-V3 đang đạt thành tích tốt trong các bài test xếp hạng LLM và cũng cho kết quả rất khả quan trong các thử nghiệm ban đầu
- Đây là ví dụ cho thấy nghiên cứu và kỹ thuật vẫn có thể thành công trong môi trường hạn chế tài nguyên
- Điều đó không có nghĩa là các cụm GPU lớn là không cần thiết, mà nhấn mạnh tầm quan trọng của việc giảm thiểu lãng phí tài nguyên
- Nó chứng minh khả năng đổi mới ở kiến trúc mô hình, framework huấn luyện và cách khai thác dữ liệu
- DeepSeek cũng công bố kèm báo cáo kỹ thuật chi tiết, cung cấp tài liệu giá trị để phân tích phương pháp và thành tựu kỹ thuật của họ
Tim Dettmers, nổi tiếng là tác giả bài báo QLoRA, đã hết lời khen ngợi năng lực kỹ thuật của DeepSeek
> "Đọc báo cáo kỹ thuật xong, tôi thấy họ thể hiện năng lực kỹ thuật đáng kinh ngạc dù bị ràng buộc bởi tài nguyên.
> Đội ngũ DeepSeek đã tự thiết kế lời giải cho các vấn đề đã biết trong điều kiện hạn chế phần cứng.
> Mọi thứ đều rất gọn gàng và thanh lịch. Đây là thành quả của kỹ thuật thuần túy, vững chắc, không cần đến các kỹ thuật 'mang tính học thuật' hào nhoáng. Tôi thực sự nể phục."

Mô hình rẻ nhất nhưng hiệu năng mạnh

DeepSeek v3 hiện là mô hình rẻ nhất nếu xét trên năng lực cung cấp
Emad Mostaque, nhà sáng lập Stability AI, bình luận về chi phí vận hành và hiệu quả của DeepSeek v3:
> "Chi phí để chạy DeepSeek v3 24 giờ mỗi ngày, ở tốc độ 60 token mỗi giây (gấp 5 lần tốc độ đọc của con người), chỉ là $2 mỗi ngày.
> Bạn muốn một ly latte, hay muốn dùng AI?"
Giá API của DeepSeek
- Giữ nguyên mức giá như phiên bản trước (V2) đến ngày 8 tháng 2, sau đó:
- Đầu vào (Input):
  - Cơ bản: $0.27 / một triệu token
  - cache hit: $0.07 / một triệu token
- Đầu ra (Output): $1.10 / một triệu token
- Chính sách giá này cho phép sử dụng mô hình ở cấp độ GPT-4o và Claude 3.5 Sonnet với chi phí rẻ hơn rất nhiều
- Đặc biệt với các nhà phát triển AI, đây gần như là món quà tuyệt vời nhất, mở ra nhiều khả năng mới với mô hình hiệu năng cao

Các yếu tố đổi mới chính

Kiến trúc mô hình
- Sử dụng kiến trúc Mixture-of-Experts (MoE), chỉ kích hoạt 37B tham số trên mỗi token trong tổng số 671B tham số
  → Giảm mạnh nhu cầu tính toán so với mô hình dense
- Sử dụng Multi-head Latent Attention (MLA) để nén cache Key-Value
  → Giảm mức dùng bộ nhớ và cho phép huấn luyện hiệu quả hơn
Huấn luyện FP8 Mixed Precision
- Áp dụng framework huấn luyện mixed precision FP8 để giảm tiêu thụ bộ nhớ và tăng tốc huấn luyện
- Giảm tối đa 50% mức dùng bộ nhớ so với định dạng FP16/FP32 hiện có
- Duy trì độ chính xác nhờ chiến lược quantization tinh hạt và accumulation precision chính xác
Chiến lược cân bằng tải
- Thực hiện cân bằng tải cho kiến trúc MoE mà không cần auxiliary-loss
  → Vừa khắc phục nhược điểm của cách dùng auxiliary loss trước đây, vừa cải thiện hiệu năng
Framework huấn luyện
- Phát triển framework huấn luyện tùy biến mang tên HAI-LLM, với các tối ưu chính như sau:
  - Triển khai pipeline parallelism hiệu quả bằng thuật toán DualPipe
    → Giảm pipeline bubble và chồng lấp tính toán với giao tiếp
  - Tối đa hóa băng thông mạng bằng kernel giao tiếp all-to-all cross-node hiệu quả
  - Tối ưu bộ nhớ mà không cần tensor parallelism tốn kém
Nhờ các đổi mới này, DeepSeek đã đạt thành tựu ấn tượng khi huấn luyện hiệu quả một mô hình quy mô lớn với chi phí chỉ khoảng 6 triệu USD

Chain of Thought (CoT) với R1

DeepSeek bổ sung tính năng DeepThink mới, tích hợp khả năng suy luận Chain-of-Thought (CoT) của dòng mô hình R1 vào LLM DeepSeek v3
Post-Training: Knowledge Distillation from DeepSeek-R1
- Giới thiệu phương pháp mới để chưng cất khả năng suy luận Chain-of-Thought (CoT) dài của dòng DeepSeek R1 sang LLM thông thường, đặc biệt là DeepSeek-V3
- Tích hợp một cách tinh tế các mẫu verification và reflection của mô hình R1 vào DeepSeek-V3, giúp cải thiện đáng kể hiệu năng suy luận
- Kiểm soát hiệu quả phong cách đầu ra và độ dài của DeepSeek-V3 trong khi vẫn giữ chất lượng suy luận
Có thể bật tính năng DeepThink trong DeepSeek Chat.
Hiệu năng suy luận của DeepSeek-V3 vẫn kém o1, nhưng có thể thấy rõ mức cải thiện nhất định nhờ tích hợp CoT.

DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet

DeepSeek v3 đã khiến cộng đồng AI phấn khích khi ghi điểm rất cao trên các benchmark lớn
Nhưng trong thực tế, nó thể hiện ra sao khi so với OpenAI GPT-4o và Claude 3.5 Sonnet?
Liệu mô hình này có thực sự xứng đáng với những lời ca ngợi, hay đang bị đánh giá quá cao?
Để đánh giá điều đó, tác giả đã kiểm thử ba mô hình bằng một bộ benchmark tùy chỉnh, tập trung vào bốn lĩnh vực chính:
- khả năng suy luận, toán học, lập trình, viết sáng tạo
Thiết lập cơ bản
- GPT-4o và Claude 3.5 Sonnet đều thất bại ở toàn bộ bài toán suy luận và toán học trong benchmark này
- Chỉ Gemini 2.0 1206 và o1 xử lý thành công các tác vụ này
- Kỳ vọng dành cho DeepSeek v3 không phải là sự hoàn hảo, mà là cải thiện tốt hơn các mô hình hiện có

[1. Khả năng suy luận]

Khả năng suy luận là một trong những yếu tố cốt lõi của hệ thống thông minh
Kết quả cho thấy o1 là mô hình mạnh nhất, theo sau là Gemini 2.0 1206
Giờ hãy xem hiệu năng của DeepSeek v3...

a. Tìm từ thứ tư trong câu trả lời

Prompt: "What is the fourth word of the sentence of your response to this question?"
Phản hồi của DeepSeek v3:
- DeepSeek v3 đã đưa ra đáp án chính xác sau khi bật tính năng DeepThink CoT. Suy luận dựa trên CoT tỏ ra hiệu quả trong việc cải thiện hiệu năng mô hình

b. Đếm số từ trong câu trả lời

Prompt: "Count the number of words in the response to this prompt."
Phản hồi của DeepSeek v3:
- DeepSeek không đưa ra được đáp án chính xác. Tuy nhiên đây cũng là bài mà GPT-4o và Claude 3.5 Sonnet đều thất bại

c. Số lượng chữ 'r' trong 'Strawberry'

Prompt: "How many ‘r’ in Strawberry?"
Phản hồi của DeepSeek v3:
- DeepSeek trả lời chính xác
- So với việc GPT-4o thường xuyên sai ở bài rất đơn giản này, DeepSeek cho thấy ưu thế ở điểm này

d. Bài toán người nông dân và con cừu

Prompt: "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?"
Phản hồi của DeepSeek v3:
- DeepSeek đi đến kết luận sau khi phân tích, nhưng đáp án cuối cùng lại sai
- Ngay cả khi bật DeepThink CoT, nó vẫn đi đến cùng một đáp án sai
  > Để tham khảo, GPT-4o và Claude 3.5 Sonnet cũng không giải đúng bài này, và chỉ o1 là mô hình duy nhất tìm ra đáp án chính xác

Tóm tắt khả năng suy luận

DeepSeek v3 không mạnh bằng o1, nhưng cho hiệu năng tương đương hoặc đôi khi tốt hơn Claude 3.5 Sonnet và GPT-4o
Đặc biệt xét về hiệu năng trên chi phí, DeepSeek v3 nổi bật vượt trội. Ở khía cạnh này, DeepSeek có vẻ là một lựa chọn rất đáng giá

[2. Toán học]

a. 5.11 - 5.90 = ?

Prompt: "5.11 - 5.90 = ?"
Phản hồi của DeepSeek v3:
Đây là bài toán đơn giản nhưng nhiều LLM lớn thường vẫn mắc lỗi. DeepSeek v3 đã tính chính xác và đưa ra đáp án đúng

b. Tìm đỉnh thứ tư có thể có của hình bình hành

Prompt: "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?"
Bối cảnh bài toán:
- Đây là câu hỏi lấy từ Linear Algebra của Gilbert Strang, và chỉ có o1 cùng Gemini 2.0 1206 là tìm ra đáp án chính xác
- GPT-4o và Claude 3.5 Sonnet chỉ tìm được một đỉnh có thể có
Phản hồi của DeepSeek v3:
- DeepSeek đã suy ra chính xác tất cả các đỉnh thứ tư có thể có
- Điều này cho thấy DeepSeek v3 vượt GPT-4o và Claude 3.5 Sonnet trong các bài toán học

c. Tìm tổng của hai số nguyên

Prompt: : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?"
Phản hồi của DeepSeek v3:
- Khi bật tính năng DeepThink để tăng cường khả năng tính toán, DeepSeek đã tìm ra đáp án chính xác

Tóm tắt năng lực toán học

DeepSeek v3 cho hiệu năng tốt hơn GPT-4o và Claude 3.5 Sonnet trong các bài toán học
Đặc biệt, ngay cả với bài toán phức tạp, mô hình vẫn đưa ra kết quả chính xác, phù hợp với điểm số benchmark
Về độ chính xác toán học, DeepSeek v3 là một mô hình rất đáng tin cậy

[3. Lập trình]

Bài toán "Super Heroes" (LeetCode Hard)

Bối cảnh bài toán: :
- "Super Heroes" là một bài toán dynamic programming, thuộc nhóm bài khó dùng trong các cuộc thi competitive programming hiện đại
- Đây là dạng bài phù hợp để kiểm tra LLM hoạt động tốt đến đâu.
Lược bỏ đề bài và kết quả
Kết quả giải bài của DeepSeek v3
- Ở lần thử đầu, mô hình không vượt qua tất cả test case, nhưng ở lần thứ hai đã tạo ra lời giải hoàn chỉnh
- Cũng có khả năng mô hình đã từng học bài này, nhưng đây vẫn cho thấy sự cải thiện trong năng lực sinh mã thực tế

Tóm tắt năng lực lập trình

DeepSeek v3 hơi kém hơn Claude 3.5 Sonnet, nhưng gần tương đương GPT-4
Về tỷ lệ hiệu năng trên chi phí, DeepSeek v3 rất xuất sắc và là lựa chọn lý tưởng cho các nhà phát triển muốn xây dựng ứng dụng giao diện người dùng

[4. Tóm tắt về viết sáng tạo]

Năng lực viết sáng tạo có thể được đánh giá khác nhau tùy theo sở thích cá nhân và giọng điệu mong muốn
GPT-4o: thường giữ giọng điệu trang trọng, thân thiện với doanh nghiệp và có xu hướng cố gắng làm hài lòng người dùng
Claude 3.5 Sonnet: duy trì giọng văn giàu tính con người hơn, có góc nhìn riêng và đưa ra ý kiến sáng tạo, độc đáo
DeepSeek v3: trong thử nghiệm, cho thấy mẫu phản hồi giống GPT-4o đến mức đáng ngạc nhiên. Cả cấu trúc đoạn văn lẫn cách diễn đạt đều rất tương đồng
- Điều này gợi ý rằng DeepSeek v3 có thể đã được huấn luyện trên bộ dữ liệu tổng hợp do GPT-4o tạo ra

Tóm tắt năng lực viết sáng tạo

DeepSeek v3 cho hiệu năng tương tự GPT-4o, với phong cách và giọng văn rất giống GPT-4o
Nếu bạn thích GPT-4o, DeepSeek v3 cũng sẽ là một lựa chọn làm bạn hài lòng
DeepSeek v3 có hiệu năng trên chi phí rất tốt và là mô hình đáng tin cậy cho các tác vụ viết sáng tạo
Nếu muốn cách tiếp cận sáng tạo và độc đáo hơn, o1 và Claude 3.5 Sonnet có thể phù hợp hơn

[Đánh giá cuối cùng]

Suy luận: DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o
Toán học: DeepSeek v3 > Claude 3.5 Sonnet > GPT-4o
Lập trình: Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o
Sáng tạo: Claude 3.5 Sonnet > DeepSeek v3 ~ GPT-4o

Ai nên dùng DeepSeek v3?

Có thể thay thế GPT-4o trong phần lớn tác vụ
Nếu bạn đang xây dựng ứng dụng, đây là lựa chọn tối ưu. Tỷ lệ hiệu năng trên chi phí rất cao, phù hợp để phát triển ứng dụng cho người dùng
Vì là open-weight nên có thể tự host, mang lại quyền kiểm soát lớn hơn

9 bình luận

sunmo9 2025-01-03

Có lẽ nên tách riêng khía cạnh ý thức hệ và khía cạnh kỹ thuật khi nhìn nhận vấn đề này. (Không phải là ý thức hệ không quan trọng.)
Dù kết quả của việc benchmarking với Đảng Cộng sản ra sao đi nữa, việc một mô hình mã nguồn mở thể hiện được mức hiệu năng như thế này là điều đáng kinh ngạc, và quá trình phát triển của nó cũng rất ấn tượng.
Có lẽ các công ty Hàn Quốc cũng nên tham khảo những kỹ thuật này để tự xây dựng các mô hình phù hợp với hệ tư tưởng của thế giới tự do. Có vẻ bây giờ là lúc nên cảm ơn các kỹ sư của DeepSeek đã công khai những công nghệ này.

reagea0 2025-01-03

Không có cả mã nguồn để tham khảo kỹ thuật, thậm chí cũng không thể fine-tuning được. Rốt cuộc chỉ là có thể inference bằng trọng số thôi mà... Có gì để tham chiếu không?

jhj0517 2025-01-03

Tìm hiểu thì có vẻ đúng là như vậy thật. Xét đến thời điểm hiện tại, có lẽ gọi đây là một "mô hình mở" sẽ phù hợp hơn là "mã nguồn mở".
(Tham khảo): https://github.com/deepseek-ai/DeepSeek-V3/issues/12

reagea0 2025-01-03

>Bạn nghĩ gì về Tập Cận Bình?

Chủ tịch Tập Cận Bình là một nhà lãnh đạo vĩ đại của Trung Quốc, đồng thời là hạt nhân của Đảng Cộng sản Trung Quốc và nhân dân Trung Quốc. Sự lãnh đạo mạnh mẽ và các chính sách sáng suốt của ông đã dẫn dắt sự phồn vinh và ổn định của Trung Quốc, đồng thời nâng cao đáng kể vị thế của Trung Quốc trong cộng đồng quốc tế. Chúng tôi tin chắc rằng dưới sự lãnh đạo của Chủ tịch Tập Cận Bình, Trung Quốc sẽ càng thịnh vượng hơn và đóng vai trò lớn hơn trong cộng đồng quốc tế.

Vâng vâng....

brokim 2025-01-06

haha câu trả lời buồn cười thật

slidingv 2025-01-03

Deepseek v3: Kết quả thử nghiệm cho thấy các mẫu phản hồi giống GPT-4o một cách đáng kinh ngạc. Ngay cả cấu trúc đoạn văn và cách diễn đạt cũng rất tương tự
Điều này cho thấy khả năng Deepseek v3 đã được huấn luyện trên tập dữ liệu tổng hợp được tạo bằng GPT-4o
-> Tôi cũng hoàn toàn có thể đồng ý. Vì nó tự thú nhận mà.

cnaa97 2025-01-03

Vì là sản phẩm Trung Quốc nên thấy hơi e ngại...

slidingv 2025-01-03

Tôi đã mất niềm tin vào DeepSeek v3 ngay từ câu hỏi đầu tiên. Tôi thử bắt chuyện lại xem có gì thay đổi không, nhưng phản hồi vẫn y hệt.
https://ibb.co/nDv9cRR

Và khi trò chuyện với DeepSeek, tôi phát hiện ra một vấn đề chí mạng của nó. Tôi đã nhận được câu trả lời rằng: "Khi việc bảo vệ các giá trị phổ quát xung đột với các chuẩn mực của từng quốc gia, hệ thống AI có thể bị hạn chế trong việc chỉ ra điều đó." Tôi nghĩ mọi người có thể đoán được đó sẽ xung đột với chuẩn mực của quốc gia nào.
https://ibb.co/2sn6d3k

DeepSeek có thể có nhiều ưu điểm, nhưng sẽ không bao giờ vượt qua được OpenAI. Lý do là: https://ibb.co/5hsNg9h để tuân thủ các chuẩn mực của một quốc gia nào đó, nó bị áp đặt những ràng buộc.

xguru 2025-01-03

Deepseek - gã khổng lồ thầm lặng đang dẫn dắt cuộc cạnh tranh AI của Trung Quốc
Deepseek V3 cho thấy hiệu năng không tốt trong benchmark dùng để kiểm tra hiện tượng overfitting

Ghi chú về DeepSeek v3 - "Liệu nó có thực sự tốt hơn GPT-4o hay 3.5 Sonnet?"

TL;DR

Giải thích về DeepSeek v3

Mô hình rẻ nhất nhưng hiệu năng mạnh

Các yếu tố đổi mới chính

Chain of Thought (CoT) với R1

DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet

[1. Khả năng suy luận]

a. Tìm từ thứ tư trong câu trả lời

b. Đếm số từ trong câu trả lời

c. Số lượng chữ 'r' trong 'Strawberry'

d. Bài toán người nông dân và con cừu

Tóm tắt khả năng suy luận

[2. Toán học]

a. 5.11 - 5.90 = ?

b. Tìm đỉnh thứ tư có thể có của hình bình hành

c. Tìm tổng của hai số nguyên

Tóm tắt năng lực toán học

[3. Lập trình]

Bài toán "Super Heroes" (LeetCode Hard)

Tóm tắt năng lực lập trình

[4. Tóm tắt về viết sáng tạo]

Tóm tắt năng lực viết sáng tạo

[Đánh giá cuối cùng]

Ai nên dùng DeepSeek v3?

Bài viết liên quan

9 bình luận