DeepSeek v4

(huggingface.co)

10 điểm bởi GN⁺ 6 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp

Hoạt động theo định dạng tương thích OpenAI/Anthropic, nên chỉ cần đổi base_url trong cấu hình SDK là có thể truy cập DeepSeek API theo cùng cách
Các lựa chọn model mặc định gồm deepseek-v4-flash và deepseek-v4-pro; deepseek-chat và deepseek-reasoner dự kiến sẽ bị deprecated vào 2026/07/24
Để duy trì khả năng tương thích, deepseek-chat tương ứng với chế độ non-thinking của deepseek-v4-flash, còn deepseek-reasoner tương ứng với chế độ thinking
Chat API được gọi qua endpoint https://api.deepseek.com/chat/completions với header Authorization: Bearer ${DEEPSEEK_API_KEY} và body JSON; ví dụ sử dụng deepseek-v4-pro, thinking, reasoning_effort="high", stream=false
Cả Python và Node.js đều cung cấp ví dụ gọi bằng OpenAI SDK; phản hồi được đọc từ choices[0].message.content, và nếu đổi stream thành true thì có thể nhận phản hồi dạng streaming

Bắt đầu gọi API

DeepSeek API sử dụng định dạng tương thích OpenAI/Anthropic, nên chỉ cần đổi cấu hình là có thể truy cập bằng OpenAI hoặc Anthropic SDK và phần mềm tương thích với các API đó
- Với OpenAI, base_url là https://api.deepseek.com
- Với Anthropic, base_url là https://api.deepseek.com/anthropic
- api_key cần được cấp riêng
Các model khả dụng được hiển thị gồm deepseek-v4-flash, deepseek-v4-pro, deepseek-chat, deepseek-reasoner
- deepseek-chat và deepseek-reasoner dự kiến sẽ bị deprecated vào 2026/07/24
- Để duy trì khả năng tương thích, deepseek-chat tương ứng với chế độ non-thinking của deepseek-v4-flash
- deepseek-reasoner tương ứng với chế độ thinking của deepseek-v4-flash

Gọi Chat API

Sau khi được cấp API key, có thể truy cập model DeepSeek bằng ví dụ theo định dạng OpenAI API
- Ví dụ là lời gọi non-stream; nếu đổi stream thành true thì có thể nhận phản hồi streaming
- Có thể xem ví dụ theo định dạng Anthropic API tại Anthropic API
Ví dụ curl gửi yêu cầu tới https://api.deepseek.com/chat/completions, đồng thời dùng header Authorization: Bearer ${DEEPSEEK_API_KEY} và body JSON
- Model được chỉ định là deepseek-v4-pro
- messages gồm system message "You are a helpful assistant." và user message "Hello!"
- thinking được đặt là {"type": "enabled"}
- reasoning_effort được đặt là "high"
- stream được đặt là false
Ví dụ Python bắt đầu sau khi cài đặt OpenAI SDK
- Lệnh cài đặt là pip3 install openai
- Trong client OpenAI, dùng api_key=os.environ.get('DEEPSEEK_API_KEY') và base_url="https://api.deepseek.com";
- Trong lời gọi client.chat.completions.create, model được đặt là deepseek-v4-pro, stream=False, reasoning_effort="high"
- Đồng thời truyền extra_body={"thinking": {"type": "enabled"}}
- Phản hồi được in ra bằng response.choices[0].message.content
Ví dụ Node.js cũng bắt đầu sau khi cài đặt OpenAI SDK
- Lệnh cài đặt là npm install openai
- Instance OpenAI dùng baseURL: 'https://api.deepseek.com' và apiKey: process.env.DEEPSEEK_API_KEY
- Trong lời gọi openai.chat.completions.create, thiết lập messages, model: "deepseek-v4-pro", thinking: {"type": "enabled"}, reasoning_effort: "high", stream: false
- Kết quả được in ra bằng completion.choices[0].message.content

1 bình luận

GN⁺ 6 ngày trước

Ý kiến trên Hacker News

Với một mô hình khổng lồ như v4 pro, giá khoảng 4 USD cho mỗi 1 triệu token đầu ra, nên tôi không chắc câu chuyện kiểu "các phòng thí nghiệm tuyến đầu đang trợ giá suy luận đến mức điên rồ" có thật sự đúng không
Gói thuê bao có vẻ cũng đã đủ sinh lời rồi, còn giá API thì càng có vẻ như vậy hơn
Đầu vào là $1.74/M, đầu ra là $3.48/M theo OpenRouter
- Cũng có giải thích rằng giá cao là do DeepSeek đang thiếu card suy luận
  Trong thông cáo báo chí có nói rằng khi card tính toán Ascend 950 ra mắt vào nửa cuối năm nay, giá Pro sẽ giảm mạnh
- Xét theo chi phí vận hành thì có thể đang có lãi, nhưng nếu tính theo chi phí vốn bao gồm cả lịch khấu hao hiện tại thì có thể vẫn chưa
  Dù vậy, gần đây các ước tính chi phí đó cũng đang có xu hướng cao hơn dự kiến
- Tôi cũng nhìn nhận tương tự
  Dịch vụ thuê bao có lẽ đã có lãi rồi, còn câu chuyện trợ giá rốt cuộc trông giống như một lập luận để rút biên lợi nhuận cao hơn từ API khách hàng doanh nghiệp
- Nhận xét đó đúng, nhưng hiện vẫn chưa có nhà cung cấp phương Tây nào chạm được mức giá này
  Chi phí điện ở Trung Quốc cũng rẻ hơn
Hơi ấm lòng một cách kỳ lạ khi tài liệu cho lập trình viên ra trước cả thông cáo báo chí hào nhoáng
- Đúng vậy, đúng kiểu this is the way
- Nếu gọi đây là mã nguồn mở thì dữ liệu huấn luyện và script huấn luyện ở đâu?
  Xem bản đã chỉnh sửa thì có vẻ cụm "open source" đã bị bỏ khỏi bình luận đứng đầu
Đã có trên OpenRouter rồi
Pro là đầu vào $1.74/m, đầu ra $3.48/m, còn Flash là đầu vào $0.14/m, đầu ra $0.28/m
- Ở đây hiện Api Error
  Tất cả mô hình khác đều hoạt động bình thường
- https://openrouter.ai/deepseek/deepseek-v4-pro
  
  https://openrouter.ai/deepseek/deepseek-v4-flash
Việc có mã nguồn mở thực sự từ Trung Quốc vẫn là điều đáng mừng
Tôi biết có thể có động cơ ẩn phía sau, nhưng vẫn thấy thiện cảm
- Các công ty Mỹ thì yêu cầu xác minh danh tính quá mức ngay cả khi trả tiền để truy cập mô hình, lưu trữ/phân tích/dùng dữ liệu cho huấn luyện, và còn công khai nói rằng họ có thể giao nộp cho nhà chức trách nếu được yêu cầu
  Động cơ ẩn của Trung Quốc là một giả định, còn phía Mỹ thì lại bày ra rất công khai
- Bài này giúp hiểu vì sao các phòng thí nghiệm Trung Quốc lại công khai mô hình
  http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
- Đây chỉ là open weights thôi
Họ đã đưa mô hình nền 1.6T Pro lên Hugging Face
Đây là lần đầu tôi thấy cách ghi mô hình cỡ T ở đây
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

Mô hình đã được công bố và khá ấn tượng
Hiệu năng cấp frontier nhưng chi phí thấp hơn rất nhiều, và tôi thấy còn tốt hơn Opus 4.6
- Giờ có lẽ chẳng còn cần phải so mô hình với Opus nữa
  Người dùng Opus thì đằng nào cũng sẽ tiếp tục tin nó là tốt nhất, còn người không dùng thì không muốn cái chi phí, lock-in và các hạn chế đó
  Là người không dùng, tôi vẫn chọn mô hình rẻ và nhanh nhất mà vẫn hoàn thành được công việc, và lúc này MiniMax M2.5 đang làm vai trò đó
  Thỉnh thoảng tôi thử cả các mô hình mới đắt hơn nhưng kết quả tương tự, nên đôi lúc cũng thấy có phải sự cường điệu của toàn ngành AI đang khiến mọi thứ trông như chỉ tiến bộ trên benchmark hay không
- Không biết nếu so với Opus 4.7 thì thế nào
  Tôi đã dùng 4.7 khá tập trung suốt tuần này khi tham gia hackathon Anthropic Opus 4.7, và dù nó ngốn token hơn nhiều so với 4.6 thì vẫn khá ấn tượng
- Tôi tò mò không biết có thật là tốt hơn Opus 4.6 hay chỉ là tối ưu benchmark giỏi hơn thôi
  Không biết đã thử code thực tế với agent harness chưa
  Nếu năng lực coding tốt hơn Claude Code + Opus 4.6 thì tôi sẽ đổi ngay
- Lại bắt đầu rồi
  Ngày nào cũng có bài ra mắt nói tốt hơn Opus 4.6, nhưng chính deepseek cũng không khẳng định là tốt hơn opus nếu tính cả thinking
  Dsv3 không phải kiểu mô hình thổi phồng benchmark, và ở các tác vụ ngoài benchmark cũng khá ổn định; dù chưa đạt SoTA nhưng vẫn tốt
  Mô hình lần này trông cũng tương tự
  Ở mức ngay dưới top hiệu năng nhưng chênh lệch không lớn và giá thì thấp hơn rất nhiều
  Mô hình lớn hiện được ds tự phục vụ với giá $1.74 in / $3.48 out / $0.14 cache nên cực rẻ so với giá trị nhận được
  Mô hình nhỏ thì $0.14 in / $0.28 out / $0.028 cache, thực tế là rẻ tới mức gần như không cần bận tâm, và có thể là ứng viên thực tế để chạy tại nhà
  Nếu hiệu năng đủ tốt thì hoàn toàn có thể cạnh tranh với dòng haiku hay gemini-flash
- Tính sơ theo các con số benchmark đã công bố, trên 20 chỉ số mà cả hai bên đều có điểm thì tổng chênh lệch là 20.1 điểm phần trăm
  Mức cải thiện trung bình khoảng 2%, nên thật lòng khó nói là rất lớn hay khá tầm thường
  Claude 4.6 tốt hơn gần 10pp ở hỏi đáp ngữ cảnh dài, đặc biệt là corpuses của CorpusQA và đối thoại nhiều vòng của MRCR
  Trong khi đó DSv4 lại cao hơn tới 14pp ở IMOAnswerBench và 12pp ở SimpleQA-Verified
Có thể tải trọng số tại đây
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
- https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base
  https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
  
  Có cả mô hình base mới nên thật sự rất tuyệt
Tôi theo dõi lĩnh vực này rất sâu và cũng thực sự gắn lợi ích của mình với nó, nhưng thành thật mà nói giờ cố theo kịp tất cả đã khiến tôi kiệt sức
Cảm giác như đã qua rất lâu cái thời điểm mà để theo kịp tiến bộ AI thì AI phải tự tóm tắt tiến bộ AI cho mình
- Tốt hơn là đừng cố theo sát
  Nó giống tin tức thôi, khi đến lúc thật sự cần biết thì sẽ có người báo cho bạn trước
- Những tay chơi cốt lõi gần như không thay đổi
  Cứ theo dõi như xem thể thao, và nếu chấp nhận chuyện vị trí số một sẽ thay đổi thì cũng không quá mệt
- Cảm giác là từ sau GPT-4 đến giờ mọi thứ cứ na ná nhau
  Mô hình mới ra thì chỉ kiểu hơn vài benchmark, còn trải nghiệm chủ quan khi dùng thực tế thì gần như y nguyên
  Từ đó đến nay không có nhiều thứ thực sự gây kinh ngạc, và giờ có cảm giác lĩnh vực này đang chững lại thành thứ chỉ nhóm nhiệt thành mới còn quan tâm
Điều làm tôi khó chịu hơn cả chuyện High Flyer công khai sao chép Anthropic để làm cái này là việc GAB đã vô tình cho họ đủ thời gian để nhét vào bên trong hàng chục easter egg cấp xz
Tôi vừa thử trên Pi Coding agent qua OpenRouter, và nó khá thường xuyên không dùng được đúng cách các công cụ read và write
Khá thất vọng, và tôi tự hỏi ngoài kiểu prompt như "đừng dùng gọi trực tiếp, luôn dùng công cụ được cung cấp" thì có giải pháp nào tốt hơn không
- Mới ra chưa lâu nên có lẽ cứ chờ thêm một chút sẽ tốt hơn
  Khả năng cao là kiểm thử trước với Pi vẫn chưa được làm đủ nhiều

DeepSeek v4

Bắt đầu gọi API

Gọi Chat API

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News