- Hoạt động theo định dạng tương thích OpenAI/Anthropic, nên chỉ cần đổi
base_url trong cấu hình SDK là có thể truy cập DeepSeek API theo cùng cách
- Các lựa chọn model mặc định gồm
deepseek-v4-flash và deepseek-v4-pro; deepseek-chat và deepseek-reasoner dự kiến sẽ bị deprecated vào 2026/07/24
- Để duy trì khả năng tương thích,
deepseek-chat tương ứng với chế độ non-thinking của deepseek-v4-flash, còn deepseek-reasoner tương ứng với chế độ thinking
- Chat API được gọi qua endpoint
https://api.deepseek.com/chat/completions với header Authorization: Bearer ${DEEPSEEK_API_KEY} và body JSON; ví dụ sử dụng deepseek-v4-pro, thinking, reasoning_effort="high", stream=false
- Cả Python và Node.js đều cung cấp ví dụ gọi bằng OpenAI SDK; phản hồi được đọc từ
choices[0].message.content, và nếu đổi stream thành true thì có thể nhận phản hồi dạng streaming
Bắt đầu gọi API
- DeepSeek API sử dụng định dạng tương thích OpenAI/Anthropic, nên chỉ cần đổi cấu hình là có thể truy cập bằng OpenAI hoặc Anthropic SDK và phần mềm tương thích với các API đó
- Các model khả dụng được hiển thị gồm
deepseek-v4-flash, deepseek-v4-pro, deepseek-chat, deepseek-reasoner
deepseek-chat và deepseek-reasoner dự kiến sẽ bị deprecated vào 2026/07/24
- Để duy trì khả năng tương thích,
deepseek-chat tương ứng với chế độ non-thinking của deepseek-v4-flash
deepseek-reasoner tương ứng với chế độ thinking của deepseek-v4-flash
Gọi Chat API
- Sau khi được cấp API key, có thể truy cập model DeepSeek bằng ví dụ theo định dạng OpenAI API
- Ví dụ là lời gọi non-stream; nếu đổi
stream thành true thì có thể nhận phản hồi streaming
- Có thể xem ví dụ theo định dạng Anthropic API tại Anthropic API
- Ví dụ
curl gửi yêu cầu tới https://api.deepseek.com/chat/completions, đồng thời dùng header Authorization: Bearer ${DEEPSEEK_API_KEY} và body JSON
- Model được chỉ định là
deepseek-v4-pro
messages gồm system message "You are a helpful assistant." và user message "Hello!"
thinking được đặt là {"type": "enabled"}
reasoning_effort được đặt là "high"
stream được đặt là false
- Ví dụ Python bắt đầu sau khi cài đặt OpenAI SDK
- Lệnh cài đặt là
pip3 install openai
- Trong client
OpenAI, dùng api_key=os.environ.get('DEEPSEEK_API_KEY') và base_url="https://api.deepseek.com"
- Trong lời gọi
client.chat.completions.create, model được đặt là deepseek-v4-pro, stream=False, reasoning_effort="high"
- Đồng thời truyền
extra_body={"thinking": {"type": "enabled"}}
- Phản hồi được in ra bằng
response.choices[0].message.content
- Ví dụ Node.js cũng bắt đầu sau khi cài đặt OpenAI SDK
- Lệnh cài đặt là
npm install openai
- Instance
OpenAI dùng baseURL: 'https://api.deepseek.com' và apiKey: process.env.DEEPSEEK_API_KEY
- Trong lời gọi
openai.chat.completions.create, thiết lập messages, model: "deepseek-v4-pro", thinking: {"type": "enabled"}, reasoning_effort: "high", stream: false
- Kết quả được in ra bằng
completion.choices[0].message.content
1 bình luận
Ý kiến trên Hacker News
Với một mô hình khổng lồ như v4 pro, giá khoảng 4 USD cho mỗi 1 triệu token đầu ra, nên tôi không chắc câu chuyện kiểu "các phòng thí nghiệm tuyến đầu đang trợ giá suy luận đến mức điên rồ" có thật sự đúng không
Gói thuê bao có vẻ cũng đã đủ sinh lời rồi, còn giá API thì càng có vẻ như vậy hơn
Đầu vào là $1.74/M, đầu ra là $3.48/M theo OpenRouter
Trong thông cáo báo chí có nói rằng khi card tính toán Ascend 950 ra mắt vào nửa cuối năm nay, giá Pro sẽ giảm mạnh
Dù vậy, gần đây các ước tính chi phí đó cũng đang có xu hướng cao hơn dự kiến
Dịch vụ thuê bao có lẽ đã có lãi rồi, còn câu chuyện trợ giá rốt cuộc trông giống như một lập luận để rút biên lợi nhuận cao hơn từ API khách hàng doanh nghiệp
Chi phí điện ở Trung Quốc cũng rẻ hơn
Hơi ấm lòng một cách kỳ lạ khi tài liệu cho lập trình viên ra trước cả thông cáo báo chí hào nhoáng
Xem bản đã chỉnh sửa thì có vẻ cụm "open source" đã bị bỏ khỏi bình luận đứng đầu
Đã có trên OpenRouter rồi
Pro là đầu vào $1.74/m, đầu ra $3.48/m, còn Flash là đầu vào $0.14/m, đầu ra $0.28/m
Ở đây hiện Api Error
Tất cả mô hình khác đều hoạt động bình thường
https://openrouter.ai/deepseek/deepseek-v4-pro
https://openrouter.ai/deepseek/deepseek-v4-flash
Việc có mã nguồn mở thực sự từ Trung Quốc vẫn là điều đáng mừng
Tôi biết có thể có động cơ ẩn phía sau, nhưng vẫn thấy thiện cảm
Động cơ ẩn của Trung Quốc là một giả định, còn phía Mỹ thì lại bày ra rất công khai
http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
Họ đã đưa mô hình nền 1.6T Pro lên Hugging Face
Đây là lần đầu tôi thấy cách ghi mô hình cỡ T ở đây
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
Mô hình đã được công bố và khá ấn tượng
Hiệu năng cấp frontier nhưng chi phí thấp hơn rất nhiều, và tôi thấy còn tốt hơn Opus 4.6
Người dùng Opus thì đằng nào cũng sẽ tiếp tục tin nó là tốt nhất, còn người không dùng thì không muốn cái chi phí, lock-in và các hạn chế đó
Là người không dùng, tôi vẫn chọn mô hình rẻ và nhanh nhất mà vẫn hoàn thành được công việc, và lúc này MiniMax M2.5 đang làm vai trò đó
Thỉnh thoảng tôi thử cả các mô hình mới đắt hơn nhưng kết quả tương tự, nên đôi lúc cũng thấy có phải sự cường điệu của toàn ngành AI đang khiến mọi thứ trông như chỉ tiến bộ trên benchmark hay không
Tôi đã dùng 4.7 khá tập trung suốt tuần này khi tham gia hackathon Anthropic Opus 4.7, và dù nó ngốn token hơn nhiều so với 4.6 thì vẫn khá ấn tượng
Không biết đã thử code thực tế với agent harness chưa
Nếu năng lực coding tốt hơn Claude Code + Opus 4.6 thì tôi sẽ đổi ngay
Ngày nào cũng có bài ra mắt nói tốt hơn Opus 4.6, nhưng chính deepseek cũng không khẳng định là tốt hơn opus nếu tính cả thinking
Dsv3 không phải kiểu mô hình thổi phồng benchmark, và ở các tác vụ ngoài benchmark cũng khá ổn định; dù chưa đạt SoTA nhưng vẫn tốt
Mô hình lần này trông cũng tương tự
Ở mức ngay dưới top hiệu năng nhưng chênh lệch không lớn và giá thì thấp hơn rất nhiều
Mô hình lớn hiện được ds tự phục vụ với giá $1.74 in / $3.48 out / $0.14 cache nên cực rẻ so với giá trị nhận được
Mô hình nhỏ thì $0.14 in / $0.28 out / $0.028 cache, thực tế là rẻ tới mức gần như không cần bận tâm, và có thể là ứng viên thực tế để chạy tại nhà
Nếu hiệu năng đủ tốt thì hoàn toàn có thể cạnh tranh với dòng haiku hay gemini-flash
Mức cải thiện trung bình khoảng 2%, nên thật lòng khó nói là rất lớn hay khá tầm thường
Claude 4.6 tốt hơn gần 10pp ở hỏi đáp ngữ cảnh dài, đặc biệt là corpuses của CorpusQA và đối thoại nhiều vòng của MRCR
Trong khi đó DSv4 lại cao hơn tới 14pp ở IMOAnswerBench và 12pp ở SimpleQA-Verified
Có thể tải trọng số tại đây
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
Có cả mô hình base mới nên thật sự rất tuyệt
Tôi theo dõi lĩnh vực này rất sâu và cũng thực sự gắn lợi ích của mình với nó, nhưng thành thật mà nói giờ cố theo kịp tất cả đã khiến tôi kiệt sức
Cảm giác như đã qua rất lâu cái thời điểm mà để theo kịp tiến bộ AI thì AI phải tự tóm tắt tiến bộ AI cho mình
Nó giống tin tức thôi, khi đến lúc thật sự cần biết thì sẽ có người báo cho bạn trước
Cứ theo dõi như xem thể thao, và nếu chấp nhận chuyện vị trí số một sẽ thay đổi thì cũng không quá mệt
Mô hình mới ra thì chỉ kiểu hơn vài benchmark, còn trải nghiệm chủ quan khi dùng thực tế thì gần như y nguyên
Từ đó đến nay không có nhiều thứ thực sự gây kinh ngạc, và giờ có cảm giác lĩnh vực này đang chững lại thành thứ chỉ nhóm nhiệt thành mới còn quan tâm
Điều làm tôi khó chịu hơn cả chuyện High Flyer công khai sao chép Anthropic để làm cái này là việc GAB đã vô tình cho họ đủ thời gian để nhét vào bên trong hàng chục easter egg cấp xz
Tôi vừa thử trên Pi Coding agent qua OpenRouter, và nó khá thường xuyên không dùng được đúng cách các công cụ read và write
Khá thất vọng, và tôi tự hỏi ngoài kiểu prompt như "đừng dùng gọi trực tiếp, luôn dùng công cụ được cung cấp" thì có giải pháp nào tốt hơn không
Khả năng cao là kiểm thử trước với Pi vẫn chưa được làm đủ nhiều