10 điểm bởi GN⁺ 6 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Hoạt động theo định dạng tương thích OpenAI/Anthropic, nên chỉ cần đổi base_url trong cấu hình SDK là có thể truy cập DeepSeek API theo cùng cách
  • Các lựa chọn model mặc định gồm deepseek-v4-flashdeepseek-v4-pro; deepseek-chatdeepseek-reasoner dự kiến sẽ bị deprecated vào 2026/07/24
  • Để duy trì khả năng tương thích, deepseek-chat tương ứng với chế độ non-thinking của deepseek-v4-flash, còn deepseek-reasoner tương ứng với chế độ thinking
  • Chat API được gọi qua endpoint https://api.deepseek.com/chat/completions với header Authorization: Bearer ${DEEPSEEK_API_KEY} và body JSON; ví dụ sử dụng deepseek-v4-pro, thinking, reasoning_effort="high", stream=false
  • Cả Python và Node.js đều cung cấp ví dụ gọi bằng OpenAI SDK; phản hồi được đọc từ choices[0].message.content, và nếu đổi stream thành true thì có thể nhận phản hồi dạng streaming

Bắt đầu gọi API

  • DeepSeek API sử dụng định dạng tương thích OpenAI/Anthropic, nên chỉ cần đổi cấu hình là có thể truy cập bằng OpenAI hoặc Anthropic SDK và phần mềm tương thích với các API đó
  • Các model khả dụng được hiển thị gồm deepseek-v4-flash, deepseek-v4-pro, deepseek-chat, deepseek-reasoner
    • deepseek-chatdeepseek-reasoner dự kiến sẽ bị deprecated vào 2026/07/24
    • Để duy trì khả năng tương thích, deepseek-chat tương ứng với chế độ non-thinking của deepseek-v4-flash
    • deepseek-reasoner tương ứng với chế độ thinking của deepseek-v4-flash

Gọi Chat API

  • Sau khi được cấp API key, có thể truy cập model DeepSeek bằng ví dụ theo định dạng OpenAI API
    • Ví dụ là lời gọi non-stream; nếu đổi stream thành true thì có thể nhận phản hồi streaming
    • Có thể xem ví dụ theo định dạng Anthropic API tại Anthropic API
  • Ví dụ curl gửi yêu cầu tới https://api.deepseek.com/chat/completions, đồng thời dùng header Authorization: Bearer ${DEEPSEEK_API_KEY} và body JSON
    • Model được chỉ định là deepseek-v4-pro
    • messages gồm system message "You are a helpful assistant." và user message "Hello!"
    • thinking được đặt là {"type": "enabled"}
    • reasoning_effort được đặt là "high"
    • stream được đặt là false
  • Ví dụ Python bắt đầu sau khi cài đặt OpenAI SDK
    • Lệnh cài đặt là pip3 install openai
    • Trong client OpenAI, dùng api_key=os.environ.get('DEEPSEEK_API_KEY')base_url="https://api.deepseek.com";
    • Trong lời gọi client.chat.completions.create, model được đặt là deepseek-v4-pro, stream=False, reasoning_effort="high"
    • Đồng thời truyền extra_body={"thinking": {"type": "enabled"}}
    • Phản hồi được in ra bằng response.choices[0].message.content
  • Ví dụ Node.js cũng bắt đầu sau khi cài đặt OpenAI SDK
    • Lệnh cài đặt là npm install openai
    • Instance OpenAI dùng baseURL: 'https://api.deepseek.com'apiKey: process.env.DEEPSEEK_API_KEY
    • Trong lời gọi openai.chat.completions.create, thiết lập messages, model: "deepseek-v4-pro", thinking: {"type": "enabled"}, reasoning_effort: "high", stream: false
    • Kết quả được in ra bằng completion.choices[0].message.content

1 bình luận

 
Ý kiến trên Hacker News
  • Với một mô hình khổng lồ như v4 pro, giá khoảng 4 USD cho mỗi 1 triệu token đầu ra, nên tôi không chắc câu chuyện kiểu "các phòng thí nghiệm tuyến đầu đang trợ giá suy luận đến mức điên rồ" có thật sự đúng không
    Gói thuê bao có vẻ cũng đã đủ sinh lời rồi, còn giá API thì càng có vẻ như vậy hơn
    Đầu vào là $1.74/M, đầu ra là $3.48/M theo OpenRouter

    • Cũng có giải thích rằng giá cao là do DeepSeek đang thiếu card suy luận
      Trong thông cáo báo chí có nói rằng khi card tính toán Ascend 950 ra mắt vào nửa cuối năm nay, giá Pro sẽ giảm mạnh
    • Xét theo chi phí vận hành thì có thể đang có lãi, nhưng nếu tính theo chi phí vốn bao gồm cả lịch khấu hao hiện tại thì có thể vẫn chưa
      Dù vậy, gần đây các ước tính chi phí đó cũng đang có xu hướng cao hơn dự kiến
    • Tôi cũng nhìn nhận tương tự
      Dịch vụ thuê bao có lẽ đã có lãi rồi, còn câu chuyện trợ giá rốt cuộc trông giống như một lập luận để rút biên lợi nhuận cao hơn từ API khách hàng doanh nghiệp
    • Nhận xét đó đúng, nhưng hiện vẫn chưa có nhà cung cấp phương Tây nào chạm được mức giá này
      Chi phí điện ở Trung Quốc cũng rẻ hơn
  • Hơi ấm lòng một cách kỳ lạ khi tài liệu cho lập trình viên ra trước cả thông cáo báo chí hào nhoáng

    • Đúng vậy, đúng kiểu this is the way
    • Nếu gọi đây là mã nguồn mở thì dữ liệu huấn luyện và script huấn luyện ở đâu?
      Xem bản đã chỉnh sửa thì có vẻ cụm "open source" đã bị bỏ khỏi bình luận đứng đầu
  • Đã có trên OpenRouter rồi
    Pro là đầu vào $1.74/m, đầu ra $3.48/m, còn Flash là đầu vào $0.14/m, đầu ra $0.28/m

  • Việc có mã nguồn mở thực sự từ Trung Quốc vẫn là điều đáng mừng
    Tôi biết có thể có động cơ ẩn phía sau, nhưng vẫn thấy thiện cảm

    • Các công ty Mỹ thì yêu cầu xác minh danh tính quá mức ngay cả khi trả tiền để truy cập mô hình, lưu trữ/phân tích/dùng dữ liệu cho huấn luyện, và còn công khai nói rằng họ có thể giao nộp cho nhà chức trách nếu được yêu cầu
      Động cơ ẩn của Trung Quốc là một giả định, còn phía Mỹ thì lại bày ra rất công khai
    • Bài này giúp hiểu vì sao các phòng thí nghiệm Trung Quốc lại công khai mô hình
      http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
    • Đây chỉ là open weights thôi
  • Họ đã đưa mô hình nền 1.6T Pro lên Hugging Face
    Đây là lần đầu tôi thấy cách ghi mô hình cỡ T ở đây

  • https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

    Mô hình đã được công bố và khá ấn tượng
    Hiệu năng cấp frontier nhưng chi phí thấp hơn rất nhiều, và tôi thấy còn tốt hơn Opus 4.6

    • Giờ có lẽ chẳng còn cần phải so mô hình với Opus nữa
      Người dùng Opus thì đằng nào cũng sẽ tiếp tục tin nó là tốt nhất, còn người không dùng thì không muốn cái chi phí, lock-in và các hạn chế đó
      Là người không dùng, tôi vẫn chọn mô hình rẻ và nhanh nhất mà vẫn hoàn thành được công việc, và lúc này MiniMax M2.5 đang làm vai trò đó
      Thỉnh thoảng tôi thử cả các mô hình mới đắt hơn nhưng kết quả tương tự, nên đôi lúc cũng thấy có phải sự cường điệu của toàn ngành AI đang khiến mọi thứ trông như chỉ tiến bộ trên benchmark hay không
    • Không biết nếu so với Opus 4.7 thì thế nào
      Tôi đã dùng 4.7 khá tập trung suốt tuần này khi tham gia hackathon Anthropic Opus 4.7, và dù nó ngốn token hơn nhiều so với 4.6 thì vẫn khá ấn tượng
    • Tôi tò mò không biết có thật là tốt hơn Opus 4.6 hay chỉ là tối ưu benchmark giỏi hơn thôi
      Không biết đã thử code thực tế với agent harness chưa
      Nếu năng lực coding tốt hơn Claude Code + Opus 4.6 thì tôi sẽ đổi ngay
    • Lại bắt đầu rồi
      Ngày nào cũng có bài ra mắt nói tốt hơn Opus 4.6, nhưng chính deepseek cũng không khẳng định là tốt hơn opus nếu tính cả thinking
      Dsv3 không phải kiểu mô hình thổi phồng benchmark, và ở các tác vụ ngoài benchmark cũng khá ổn định; dù chưa đạt SoTA nhưng vẫn tốt
      Mô hình lần này trông cũng tương tự
      Ở mức ngay dưới top hiệu năng nhưng chênh lệch không lớn và giá thì thấp hơn rất nhiều
      Mô hình lớn hiện được ds tự phục vụ với giá $1.74 in / $3.48 out / $0.14 cache nên cực rẻ so với giá trị nhận được
      Mô hình nhỏ thì $0.14 in / $0.28 out / $0.028 cache, thực tế là rẻ tới mức gần như không cần bận tâm, và có thể là ứng viên thực tế để chạy tại nhà
      Nếu hiệu năng đủ tốt thì hoàn toàn có thể cạnh tranh với dòng haiku hay gemini-flash
    • Tính sơ theo các con số benchmark đã công bố, trên 20 chỉ số mà cả hai bên đều có điểm thì tổng chênh lệch là 20.1 điểm phần trăm
      Mức cải thiện trung bình khoảng 2%, nên thật lòng khó nói là rất lớn hay khá tầm thường
      Claude 4.6 tốt hơn gần 10pp ở hỏi đáp ngữ cảnh dài, đặc biệt là corpuses của CorpusQA và đối thoại nhiều vòng của MRCR
      Trong khi đó DSv4 lại cao hơn tới 14pp ở IMOAnswerBench và 12pp ở SimpleQA-Verified
  • Có thể tải trọng số tại đây
    https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

  • Tôi theo dõi lĩnh vực này rất sâu và cũng thực sự gắn lợi ích của mình với nó, nhưng thành thật mà nói giờ cố theo kịp tất cả đã khiến tôi kiệt sức
    Cảm giác như đã qua rất lâu cái thời điểm mà để theo kịp tiến bộ AI thì AI phải tự tóm tắt tiến bộ AI cho mình

    • Tốt hơn là đừng cố theo sát
      Nó giống tin tức thôi, khi đến lúc thật sự cần biết thì sẽ có người báo cho bạn trước
    • Những tay chơi cốt lõi gần như không thay đổi
      Cứ theo dõi như xem thể thao, và nếu chấp nhận chuyện vị trí số một sẽ thay đổi thì cũng không quá mệt
    • Cảm giác là từ sau GPT-4 đến giờ mọi thứ cứ na ná nhau
      Mô hình mới ra thì chỉ kiểu hơn vài benchmark, còn trải nghiệm chủ quan khi dùng thực tế thì gần như y nguyên
      Từ đó đến nay không có nhiều thứ thực sự gây kinh ngạc, và giờ có cảm giác lĩnh vực này đang chững lại thành thứ chỉ nhóm nhiệt thành mới còn quan tâm
  • Điều làm tôi khó chịu hơn cả chuyện High Flyer công khai sao chép Anthropic để làm cái này là việc GAB đã vô tình cho họ đủ thời gian để nhét vào bên trong hàng chục easter egg cấp xz

  • Tôi vừa thử trên Pi Coding agent qua OpenRouter, và nó khá thường xuyên không dùng được đúng cách các công cụ read và write
    Khá thất vọng, và tôi tự hỏi ngoài kiểu prompt như "đừng dùng gọi trực tiếp, luôn dùng công cụ được cung cấp" thì có giải pháp nào tốt hơn không

    • Mới ra chưa lâu nên có lẽ cứ chờ thêm một chút sẽ tốt hơn
      Khả năng cao là kiểm thử trước với Pi vẫn chưa được làm đủ nhiều