- DeepSeek-R1 là mô hình mã nguồn mở có hiệu năng được so sánh với mô hình suy luận O1 của OpenAI
- Mô hình ban đầu có dung lượng 720GB đã được thu gọn xuống 131GB, đạt mức giảm kích thước 80%
- Sử dụng kỹ thuật lượng tử hóa động, trong đó một số layer được giữ ở số bit cao hơn (ví dụ: 4bit) và phần lớn các layer MoE (Mixture of Experts) được xử lý ở mức 1.58bit
Các đặc điểm chính
- Cấu hình tối thiểu: Có thể chạy trên CPU với 20GB RAM nhưng tốc độ chậm
- Hiệu năng tối ưu: Cần tổng VRAM và RAM tối thiểu từ 80GB trở lên, VRAM khuyến nghị là 160GB (2 GPU H100 80GB)
- Phiên bản lượng tử hóa động (131GB~212GB) được cung cấp trên Hugging Face: DeepSeek-R1-GGUF
Các loại mô hình lượng tử hóa động
- Cung cấp tổng cộng 4 phiên bản lượng tử hóa:
- 131GB, 158GB, 183GB, 212GB (2bit thông thường)
- Tối ưu hóa lượng tử hóa bằng ma trận độ quan trọng (imatrix)
- Phương thức lượng tử hóa và yêu cầu phần cứng khác nhau tùy theo từng mô hình
Benchmark và kiểm tra hiệu năng
- Đo điểm trên 10 hạng mục đánh giá dựa trên tiêu chí tạo game Flappy Bird (pass@3)
- Điểm của mô hình lượng tử hóa động 1.58bit như sau:
- Mô hình 131GB: 6.92
- Mô hình 158GB: 9.08
- Mô hình 183GB: 9.17
- Mô hình lượng tử hóa không động tạo ra lỗi lặp lại hoặc kết quả sai
Khai thác cấu trúc của DeepSeek-R1
- Thông qua phân tích cấu trúc DeepSeek-R1, các phần có độ nhạy cao với lượng tử hóa được giữ ở độ phân giải cao
- 3 layer dense đầu tiên được giữ ở mức 4~6bit
- Phần lớn các layer MoE được lượng tử hóa ở mức 1.58bit
- Mô-đun MLA (Memory Layers Attention) và phần
down_proj được giữ ở độ chính xác cao
- Khoảng 88% trọng số được lượng tử hóa ở mức 1.58bit để giảm kích thước mô hình
Giải quyết vấn đề với chat template và xử lý token
- Ở mọi phiên bản, chat template sử dụng các token
<|begin_of_sentence|> và <|end_of_sentence|>
- Token EOS từng được thiết lập sai gây ra vấn đề sinh vô hạn, nhưng hiện đã được sửa
1 bình luận
Ý kiến trên Hacker News
Việc giảm kích thước 80% là một thành tựu đáng kinh ngạc, và bản 1.58-bit chạy ở 140 token/giây trên cấu hình dual H100 cũng rất ấn tượng. Tuy nhiên, vẫn còn nghi ngờ liệu điều này có thực sự thực dụng với phần lớn mọi người hay không. Có thể chạy với 24GB VRAM hoặc 20GB RAM, nhưng tốc độ quá chậm. Vấn đề lặp cũng tồn tại. Hiện tượng lặp trong Pygame làm giảm ý nghĩa của việc lượng tử hóa. Có giải pháp, nhưng đó không phải là cách xử lý tận gốc vấn đề. Việc làm cho mô hình dễ tiếp cận trên Hugging Face và cách tiếp cận lượng tử hóa động là rất tuyệt vời. Điều này có lợi cho các nhóm nhỏ. Tuy nhiên, vẫn cần phần cứng đắt tiền.
Khi chạy DeepSeek trên RTX 4090, mô hình phải vừa với VRAM nhưng vẫn chậm. Kiến trúc bộ nhớ hợp nhất của Apple có lợi thế. Mx Ultra 192GB có thể xử lý hiệu quả các mô hình lớn. Có lẽ đã đến lúc hủy đăng ký OpenAI.
Việc giảm kích thước DeepSeek-R1 xuống 80% thật đáng kinh ngạc. Các mô hình lớn trở nên dễ tiếp cận hơn với nhiều người. Tốc độ 140 token/giây trên dual H100 với lượng tử hóa 1.58-bit là rất ấn tượng. Các công ty nhỏ hoặc quy mô vừa có thể dùng nó cho ứng dụng cục bộ. Đây là lợi thế lớn cho các tác vụ agent cần độ trễ thấp.
Tổng VRAM + RAM cần ít nhất 80GB trở lên để đạt hiệu năng tối ưu. Có thể thử trên máy chủ điện năng thấp/chi phí thấp. Có thể xây dựng hệ thống Ryzen 5500 + 64GB RAM + 7x RTX 3060 12GB với giá 1600 euro. Mức tiêu thụ điện khoảng 520 watt. Bắt đầu với bo mạch AM4 và RTX 3060 12GB cũ. Các GPU bổ sung được kết nối bằng pcie riser/extender. Rất phù hợp để học hỏi và tích lũy kinh nghiệm.
Nếu lượng tử hóa mọi layer xuống 1.58-bit thì sẽ xảy ra lặp vô hạn. Việc các tác giả của bài blog này tìm ra một seed cụ thể là điều thú vị. Đây là một công trình tốt.
Đánh giá về R1 vẫn chưa thật sự rõ ràng. Tuyên bố rằng nó được huấn luyện với $5M đang tạo ảnh hưởng lớn lên thị trường. Không rõ điều đó đã được kiểm chứng hay chưa.
Nếu đã đầu tư vào máy 100x mà hóa ra máy 10x cũng làm được, thì thật khó hiểu vì sao không sở hữu 10 chiếc máy 10x. Có thể tái sử dụng phần cứng và dữ liệu để tạo nhiều instance của các mô hình hiệu quả hơn.
Công việc của Danielhanchen rất ấn tượng. Unsloth rất xuất sắc, và khả năng nhanh chóng thích ứng với các mô hình mới cũng như sửa lỗi trong triển khai gốc là điều đáng kinh ngạc. Các phòng lab nghiêm túc nên dành cho họ vài giờ dẫn trước.
Việc giảm kích thước mô hình mà vẫn giữ được tính nhất quán là rất đáng kinh ngạc. Tuy nhiên, vẫn còn nghi ngờ hiệu quả được giữ lại đến mức nào. Flappy bird là một trò chơi nổi tiếng, nhưng việc R1 và o1 có thể giải quyết những vấn đề mà các mô hình khác không giải được mới là bài kiểm tra tốt hơn.
Sẽ rất tốt nếu các mô hình nền tảng thế hệ tiếp theo được thiết kế để có thể suy luận ở mức lượng tử hóa 8-bit trong 128GB VRAM. Ví dụ, một nền tảng MoE mạnh với 16 tỷ tham số hoạt động và 6~7 chuyên gia có thể chạy trên MacBook 128GB RAM.