- DeepSeek là một startup AI của Trung Quốc, với mô hình R1 được công bố gần đây đã vượt qua mô hình o1 của OpenAI trên nhiều benchmark suy luận
- Dù độ nhận biết chưa cao, công ty đã vươn lên thành một phòng thí nghiệm AI đáng chú ý
Bối cảnh và chiến lược của DeepSeek
- CEO Liang Wenfeng trước đây là nhà sáng lập của High-Flyer, một trong bốn quỹ hedge fund lớn nhất Trung Quốc, và DeepSeek đang nhận được sự hậu thuẫn toàn diện từ công ty này
- Công ty áp dụng chiến lược tập trung vào phát triển công nghệ nền tảng thay vì ứng dụng thương mại, đồng thời công bố mã nguồn mở cho tất cả các mô hình
- Có thể truy cập cụm máy tính của High-Flyer và đang sở hữu hơn 50.000 GPU Hopper
- Tập trung vào phát triển AGI (trí tuệ nhân tạo tổng quát). Nghiên cứu tập trung vào các đổi mới về kiến trúc và thuật toán có khả năng trở thành yếu tố thay đổi cuộc chơi
Những đổi mới kỹ thuật chính
- Cải tiến kiến trúc mô hình
- MLA (Multi-head Latent Attention): giảm mức sử dụng bộ nhớ xuống còn khoảng 5~13% so với trước đây
- DeepSeekMoE (Sparse Mixture of Experts): cắt giảm đáng kể chi phí tính toán
- Khơi mào cuộc chiến giá cả
- Mô hình DeepSeek V2 đưa ra chi phí suy luận 1 RMB cho mỗi 1 triệu token, châm ngòi cho một cuộc chiến giá quy mô lớn xoay quanh các tập đoàn công nghệ lớn tại Trung Quốc
- Đánh giá quốc tế
- Bài báo của DeepSeek được đánh giá là "một trong những bài báo hay nhất năm nay" và nhận được lời khen từ Thung lũng Silicon cũng như cộng đồng AI quốc tế
Triết lý nghiên cứu và văn hóa tổ chức của DeepSeek
- Chủ nghĩa lý tưởng công nghệ: DeepSeek theo đuổi chủ nghĩa lý tưởng công nghệ, đặt "đúng và sai" lên trên "lợi ích và tổn thất". Đây là tiếng nói hiếm thấy trong giới công nghệ Trung Quốc
- Tầm quan trọng của đổi mới: DeepSeek tin rằng Trung Quốc không nên chỉ dừng lại ở vị thế theo sau, mà cần tham gia vào dòng chảy đổi mới công nghệ toàn cầu
- Văn hóa tổ chức tự chủ: Thay vì quản lý từ trên xuống, công ty hướng đến một bầu không khí tự chủ và sáng tạo. Các nhà nghiên cứu có thể tự do cộng tác và sử dụng tài nguyên theo ý tưởng của mình
- Tuyển dụng nhân tài: Thay vì các tiêu chuẩn truyền thống, công ty coi trọng sự tò mò và đam mê, và phần lớn thành viên trong đội ngũ là sinh viên tốt nghiệp từ các trường đại học trong nước cùng các nhà nghiên cứu trẻ
Tầm nhìn về AGI
- Trọng tâm nghiên cứu: DeepSeek đang khám phá khả năng hiện thực hóa AGI với trọng tâm là toán học, sinh mã, đa phương thức và hiểu ngôn ngữ tự nhiên.
- Triển vọng tương lai:
- AGI được dự đoán có thể trở thành hiện thực trong vòng 2 đến 10 năm, và toán học cùng mã nguồn được xem là sân thử nghiệm lý tưởng cho AGI
- Ván cờ cuối cùng của các mô hình quy mô lớn là các công ty chuyên môn hóa cung cấp mô hình nền tảng và dịch vụ sẽ tạo ra sự chuyên môn hóa sâu rộng ở từng nút trong chuỗi cung ứng
Quan điểm về mã nguồn mở và đổi mới
- Giá trị của mã nguồn mở: DeepSeek không tìm kiếm lợi thế công nghệ ở mô hình đóng, mà coi trọng việc xây dựng và phát triển hệ sinh thái công nghệ
- Tầm nhìn về hệ sinh thái AI Trung Quốc: Công ty muốn đóng góp để Trung Quốc vượt qua đổi mới ở tầng ứng dụng và đạt được đổi mới công nghệ từ 0 lên 1
Kết luận
- DeepSeek đang đi trên một con đường khác với các startup AI truyền thống của Trung Quốc
- Công ty tập trung vào đổi mới công nghệ và hiện thực hóa AGI hơn là ứng dụng thương mại, đồng thời muốn tham gia vào dòng chảy đổi mới công nghệ toàn cầu
- Cách tiếp cận này được cho là sẽ có ảnh hưởng quan trọng đến hướng phát triển AI của Trung Quốc trong tương lai
2 bình luận
Deepseek V3 cho thấy hiệu năng không tốt trong bài benchmark kiểm tra liệu có bị quá khớp hay không
Ý kiến trên Hacker News
Việc bị hạn chế GPU đã tạo ra một môi trường buộc các nhà phát triển Trung Quốc phải đổi mới hơn và làm được nhiều hơn với ít tài nguyên hơn
Những lời ca ngợi dành cho Deepseek khá thú vị
Tin rằng Trung Quốc nên trở thành bên đóng góp cùng với sự phát triển kinh tế của mình
Deepseek đã là một cái tên nổi bật trong cộng đồng LLM mã nguồn mở từ năm ngoái
Thật ngạc nhiên khi không có đề cập nào đến việc kết hợp AI biểu tượng kiểu cũ với các phiên bản ML hiện đại
Trung Quốc có động lực rất mạnh để thực hiện nghiên cứu thuần túy nhằm phá vỡ sự phụ thuộc vào GPU
Một trong những lý do API rẻ là vì họ đã nêu rõ rằng dữ liệu API sẽ được dùng để huấn luyện
Mong rằng sự cạnh tranh giữa các công ty AI sẽ tiếp tục diễn ra một cách lành mạnh
DeepSeek đạt hiệu quả ngang o1 và Claude với lượng tài nguyên ít hơn 10 lần là điều rất ấn tượng
Cách dùng (sai) từ "catfish" khá thú vị