DeepSeek - Gã khổng lồ thầm lặng đang dẫn dắt cuộc đua AI của Trung Quốc

(chinatalk.media)

6 điểm bởi GN⁺ 2025-01-01 | 2 bình luận | Chia sẻ qua WhatsApp

DeepSeek là một startup AI của Trung Quốc, với mô hình R1 được công bố gần đây đã vượt qua mô hình o1 của OpenAI trên nhiều benchmark suy luận
Dù độ nhận biết chưa cao, công ty đã vươn lên thành một phòng thí nghiệm AI đáng chú ý

Bối cảnh và chiến lược của DeepSeek

CEO Liang Wenfeng trước đây là nhà sáng lập của High-Flyer, một trong bốn quỹ hedge fund lớn nhất Trung Quốc, và DeepSeek đang nhận được sự hậu thuẫn toàn diện từ công ty này
Công ty áp dụng chiến lược tập trung vào phát triển công nghệ nền tảng thay vì ứng dụng thương mại, đồng thời công bố mã nguồn mở cho tất cả các mô hình
Có thể truy cập cụm máy tính của High-Flyer và đang sở hữu hơn 50.000 GPU Hopper
Tập trung vào phát triển AGI (trí tuệ nhân tạo tổng quát). Nghiên cứu tập trung vào các đổi mới về kiến trúc và thuật toán có khả năng trở thành yếu tố thay đổi cuộc chơi

Những đổi mới kỹ thuật chính

Cải tiến kiến trúc mô hình
- MLA (Multi-head Latent Attention): giảm mức sử dụng bộ nhớ xuống còn khoảng 5~13% so với trước đây
- DeepSeekMoE (Sparse Mixture of Experts): cắt giảm đáng kể chi phí tính toán
Khơi mào cuộc chiến giá cả
- Mô hình DeepSeek V2 đưa ra chi phí suy luận 1 RMB cho mỗi 1 triệu token, châm ngòi cho một cuộc chiến giá quy mô lớn xoay quanh các tập đoàn công nghệ lớn tại Trung Quốc
Quảng cáo
Đánh giá quốc tế
- Bài báo của DeepSeek được đánh giá là "một trong những bài báo hay nhất năm nay" và nhận được lời khen từ Thung lũng Silicon cũng như cộng đồng AI quốc tế

Triết lý nghiên cứu và văn hóa tổ chức của DeepSeek

Chủ nghĩa lý tưởng công nghệ: DeepSeek theo đuổi chủ nghĩa lý tưởng công nghệ, đặt "đúng và sai" lên trên "lợi ích và tổn thất". Đây là tiếng nói hiếm thấy trong giới công nghệ Trung Quốc
Tầm quan trọng của đổi mới: DeepSeek tin rằng Trung Quốc không nên chỉ dừng lại ở vị thế theo sau, mà cần tham gia vào dòng chảy đổi mới công nghệ toàn cầu
Văn hóa tổ chức tự chủ: Thay vì quản lý từ trên xuống, công ty hướng đến một bầu không khí tự chủ và sáng tạo. Các nhà nghiên cứu có thể tự do cộng tác và sử dụng tài nguyên theo ý tưởng của mình
Tuyển dụng nhân tài: Thay vì các tiêu chuẩn truyền thống, công ty coi trọng sự tò mò và đam mê, và phần lớn thành viên trong đội ngũ là sinh viên tốt nghiệp từ các trường đại học trong nước cùng các nhà nghiên cứu trẻ

Tầm nhìn về AGI

Trọng tâm nghiên cứu: DeepSeek đang khám phá khả năng hiện thực hóa AGI với trọng tâm là toán học, sinh mã, đa phương thức và hiểu ngôn ngữ tự nhiên.
Triển vọng tương lai:
- AGI được dự đoán có thể trở thành hiện thực trong vòng 2 đến 10 năm, và toán học cùng mã nguồn được xem là sân thử nghiệm lý tưởng cho AGI
- Ván cờ cuối cùng của các mô hình quy mô lớn là các công ty chuyên môn hóa cung cấp mô hình nền tảng và dịch vụ sẽ tạo ra sự chuyên môn hóa sâu rộng ở từng nút trong chuỗi cung ứng

Quan điểm về mã nguồn mở và đổi mới

Giá trị của mã nguồn mở: DeepSeek không tìm kiếm lợi thế công nghệ ở mô hình đóng, mà coi trọng việc xây dựng và phát triển hệ sinh thái công nghệ
Tầm nhìn về hệ sinh thái AI Trung Quốc: Công ty muốn đóng góp để Trung Quốc vượt qua đổi mới ở tầng ứng dụng và đạt được đổi mới công nghệ từ 0 lên 1

Kết luận

DeepSeek đang đi trên một con đường khác với các startup AI truyền thống của Trung Quốc
Công ty tập trung vào đổi mới công nghệ và hiện thực hóa AGI hơn là ứng dụng thương mại, đồng thời muốn tham gia vào dòng chảy đổi mới công nghệ toàn cầu
Cách tiếp cận này được cho là sẽ có ảnh hưởng quan trọng đến hướng phát triển AI của Trung Quốc trong tương lai

2 bình luận

xguru 2025-01-03

Deepseek V3 cho thấy hiệu năng không tốt trong bài benchmark kiểm tra liệu có bị quá khớp hay không

GN⁺ 2025-01-01

Ý kiến trên Hacker News

Việc bị hạn chế GPU đã tạo ra một môi trường buộc các nhà phát triển Trung Quốc phải đổi mới hơn và làm được nhiều hơn với ít tài nguyên hơn
- Dành lời khen cho đội ngũ Deepseek
Những lời ca ngợi dành cho Deepseek khá thú vị
- Có những lý do mang tính cấu trúc và căn bản khiến Deepseek khó có thể vượt trội hơn hẳn các mô hình khác
  - Chiến tranh thương mại Mỹ - Trung có thể khiến khả năng tiếp cận năng lực tính toán của Deepseek trở nên bất lợi
  - Kiểm duyệt tại Trung Quốc phần nào hạn chế việc thu thập dữ liệu và đầu ra của Deepseek
  - Vì Deepseek là mã nguồn mở nên các mô hình khác có thể dễ dàng sao chép
- Thường xuyên sử dụng Gemini, ChatGPT, Deepseek và Claudie, và Deepseek không đặc biệt vượt trội hay thua kém hơn các mô hình khác
- Muốn biết vì sao có người nghĩ Deepseek sẽ hoàn toàn thống trị lĩnh vực LLM
Tin rằng Trung Quốc nên trở thành bên đóng góp cùng với sự phát triển kinh tế của mình
- Trong 30 năm qua, nước này chưa thực sự tham gia vào đổi mới IT
- Đã tiếp cận các quy luật mở rộng theo kiểu dựa vào định luật Moore, chờ phần cứng và phần mềm tốt hơn
Deepseek đã là một cái tên nổi bật trong cộng đồng LLM mã nguồn mở từ năm ngoái
- Chi phí marketing thấp hơn so với các đối thủ LLM khác của Trung Quốc
Thật ngạc nhiên khi không có đề cập nào đến việc kết hợp AI biểu tượng kiểu cũ với các phiên bản ML hiện đại
Trung Quốc có động lực rất mạnh để thực hiện nghiên cứu thuần túy nhằm phá vỡ sự phụ thuộc vào GPU
- Hy vọng sẽ không có chuyện các nhà toán học tấn công lẫn nhau nhân danh khoa học
Một trong những lý do API rẻ là vì họ đã nêu rõ rằng dữ liệu API sẽ được dùng để huấn luyện
- OpenAI và Claude nói rằng nếu dùng API thì dữ liệu sẽ không được dùng để huấn luyện
Mong rằng sự cạnh tranh giữa các công ty AI sẽ tiếp tục diễn ra một cách lành mạnh
- Hy vọng họ sẽ tiếp tục chia sẻ công nghệ và các bài báo để mọi thứ cùng tiến bộ hơn
DeepSeek đạt hiệu quả ngang o1 và Claude với lượng tài nguyên ít hơn 10 lần là điều rất ấn tượng
- Cần các thuật toán và cách tiếp cận tốt hơn cho bước tiến tiếp theo của ML
Cách dùng (sai) từ "catfish" khá thú vị
- Khác với cách hiểu thông thường

DeepSeek - Gã khổng lồ thầm lặng đang dẫn dắt cuộc đua AI của Trung Quốc

Bối cảnh và chiến lược của DeepSeek

Những đổi mới kỹ thuật chính

Triết lý nghiên cứu và văn hóa tổ chức của DeepSeek

Tầm nhìn về AGI

Quan điểm về mã nguồn mở và đổi mới

Kết luận

Bài viết liên quan

2 bình luận

Ý kiến trên Hacker News