Grok 3: Một chiến thắng nữa của The Bitter Lesson

(thealgorithmicbridge.com)

3 điểm bởi GN⁺ 2025-02-21 | 3 bình luận | Chia sẻ qua WhatsApp

I. Các quy luật scaling chi phối sự phát triển của AI

Có khả năng việc Elon Musk gọi Grok 3 là "AI thông minh nhất trên Trái Đất" không hề là cường điệu
So với Grok 2, nó đã đạt được bước tiến vượt bậc, ngang hàng hoặc thậm chí vượt hơn các mô hình của những phòng thí nghiệm đã trưởng thành như OpenAI, Google DeepMind và Anthropic ở một số lĩnh vực
Đứng hạng 1 ở mọi hạng mục trên LMSys Arena, đồng thời thể hiện năng lực ở mức cao (cấp độ o3) trong toán học, lập trình và các bài toán khoa học
Dù vẫn kém hơn các mô hình hàng đầu ở một số tác vụ cụ thể, nhưng theo phần lớn tiêu chí, nó đang ở mức đồng đẳng state-of-the-art (co-state-of-the-art)
Grok 3 không chỉ là thành công của riêng xAI, mà còn là một chiến thắng nữa của The Bitter Lesson, nhấn mạnh tầm quan trọng của quy mô trong nghiên cứu AI
Trái với góc nhìn chỉ trích hay cách truyền thông đưa tin, Scaling Laws vẫn còn hiệu lực trong tiến bộ AI và tầm quan trọng của chúng thậm chí còn lớn hơn

II. DeepSeek: ngoại lệ chứng minh quy luật

Bối cảnh thành công của DeepSeek
- DeepSeek vẫn có thể đối đầu với các đối thủ hàng đầu ngành dù sở hữu lượng tài nguyên tính toán tương đối ít hơn (khoảng 50K GPU Nvidia Hopper)
- Trong khi các phòng lab ở Mỹ sử dụng hơn 100K Nvidia H100, DeepSeek vẫn tạo ra kết quả nhờ tối ưu hóa toàn bộ stack công nghệ
- Điều này khiến DeepSeek làm dấy lên nghi vấn trong cộng đồng về 'Bitter Lesson' và 'Scaling Paradigm' vốn được tin tưởng từ trước
Kết luận sai lầm và ý nghĩa thực sự của Bitter Lesson
- Một số người diễn giải thành công của DeepSeek như bằng chứng rằng "GPU không quan trọng, tối ưu thuật toán mới quan trọng hơn"
- Nhưng Bitter Lesson không có nghĩa là "không cần cải tiến thuật toán", mà là nếu có thể, tận dụng nhiều tài nguyên tính toán hơn mới là lựa chọn tốt nhất
- DeepSeek buộc phải tập trung vào tối ưu hóa vì thiếu GPU; nếu được huấn luyện với 100K GPU thì kết quả hẳn còn tốt hơn
- Nói cách khác, điều DeepSeek chứng minh là khả năng của tối ưu hóa, chứ không phải rằng "scaling là vô nghĩa"
Lập trường của CEO DeepSeek
- Ngay cả CEO Liang Wenfeng cũng cho biết các hạn chế xuất khẩu của Mỹ là trở ngại chính đối với việc phát triển mô hình tốt hơn
- Việc ông nói như vậy dù đã dùng 50K Hopper GPU mang ý nghĩa hoàn toàn trái ngược với cách diễn giải rằng "GPU không quan trọng"
- Thành công của DeepSeek có thể được xem là một ví dụ ủng hộ Bitter Lesson và Scaling Paradigm, chỉ là trong một trường hợp ngoại lệ

III. xAI chứng minh rằng "scaling > tối ưu hóa"

Grok 3 và cách tiếp cận của xAI
- Còn phải xem liệu thành quả của xAI có thể thay đổi nhận thức của những người hoài nghi rằng "scaling quan trọng hơn tối ưu hóa" hay không
- Chưa rõ Grok 3 có thay đổi kiến trúc hay mức độ tối ưu hạ tầng ra sao, nhưng chắc chắn nó được huấn luyện trên siêu máy tính Colossus tại Memphis với 100K GPU H100
- Con số này lớn hơn rất nhiều so với lượng GPU DeepSeek sở hữu
Chiến lược khác với DeepSeek
- DeepSeek phải tối ưu đến giới hạn vì GPU bị hạn chế, còn xAI không cần như vậy mà chỉ cần tối ưu ở mức tiêu chuẩn hiện có
- Cốt lõi của Bitter Lesson là: "nếu có đủ tài nguyên tính toán, đừng lãng phí thời gian vào những tối ưu không cần thiết, cứ scaling lên"
- xAI đã đổ vào việc huấn luyện Grok 3 lượng tài nguyên tính toán còn nhiều hơn cả OpenAI, và kết quả là tạo ra một mô hình tối tân
Quảng cáo
Bitter Lesson không chỉ đúng với AI mà còn là chân lý phổ quát
- "Nếu tài nguyên chủ chốt dồi dào, không cần mất thời gian vắt kiệt tài nguyên phụ trợ"
- Nó giống như việc người Fremen trong sa mạc tái chế mồ hôi, trong khi sống trên một hành tinh có mưa đơn giản là hiệu quả hơn
- Cải tiến thuật toán và gia tăng sức mạnh tính toán đều quan trọng, nhưng sau một thời điểm nhất định, đổ thêm tài nguyên sẽ hiệu quả hơn tối ưu hóa
- Sức mạnh tính toán có thể giải quyết bằng tiền, còn những đột phá thuật toán thì không thể dự đoán và cũng không có gì đảm bảo sẽ còn mở rộng được trong tương lai
Điều quan trọng là không ngừng scaling
- Khi chạm trần, thay vì tối ưu hóa, ta có thể đổi thứ cần scaling
- Tài nguyên hạn chế có thể thúc đẩy đổi mới, nhưng rốt cuộc "nhiều tài nguyên hơn" vẫn thắng "tối ưu tốt hơn"
- DeepSeek buộc phải dồn sức vào tối ưu hóa, nhưng xAI hay OpenAI sẽ không muốn tự đặt mình vào những ràng buộc đổi mới như DeepSeek
- Cuối cùng, xAI và DeepSeek là hai ví dụ điển hình cho "cách tiếp cận đổ vào nguồn lực khổng lồ vs cách tiếp cận khai thác tối đa nguồn lực hạn chế"
- Cả hai công ty đều đã làm tốt nhất trong điều kiện của mình, nhưng chừng nào DeepSeek còn bị mắc kẹt trong tình trạng thiếu tài nguyên tính toán, xAI nhiều khả năng vẫn giữ được vị thế có lợi hơn
- Theo nghĩa đó, dù còn nhiều tranh cãi trong giới học thuật, Bitter Lesson vẫn đã được chứng minh là một quy luật hữu hiệu trong phát triển AI thực tế suốt hơn 10 năm qua

IV. Sự chuyển dịch mô hình đã giúp xAI và DeepSeek

Khó khăn của những người đến sau trong cuộc đua AI
- Xuất phát muộn trong cuộc đua AI từng có vẻ là một bất lợi gần như không thể vượt qua
- Ở giai đoạn đầu, không thể chắc rằng xAI có thể bắt kịp OpenAI hay Anthropic
- Tuy nhiên, trong quá trình tiến từ Grok 2 (tháng 8/2024) lên Grok 3 (tháng 2/2025), ngoài cụm GPU Colossus, còn có một yếu tố khác có lợi cho xAI
- Đó chính là sự thay đổi của mô hình scaling AI
Kỷ nguyên pre-training (2019-2024)
- Trong giai đoạn đầu, tiến bộ AI đồng nghĩa với huấn luyện mô hình lớn hơn trên tập dữ liệu lớn hơn bằng tài nguyên tính toán mạnh hơn
- Ví dụ: GPT-2 (tháng 2/2019) có 1,5 tỷ tham số, trong khi GPT-4 (tháng 3/2023) có khoảng 1,76 nghìn tỷ, tăng hơn 1.000 lần
- Cách làm này có lợi cho những người đi trước như OpenAI
  - vì họ có thời gian dài để thu thập dữ liệu, mở rộng mô hình và bảo đảm GPU
- Ngoài ra, mỗi mô hình thường mất hơn nửa năm để huấn luyện, khiến tốc độ lặp giữa các thế hệ chậm lại, từ đó làm cho người đến sau khó bắt kịp
Kỷ nguyên post-training (2024-???)
- Từ năm 2024, ngành AI nhận ra rằng chỉ mở rộng kích thước mô hình thì mức cải thiện hiệu năng gia tăng đã bắt đầu chậm lại
- Truyền thông hiểu nhầm điều này thành "kỷ nguyên scaling đã kết thúc", nhưng thực tế chỉ là mô hình phát triển đã thay đổi (tham khảo bài nói chuyện của Ilya Sutskever tại NeurIPS 2024)
- Những điểm trọng tâm đã thay đổi:
  - "mở rộng test-time compute" → cho phép mô hình suy nghĩ sâu hơn trước khi trả lời
  - kết hợp RLHF + SFT cho hiệu quả tốt
  - đặc biệt, khi áp dụng reward function có thể kiểm chứng trong các miền có cấu trúc như toán học và lập trình, hiệu năng tăng mạnh
  Quảng cáo
- OpenAI dẫn đầu xu hướng này với o1-preview, và từ đó các công ty AI không còn chỉ tập trung tăng kích thước mô hình mà chuyển sang tạo ra "những mô hình có năng lực suy nghĩ tốt hơn"
Vì sao mô hình mới có lợi cho xAI và DeepSeek
- Post-training vẫn còn ở giai đoạn đầu nên có thể đạt cải thiện nhanh về hiệu năng với chi phí tương đối thấp
- Việc OpenAI tiến từ o1 lên o3 chỉ trong 3 tháng cũng là nhờ điều này
- Đây cũng là lý do DeepSeek dù có ít GPU hơn và chất lượng GPU kém hơn vẫn có thể đuổi kịp đến mức R1
- Grok cũng đã vươn tới nhóm AI hàng đầu chỉ trong vòng 2 năm
Thay đổi trong thế trận cạnh tranh
- OpenAI vẫn giữ lợi thế nhất định, nhưng không còn ở mức mà người đến sau không thể bắt kịp
- OpenAI phải cân bằng giữa nghiên cứu tiên tiến và vận hành sản phẩm vì gánh nặng vận hành ChatGPT với 300 triệu (300M) người dùng hàng tuần
- Trong khi đó, xAI và DeepSeek có thể linh hoạt hơn để tập trung vào đổi mới công nghệ
- Việc ứng dụng của DeepSeek từng nổi lên rồi lại hạ nhiệt cũng là vì thiếu tài nguyên tính toán nên không thể gánh suy luận (inference) quy mô lớn
- Khi một mô hình mới mở ra, một cục diện cạnh tranh mới cũng đang hình thành

V. Hiểu đúng về thành quả của xAI và DeepSeek

Đừng dùng Bitter Lesson và sự chuyển dịch mô hình để hạ thấp thành quả
- Dù Bitter Lesson và sự thay đổi mô hình scaling đã khiến thành công của xAI và DeepSeek trở nên dễ hơn, nhưng rốt cuộc họ vẫn làm được
- Những công ty khác cũng có cơ hội tương tự (Mistral, Character, Inflection) lại đã thất bại
- Grok 3 là chiến thắng của Bitter Lesson, còn DeepSeek là trường hợp ngoại lệ chứng minh quy luật, nhưng ý nghĩa của chúng không chỉ có vậy
Không chỉ tài nguyên tính toán mới là tất cả
- Cũng như Bitter Lesson không phủ nhận giá trị của thuật toán và tối ưu hạ tầng, nguồn lực con người và chiến lược của doanh nghiệp cũng rất quan trọng
- xAI hiện có khoảng 1.000 nhân viên, ngang tầm với OpenAI (khoảng 2.000 người) và Anthropic (khoảng 700 người)
- Ngoài ra, nhờ mạng lưới công nghệ và tài chính của Elon Musk, xAI có thể huy động những khoản đầu tư khổng lồ khá dễ dàng
- DeepSeek cũng xứng đáng được đánh giá cao vì đã tạo ra đổi mới trong môi trường hạn chế
  - hệ sinh thái AI ở Trung Quốc tương đối thiếu tham vọng và kinh nghiệm, đồng thời cũng thiếu hỗ trợ từ chính phủ (dù phần này có thể sớm thay đổi)
Cần hiểu trong bối cảnh lịch sử
- OpenAI, Google DeepMind và Anthropic đã phải phát triển mô hình trong kỷ nguyên pre-training
  - vào thời điểm đó, scaling AI khó hơn nhiều, chậm hơn và tốn kém hơn hiện nay
  - thậm chí chưa chắc các sản phẩm như ChatGPT có thành công hay không, và OpenAI cũng từng do dự khi phát hành nó (ban đầu chỉ mở như một bản research preview đơn giản)
  - các công ty này là những người tiên phong dẫn dắt đổi mới AI bằng niềm tin mạnh mẽ vào một tương lai còn nhiều bất định
  Quảng cáo
- Trong khi đó, DeepSeek và xAI khởi hành trên vai những người khổng lồ
  - họ có thể tránh được những thử-sai của nghiên cứu trước đó và tận dụng các phương pháp đã được kiểm chứng để tăng tốc phát triển
  - đúng lúc mô hình AI chuyển sang kỷ nguyên post-training, họ có thể đạt kết quả nhanh với chi phí thấp hơn
  - họ ít phải chịu những khoản đầu tư đi trước khổng lồ hay mức bất định mà các nhà tiên phong AI đời đầu từng phải gánh
Hãy công nhận chiến thắng, nhưng cũng nhớ cả quá trình
- Không cần hạ thấp thành quả của xAI và DeepSeek, nhưng cũng không nên quên AI đã đi đến đây như thế nào
- Nếu không có những người khai phá ban đầu như OpenAI, DeepMind và Anthropic, những thành tựu hiện tại cũng đã không thể có
- Nói cách khác, thành công của xAI và DeepSeek nên được nhìn nhận không phải là "gặp may", mà là "đã làm hết sức vào đúng thời điểm"

VI. Post-training hiện còn rẻ, nhưng sẽ sớm trở nên đắt đỏ

Bài học cốt lõi từ Grok 3 và xAI
- Hiện tại, post-training còn tương đối rẻ, nhưng chẳng bao lâu nữa sẽ đòi hỏi mức đầu tư khổng lồ không kém pre-training
- Ngay khi các công ty tìm ra cách mở rộng post-training ở quy mô lớn, để sống sót trong cạnh tranh sẽ cần tiền và tài nguyên tính toán
- Các công ty AI đã bắt đầu tích trữ hàng trăm nghìn GPU và xây dựng các cụm máy lớn
- Trái với tuyên bố rằng "GPU không quan trọng", cuộc đua giành GPU sẽ trở thành yếu tố cốt lõi của cạnh tranh AI
- Vì thế Dario Amodei (đồng sáng lập OpenAI) và những người khác nhấn mạnh tầm quan trọng của export controls
Vị thế rất mạnh của xAI
- Hiện tại, xAI đang ở vị trí có lợi hơn không chỉ so với DeepSeek mà cả OpenAI và Anthropic
- Lý do: họ sở hữu cụm 100K GPU H100 và sắp mở rộng lên 200K
- Điều này mang lại lợi thế cực lớn trong cuộc đua phát triển AI thế hệ tiếp theo
- Meta cũng đang đi theo chiến lược tương tự và huấn luyện Llama 4 trên cụm H100 100K+
Giới hạn và khả năng của DeepSeek
- Chỉ với năng lực kỹ thuật xuất sắc thôi thì DeepSeek đang bước vào giai đoạn khó có thể tiếp tục cạnh tranh
- Dù tối ưu stack công nghệ giỏi đến đâu, cũng không thể bù đắp khoảng cách 150K GPU
- Nếu điều đó có thể làm được thì DeepSeek hẳn cũng đã chọn scaling như xAI, nhưng các hạn chế xuất khẩu của Mỹ đang kìm hãm sự tăng trưởng này
- Dù vậy, vẫn có khả năng họ giải quyết được vấn đề thông qua hợp tác với Huawei
Quảng cáo
Những lợi thế bổ sung của xAI
- Ngay cả OpenAI và Anthropic cũng không có vị thế ổn định như xAI về mặt bảo đảm cụm GPU
- Nhờ sự hỗ trợ từ Nvidia, xAI đang được ưu tiên cung cấp phần cứng AI thế hệ tiếp theo
- Với mạng lưới của Elon Musk và thái độ thiện chí từ Nvidia, xAI nhiều khả năng sẽ nắm lợi thế vượt trội trong cuộc đua AI tương lai

VII. Một năm nữa, ai sẽ dẫn đầu?

Ưu thế của các ông lớn hiện tại
- Bất chấp tất cả, OpenAI, Google DeepMind và Anthropic vẫn đang giữ một chút lợi thế đi trước
- OpenAI: sắp ra mắt GPT-4.5/GPT-5, sau đó còn đang phát triển cả o4
- Anthropic: dự kiến phát hành Claude 4
- Google DeepMind: đang cải thiện phiên bản "Thinking-model" của Gemini 2.0, đồng thời nỗ lực giảm chi phí và mở rộng context window
Tương lai bất định
- Trong năm 2024, nhiều người từng dự đoán Google sẽ dẫn đầu cuộc đua AI, nhưng giờ thì không thể chắc được nữa
- Cuộc đua AI đang khốc liệt hơn bao giờ hết, và trong cuộc đua AGI vẫn chưa có người chiến thắng rõ ràng
- Mô hình mới đang có lợi cho những người đến sau và đòi hỏi khả năng thích ứng rất nhanh
- Không rõ Google có đủ sự linh hoạt đó hay không
- Hoặc cũng có thể Google đơn giản là không quảng bá thành quả của mình một cách hiệu quả
Kết luận: scaling rốt cuộc vẫn chiến thắng
- Kết luận của bài viết này không phải là dự đoán ai sẽ thắng cuộc đua AI
- Bài học quan trọng là scaling cuối cùng sẽ lấn át sự khéo léo sáng tạo của con người (ingenuity)
  - Thật đáng tiếc khi phải nói điều này, nhưng có những thứ nằm ngoài khả năng kiểm soát của chúng ta
- Thành công của Grok 3 một lần nữa nhắc lại rằng trong tiến bộ AI, "năng lực tính toán lớn hơn" mới là động lực chính, chứ không phải "thuật toán thông minh hơn"

3 bình luận

kobings 2025-02-23

"OpenAI là ChatGPT có 300 triệu người dùng hằng tuần" Vui lòng xem lại bản gốc, vì là 300M nên hãy sửa thành 300 triệu.

doolayer 2025-02-22

trực giao nhưng không trực chuẩn.

GN⁺ 2025-02-21

Ý kiến trên Hacker News

Việc tạo ra một mô hình "co-state-of-the-art" không phải là chiến thắng của quy luật scaling
- Dù xAI đã đổ thêm nhiều năng lực tính toán vào Grok 3, việc nó không vượt trội đáng kể so với các mô hình hiện có có thể là bằng chứng cho thấy hyperscaling chỉ mang lại cải thiện dần dần
- Việc nhiều sức mạnh tính toán hơn làm máy tính tốt hơn là một quan sát hiển nhiên
- Bài viết này đang cố áp dụng sự khác biệt giữa AI biểu tượng của thập niên 70 và mạng nơ-ron của thập niên 2010 vào sự khác biệt giữa GPT-4 và Grok 3
- Nhiều người nghi ngờ hiệu năng thực tế của Grok 3 và cho rằng nó đã được huấn luyện để khớp với một số benchmark cụ thể
- Sabine Hossenfelder nhắc rằng Grok 3 đã thất bại khi giải thích định lý Bell
- Điều này cho thấy scaling quy mô lớn không cải thiện trí thông minh
Deepseek đã mất 17 tháng để đạt kết quả SOTA, và mô hình của xAI không vượt xa Deepseek R1
- xAI sẽ đầu tư $2.5 billion vào GPU và $0.5 billion vào nhân tài trong tổng số $3 billion
- Deepseek sẽ đầu tư $1 billion vào GPU và $2 billion vào nhân tài
- Có ý kiến cho rằng cách tiếp cận của Deepseek có khả năng mở rộng tốt hơn
Hoài nghi về việc mô hình không suy luận đạt 75% trên GPQA Diamond
- Muốn xAI cung cấp Grok 3 API vào tuần tới để có thể tự đánh giá và kiểm tra hiệu năng thực tế
- Con số DeepSeek sở hữu 50k Hopper GPU có thể đã bị thổi phồng
- Quảng cáo tuyển thực tập sinh của DeepSeek chỉ nhắc đến "quyền truy cập không giới hạn vào 10k A100s"
Rút ra những kết luận kỳ lạ từ các thay đổi gần đây
- Có rất nhiều tiền đang đổ vào cơn sốt AI, nhưng điều này sẽ sớm kết thúc
- Những người có nhiều kinh nghiệm cải tiến công nghệ sẽ ở vị thế thuận lợi nhất về dài hạn
Nếu Grok có mức độ thông minh tương tự các mô hình dẫn đầu khác, thì đặt câu hỏi doanh nghiệp nào sẽ chuyển sang Grok
Khi việc đổ thêm compute dẫn tới chi phí hàng tỷ đô la, "bài học cay đắng" có thể không còn nói về phần cứng mà là về tiền
- Có thể tồn tại một con đường nơi các mô hình ít tiêu thụ điện hơn vẫn khả thi mà không cần vốn VC
Lập luận của bài viết về "bài học cay đắng" dựa vào ngụy biện logic
- Đóng khung scaling và tối ưu hóa như hai chiến lược loại trừ lẫn nhau
- Đổi mới thuật toán của DeepSeek bổ trợ cho nỗ lực scaling
- Nhận định rằng compute sẽ thống trị "kỷ nguyên hậu huấn luyện" đã bỏ qua các yếu tố có thể gây gián đoạn
Tò mò việc thu hút nhân tài sẽ tiến hóa ra sao
- Nhiều kỹ sư thất vọng vì hoạt động PR quá tập trung vào DEI
- Đặt câu hỏi liệu những người từng tránh quan hệ chặt chẽ với Trung Quốc vì lý do đạo đức có áp dụng điều tương tự với Mỹ hay không
Lại thêm một bài blog cường điệu về AI
- Thậm chí không nhắc đến việc các cột trong kết quả benchmark có màu khác nhau
- Grok-3 không chứng minh hay bác bỏ quy luật scaling theo cách có ý nghĩa