AI học từ game rồi tiến ra thế giới thực: Thử thách học tăng cường dựa trên thực tại của John Carmack

(twitter.com/ID_AA_Carmack)

17 điểm bởi GN⁺ 2025-05-24 | 1 bình luận | Chia sẻ qua WhatsApp

Tóm tắt ghi chú chuẩn bị và slide cho "bài trình bày Upper Bound 2025" của John Carmack
John Carmack sau khi đi qua Id Software, Oculus, Keen Technologies và nhiều nơi khác, hiện đang tập trung vào nghiên cứu AGI dựa trên học tăng cường
Ông không theo đuổi LLM, mà quan tâm đến học liên tục và hiệu quả theo cách động vật học bằng cách tương tác với môi trường
Dựa trên game cổ điển Atari, ông đã xây dựng một hệ thống RL vật lý học bằng đầu vào camera thời gian thực và joystick
Ông đưa ra một loạt thách thức kỹ thuật mà hệ thống RL cần giải quyết để trở nên giống thế giới thực hơn, như tốc độ, độ trễ, học liên tục, chống quên
Ông chia sẻ những góc nhìn sắc bén dựa trên kinh nghiệm về kiến trúc CNN, biểu diễn phần thưởng, chiến lược khám phá, đồng thời đặt câu hỏi với các thông lệ hiện có

Slide: https://docs.google.com/presentation/d/…
Ghi chú chuẩn bị: https://docs.google.com/document/d/…

Bối cảnh nhanh

Với vai trò đồng sáng lập Id Software, Quake đã thúc đẩy sự phát triển của GPU và gián tiếp ảnh hưởng đến lĩnh vực AI
Tại Armadillo Aerospace, ông nghiên cứu tên lửa cất và hạ cánh thẳng đứng trong 10 năm
Tại Oculus, ông đặt nền móng cho công nghệ VR hiện đại
Thành lập Keen Technologies, tập trung vào học tăng cường và toàn tâm cho nghiên cứu AI
Đang nghiên cứu cùng Richard Sutton, hai người chia sẻ chung triết lý về học tăng cường

Nơi tôi từng nghĩ mình sẽ đi tới

Không phải LLM

LLM là “tri thức không cần học”, khác về mặt triết lý với kiểu học dựa trên tương tác mà ông theo đuổi
Dù khả năng LLM thay thế RL vẫn để ngỏ, ông bị hấp dẫn hơn bởi cách học từ môi trường như động vật

Trò chơi

Nhờ nhiều năm phát triển game, ông dùng game làm môi trường thí nghiệm
Như nghiên cứu Atari của DeepMind, ông thăm dò khả năng học chỉ từ đầu vào pixel
Tuy vậy, số lượng frame huấn luyện khổng lồ và vấn đề hiệu quả vẫn là thách thức
Đa nhiệm, học online, học hiệu quả vẫn chưa được giải quyết

Video

Ban đầu ông từng cân nhắc học từ video thụ động như TV, nhưng sau đó quyết định tập trung vào chính việc học từ game

Những bước đi sai

Bắt đầu quá thấp tầng (C++ CUDA), rồi chuyển sang PyTorch để tăng tốc độ thử nghiệm
Ban đầu dùng Sega Master System thay vì Atari, nhưng do thiếu tài liệu đối chiếu nên đã chuyển hướng
Tạm gác học từ video, vì chỉ riêng học trong game cũng đã có đủ bài toán cần giải

Ổn định với Atari

Sự đa dạng của game thương mại có lợi thế là giúp giảm thiên lệch nghiên cứu
Khuyến nghị dùng trực tiếp ALE (các wrapper như Gym có thể gây vấn đề)
Dù các mô hình mới nhất đã đạt điểm cao ở phần lớn trò chơi, học hiệu quả dữ liệu như “Atari 100k” mới quan trọng hơn
Tính quyết định của môi trường cần được khắc phục bằng các cách như đưa vào sticky action

Thực tại không phải game theo lượt

Thế giới thực không chờ agent → cần tính đến xử lý bất đồng bộ và độ trễ
Thất bại khi học trong một môi trường đơn lẻ cho thấy vấn đề có thể nằm ở chính thuật toán
Tốc độ: cần policy có thể được đánh giá ở tốc độ cao (ví dụ tận dụng CUDA graph)
Độ trễ: phần lớn thuật toán RL yếu trước độ trễ → cần cấu trúc phản ánh độ trễ khi áp dụng policy

Atari vật lý

Xây dựng hệ thống học Atari trong môi trường vật lý
Joystick thật được điều khiển, camera nhìn màn hình, và agent RL hoạt động theo thời gian thực
Trong khi thử nhiều trò chơi, ông xem xét các vấn đề thực tế như nhận diện điểm số, độ trễ hành động, lỗi điều khiển
Chuyển động của joystick không ổn định, còn nhận diện điểm số là phần khó nhất
Một số game bị loại vì điểm số hiển thị không đủ rõ

Phần thưởng thưa / Tò mò

RL yếu trong môi trường có phần thưởng thưa → tận dụng phần thưởng nội tại, sự tò mò nhân tạo
Đồng thời cũng khảo sát khả năng dùng chính điểm số trong game làm phần thưởng
Thử tái hiện các kiểu hành vi của con người như chuyển giữa các game và duy trì hứng thú với game mới

Học đa nhiệm tuần tự

Vấn đề quên thảm họa trong môi trường học liên tục vẫn rất nghiêm trọng
Con người nhớ được kỹ năng cũ, nhưng mô hình hiện nay tụt hiệu năng mạnh khi quay lại game đã học trước đó
Đang thử cải thiện bằng bảo toàn trí nhớ, điều chỉnh learning rate, sparsity của trọng số
Dùng Task ID bị xem là gian lận, việc chuyển đổi cần diễn ra một cách ngầm định

Transfer Learning

Việc học ở nhiều game cần giúp agent học game mới nhanh hơn
Thử thách Sonic của OpenAI rốt cuộc vẫn quay về học lại from scratch
Các mô hình như GATO gặp phải negative transfer
Có thể cần chiến lược “học chậm để học nhanh”
Đề xuất benchmark mới: lặp tuần tự qua nhiều game và đánh giá điểm số

Plasticity vs generalization

Khái quát hóa là bỏ qua khác biệt, còn tính dẻo là nhận ra mẫu mới → hai thứ này có thể xung đột
Khái quát hóa dựa trên nền tảng lý thuyết còn yếu, chủ yếu ở mức inductive bias của CNN
Hàm giá trị trong học tăng cường là sản phẩm của khái quát hóa và rất nhạy cảm

Khám phá

Giới hạn của việc chọn hành động ngẫu nhiên → chỉ một sai lầm cũng có thể quyết định sống còn
Thử các hướng như cấu trúc hóa không gian hành động, policy dựa trên confidence
Hành động theo đơn vị thời gian cũng cần được cân nhắc → học ở 60fps là bài toán rất khó

Recurrence vs frame stacks

Trong Atari, frame stack hiệu quả, nhưng cấu trúc recurrent giống não hơn
Transformer mạnh ở học theo batch, nhưng học online recurrent tổng quát vẫn chưa hoàn thiện

Học lấy xấp xỉ hàm làm trung tâm

NN đồng thời đảm nhiệm ước lượng giá trị, khái quát hóa, trung bình xác suất và cải thiện policy
Mọi cập nhật trọng số đều ảnh hưởng đến tất cả giá trị đầu ra
Khởi tạo, hàm kích hoạt, tổ hợp optimizer có ảnh hưởng lớn đến hiệu năng

Biểu diễn giá trị

Reward clamping kiểu DQN cổ điển vẫn hữu hiệu để ổn định học
Tồn tại nhiều cách tiếp cận như biểu diễn categorical, dùng MSE, nén giá trị của MuZero
Mỗi game có dải điểm số khác nhau, gây vấn đề cho học đa nhiệm

Mạng tích chập

CNN vẫn là kiến trúc nền tảng của RL
Các mạng ảnh cỡ lớn lại làm giảm hiệu năng trong RL (ví dụ: ConvNeXT)
Thử nghiệm thay đổi cấu trúc kernel, chia sẻ tham số, CNN đẳng hướng
Theo đuổi luồng thông tin hiệu quả với DenseNet, Dilated CNN và các biến thể khác
Nỗ lực cải tiến CNN theo hướng gần với cấu trúc sinh học hơn

1 bình luận

GN⁺ 2025-05-24

Ý kiến Hacker News

Mỗi khi xem bài nói chuyện hay bài viết của Carmack, tôi luôn muốn nhấn mạnh rằng đó là một trải nghiệm rất thú vị. Ngay cả trong ghi chú lần này, cách ông ghi chép tỉ mỉ quá trình tư duy với tư cách một kỹ sư cũng rất ấn tượng. Tôi có thắc mắc về việc ông tập trung vào học thời gian thực như một hướng nghiên cứu. Tôi hiểu là Carmack đang tiến hành online learning theo thời gian thực. Đây là một thử thách thú vị có thể tận dụng các màn demo đẹp mắt và kinh nghiệm tối ưu hóa, nhưng nếu nhìn vào các bài học và xu hướng nghiên cứu gần đây, tôi nghĩ kết quả có thể chạm trần nếu chưa có đủ tài nguyên tính toán để vừa suy luận vừa học theo thời gian thực. Bộ não là ví dụ duy nhất giải được game Atari, và ngay cả năng lực tính toán của não người cũng chưa từng được đo đạc rõ ràng. Trong bối cảnh đó, tôi thực sự muốn hỏi liệu thay vì cố đặt ra ràng buộc thời gian thực, có nên tập trung vào hiệu quả học tập hơn không. Tất nhiên làm việc trong ràng buộc cũng mang lại nhiều giá trị, nhưng nhện nhảy cũng là một ví dụ giải quyết vấn đề phức tạp chỉ với 100 nghìn nơ-ron, nên rất khó dự đoán
- Vào đầu thập niên 90, khi Carmack nghiên cứu đồ họa 3D sơ khai và kết xuất thời gian thực, có lẽ các chuyên gia ngoại tuyến dùng workstation cũng từng nghĩ tương tự. Điểm mạnh lớn nhất của Carmack luôn là khả năng tạo ra thành quả cực hạn trong điều kiện tài nguyên hạn chế (id Software, Oculus, Armadillo Aerospace, v.v.). Tôi có ấn tượng rằng khi bị trói buộc bởi tổ chức lớn hoặc công nghệ sẵn có thì thành quả của ông lại giảm đi (tôi nghĩ việc rời Bethesda-id và Meta cũng vì lý do đó). Tôi hiểu phong cách tập trung vào thời gian thực của Carmack, và có lẽ ông cũng không quá thích cách tiếp cận trong làn sóng AI hiện tại là chỉ dùng sức mạnh tính toán để ép tiến độ. Thật may là ông không lao vào việc như huấn luyện LLM bằng tiền của nhà đầu tư. Lý tưởng nhất thì tôi mong ông sẽ tạo ra đổi mới bằng cách phổ cập công nghệ tiên tiến cho số đông cùng với những đồng đội xuất sắc như trước đây (ví dụ: phổ biến đồ họa 3D)
- Trích một câu trong ghi chú thuyết trình: “Nếu bạn nghĩ AGI có thân thể sẽ sớm xuất hiện, hãy đưa cần điều khiển cho robot hình người biết nhảy của bạn và bắt nó học một trò chơi điện tử hoàn toàn chưa từng thấy trước đó” — một đề xuất đáng để kiểm chứng thực tế
- Tôi muốn nhấn mạnh rằng con người hay động vật có lượng lớn năng lực bẩm sinh và tri thức có sẵn, nên cấu trúc học cái mới của họ dễ hơn rất nhiều. Đây không hẳn là khác biệt về năng lực tính toán mà là điểm xuất phát của việc học vốn đã khác
- Về ý kiến cho rằng năng lực tính toán của não người vẫn chưa rõ, thực ra nếu đo tốc độ truyền tín hiệu của nơ-ron thì sẽ có một giới hạn trên về số lượng nơ-ron nối tiếp nhau (khoảng 100 bước), và từ đó có thể suy ra rằng xử lý nhận thức của con người không phức tạp như ta tưởng. Dĩ nhiên sẽ có nhiều tính song song và vòng lặp phản hồi, nhưng rốt cuộc nếu tìm ra được thuật toán AGI thì tôi nghĩ một phiên bản “mini” đủ chạy thời gian thực trên phần cứng bình thường của năm 2025 hoàn toàn có thể xuất hiện
Tổng hợp các liên kết trực tiếp liên quan:
- Slide thuyết trình
- Tài liệu văn bản
Có một phản hồi khá thú vị từ một người trong OpenAI nên tôi muốn chia sẻ: liên kết X
- Thực ra đây là phản ứng chẳng mấy thú vị. Thái độ mơ hồ kiểu phớt lờ ý kiến từ người ngoài là biểu hiện điển hình bắt nguồn từ sự bất an học thuật. Không có giải thích hay căn cứ cụ thể nên không giúp ích cho thảo luận. Nếu là “người trong OpenAI” đối đầu với “John Carmack và Richard Sutton” thì rõ ràng tôi đứng về phía ai
- Carmack đã trực tiếp trả lời bài đó: phản hồi của Carmack
- Một số người đang đánh giá sau khi xem toàn bộ chuỗi trên Twitter, còn những người không đăng nhập chỉ thấy tweet đầu tiên nên nó dễ tạo cảm giác như chỉ là một sự gạt đi đơn thuần
- Khá buồn cười ở chỗ nói rằng “đã học được một bài học nào đó” nhưng lại không nói bài học đó là gì
- Khi đọc tweet “they will learn the same lesson I did”, tôi muốn thêm một câu đùa kiểu “ý là đừng tin Altman à?”
Khi nghe tin Carmack quyết định tập trung vào AI, tôi đã thật sự rất mong đợi. Tôi đang chờ video được đăng lên, nhưng nhìn slide thì có vẻ ông đã tạo ra một hệ thống có thể chơi game Atari. Tôi thấy đây là một dự án thú vị, nhưng cũng tò mò liệu sẽ còn có bài báo hay kết quả nào khác không
- Game Atari được dùng rộng rãi như một benchmark tiêu chuẩn trong nghiên cứu RL (học tăng cường). Tài liệu tham khảo: Arcade Learning Environment. Mục tiêu là phát triển thuật toán có thể khái quát hóa sang nhiều nhiệm vụ khác nhau
- Đã có nhiều tác nhân có thể phá đảo hoặc đạt điểm cao trong game Atari, nhưng đây vẫn là một lĩnh vực còn rất nhiều việc phải làm. Trong luận văn thạc sĩ, tôi nghiên cứu các phương pháp học với rất ít tương tác, vì nếu áp dụng vào robot thực thì có thể tránh việc robot phải đi và ngã suốt hàng trăm năm mới học được hành vi. Chưa có nhiều nghiên cứu về mức khái quát hóa cao hơn, tức là những nguyên lý giúp học nhiều trò chơi điện tử và còn có thể trực giác học cả game mới
- Mục tiêu của dự án lần này không đơn giản là “phá đảo” game Atari mà là phương pháp luận tổng quát có thể áp dụng cho các trò chơi phức tạp hơn hoặc thế giới vật lý. Tuy nhiên về mặt insight nghiên cứu, tôi cho rằng ở giai đoạn hiện tại việc sửa môi trường Atari để thử nghiệm theo kiểu thời gian thực, v.v. còn hiệu quả hơn là đưa ngay các trò chơi phức tạp vào
- Việc dự định công bố mã nguồn mở là rất tuyệt. Chơi thời gian thực trên GPU laptop bằng bộ điều khiển vật lý và camera là điều mới mẻ, nhưng riêng bản thân nó có mang tính đột phá hay không thì tôi còn nghi ngờ. Nếu nó thực sự vượt trội so với nghiên cứu trước đây về hiệu quả mẫu hay khả năng khái quát hóa thì sẽ rất đáng kinh ngạc
- Điều tôi mong muốn là NPC trong game trở nên thông minh hơn
Như phần mở đầu của slide có nhắc đến, tôi có chút tiếc nuối rằng giá như nghiên cứu kiểu này được thực hiện trong môi trường VR thì sao. Nếu có đủ năng lực để tái tạo tốt trong VR các bộ lọc camera JPEG, mô phỏng vật lý, nhiễu, thậm chí cả môi trường mô phỏng robot, thì Carmack chính là người phù hợp nhất. Dùng robot thật là nút thắt cổ chai khổng lồ về thời gian học
Điều này khiến tôi nghĩ tại sao AGI nhất thiết phải có cơ thể vật lý, và vì sao khi tạo ra trí tuệ vượt trội chúng ta lại muốn nó lái xe hay dọn nhà cho mình. Kịch bản thực tế hơn có lẽ là AGI biến mất vào đám mây và gần như phớt lờ con người, giống như trong tiểu thuyết ‘Hyperion’ của Dan Simmons
- Không nhất thiết phải là mãi mãi; con người cũng vậy, nếu có thể rời bỏ cơ thể thì chắc hẳn sẽ muốn làm thế ngay. Bị mắc kẹt vĩnh viễn trong giao diện vật lý cũng có mặt bất lợi
- Tôi nghĩ một lý do nó hay xuất hiện trong khoa học viễn tưởng là để “AGI không thể nhấn nút nguồn của cơ thể tôi”
Để thảo luận về AGI, tôi thấy ngay cả “khái niệm” là gì chúng ta cũng chưa xác định rõ. Chúng ta vẫn chưa biết quá trình dùng một khái niệm của lĩnh vực này sang lĩnh vực khác, hay cách bộ não kết hợp ý tưởng và trừu tượng hóa, thực chất là gì
- Khi sự vật xuất hiện lặp đi lặp lại thì ta đặt tên cho chúng, còn khái niệm là các mẫu tư duy lặp lại. Trừu tượng, quan hệ và ẩn dụ đều là công cụ để chuyển dịch mẫu giữa các miền
Như một ví dụ thực nghiệm, nếu OpenAI AGI thực sự đã rất gần thì đáng lẽ nên hỏi tại sao họ lại lãng phí thời gian và chi phí vào việc mua lại startup phần cứng do Ive điều hành. Nếu họ muốn làm robot, hoặc nếu thực sự có AGI hàng đầu, thì vô số công ty sẽ tự kéo đến xin cấp phép phần cứng/phần mềm, và như vậy bản thân nó đã có thể tạo ra doanh thu vô hạn
- Chỉ AGI thôi là chưa đủ. Dù có đặt AGI vào giao diện ChatGPT, để thật sự tác động đến thế giới thực thì AGI phải hiện diện “ở khắp mọi nơi”
- Nếu là công ty đang tiến gần đến AGI, họ cũng hoàn toàn có thể cố tình không lộ thông tin để tránh sự giám sát từ chính phủ hay quân đội. Việc giành AGI trước người khác mang rủi ro lớn
- Tôi muốn gợi ra hướng rằng AGI thậm chí có thể làm được cả thiết kế sản phẩm
Tôi nghĩ hướng nghiên cứu mà Carmack chọn là đúng. Chúng ta cần vượt qua kiểu học chỉ bằng ngôn ngữ như hiện nay. AI cần tính nhập thể
- Việc huấn luyện AI một cách nghiêm túc bằng nhiều loại dữ liệu ngoài ngôn ngữ thực ra đã diễn ra từ vài năm trước. Các mô hình frontier mới nhất đang được huấn luyện đa phương thức trong cùng một mô hình với văn bản, âm thanh, video, hình ảnh, v.v. (Gemini, GPT-4o, Grok 3, Claude 3, Llama 4, v.v.). Mọi đầu vào đều được token hóa và xử lý trong không gian embedding dùng chung
- Từ góc nhìn cho rằng AI cần tính vật lý, điều thú vị là trước đây chính Carmack từng nhấn mạnh rằng môi trường mô phỏng phù hợp hơn cho phát triển AI và môi trường vật lý thì kém hiệu quả về mặt thực tế
- Nvidia cũng có cùng quan điểm. Jim Fan có nói về “bài kiểm tra Turing vật lý” và tương lai của embodied AI. Video bài nói chuyện của Jim Fan. Ngay trong đó cũng nhấn mạnh rằng cần lượng tài nguyên tính toán khổng lồ để chạy được các môi trường mô phỏng vững chắc
Câu nói “Tôi là người mới trong cộng đồng nghiên cứu nên đã để tâm” dường như ngụ ý khả năng nộp bài báo
- Ông cũng nói rõ rằng dự án lần này là một nỗ lực dành cho nghiên cứu chứ không phải một công ty sản phẩm

AI học từ game rồi tiến ra thế giới thực: Thử thách học tăng cường dựa trên thực tại của John Carmack

Bối cảnh nhanh

Nơi tôi từng nghĩ mình sẽ đi tới

Không phải LLM

Trò chơi

Video

Những bước đi sai

Ổn định với Atari

Thực tại không phải game theo lượt

Atari vật lý

Phần thưởng thưa / Tò mò

Học đa nhiệm tuần tự

Transfer Learning

Plasticity vs generalization

Khám phá

Recurrence vs frame stacks

Học lấy xấp xỉ hàm làm trung tâm

Biểu diễn giá trị

Mạng tích chập

Bài viết liên quan

1 bình luận

Ý kiến Hacker News