- Tóm tắt ghi chú chuẩn bị và slide cho "bài trình bày Upper Bound 2025" của John Carmack
- John Carmack sau khi đi qua Id Software, Oculus, Keen Technologies và nhiều nơi khác, hiện đang tập trung vào nghiên cứu AGI dựa trên học tăng cường
- Ông không theo đuổi LLM, mà quan tâm đến học liên tục và hiệu quả theo cách động vật học bằng cách tương tác với môi trường
- Dựa trên game cổ điển Atari, ông đã xây dựng một hệ thống RL vật lý học bằng đầu vào camera thời gian thực và joystick
- Ông đưa ra một loạt thách thức kỹ thuật mà hệ thống RL cần giải quyết để trở nên giống thế giới thực hơn, như tốc độ, độ trễ, học liên tục, chống quên
- Ông chia sẻ những góc nhìn sắc bén dựa trên kinh nghiệm về kiến trúc CNN, biểu diễn phần thưởng, chiến lược khám phá, đồng thời đặt câu hỏi với các thông lệ hiện có
Bối cảnh nhanh
- Với vai trò đồng sáng lập Id Software, Quake đã thúc đẩy sự phát triển của GPU và gián tiếp ảnh hưởng đến lĩnh vực AI
- Tại Armadillo Aerospace, ông nghiên cứu tên lửa cất và hạ cánh thẳng đứng trong 10 năm
- Tại Oculus, ông đặt nền móng cho công nghệ VR hiện đại
- Thành lập Keen Technologies, tập trung vào học tăng cường và toàn tâm cho nghiên cứu AI
- Đang nghiên cứu cùng Richard Sutton, hai người chia sẻ chung triết lý về học tăng cường
Nơi tôi từng nghĩ mình sẽ đi tới
Không phải LLM
- LLM là “tri thức không cần học”, khác về mặt triết lý với kiểu học dựa trên tương tác mà ông theo đuổi
- Dù khả năng LLM thay thế RL vẫn để ngỏ, ông bị hấp dẫn hơn bởi cách học từ môi trường như động vật
Trò chơi
- Nhờ nhiều năm phát triển game, ông dùng game làm môi trường thí nghiệm
- Như nghiên cứu Atari của DeepMind, ông thăm dò khả năng học chỉ từ đầu vào pixel
- Tuy vậy, số lượng frame huấn luyện khổng lồ và vấn đề hiệu quả vẫn là thách thức
- Đa nhiệm, học online, học hiệu quả vẫn chưa được giải quyết
Video
- Ban đầu ông từng cân nhắc học từ video thụ động như TV, nhưng sau đó quyết định tập trung vào chính việc học từ game
Những bước đi sai
- Bắt đầu quá thấp tầng (C++ CUDA), rồi chuyển sang PyTorch để tăng tốc độ thử nghiệm
- Ban đầu dùng Sega Master System thay vì Atari, nhưng do thiếu tài liệu đối chiếu nên đã chuyển hướng
- Tạm gác học từ video, vì chỉ riêng học trong game cũng đã có đủ bài toán cần giải
Ổn định với Atari
- Sự đa dạng của game thương mại có lợi thế là giúp giảm thiên lệch nghiên cứu
- Khuyến nghị dùng trực tiếp ALE (các wrapper như Gym có thể gây vấn đề)
- Dù các mô hình mới nhất đã đạt điểm cao ở phần lớn trò chơi, học hiệu quả dữ liệu như “Atari 100k” mới quan trọng hơn
- Tính quyết định của môi trường cần được khắc phục bằng các cách như đưa vào sticky action
Thực tại không phải game theo lượt
- Thế giới thực không chờ agent → cần tính đến xử lý bất đồng bộ và độ trễ
- Thất bại khi học trong một môi trường đơn lẻ cho thấy vấn đề có thể nằm ở chính thuật toán
- Tốc độ: cần policy có thể được đánh giá ở tốc độ cao (ví dụ tận dụng CUDA graph)
- Độ trễ: phần lớn thuật toán RL yếu trước độ trễ → cần cấu trúc phản ánh độ trễ khi áp dụng policy
Atari vật lý
- Xây dựng hệ thống học Atari trong môi trường vật lý
- Joystick thật được điều khiển, camera nhìn màn hình, và agent RL hoạt động theo thời gian thực
- Trong khi thử nhiều trò chơi, ông xem xét các vấn đề thực tế như nhận diện điểm số, độ trễ hành động, lỗi điều khiển
- Chuyển động của joystick không ổn định, còn nhận diện điểm số là phần khó nhất
- Một số game bị loại vì điểm số hiển thị không đủ rõ
Phần thưởng thưa / Tò mò
- RL yếu trong môi trường có phần thưởng thưa → tận dụng phần thưởng nội tại, sự tò mò nhân tạo
- Đồng thời cũng khảo sát khả năng dùng chính điểm số trong game làm phần thưởng
- Thử tái hiện các kiểu hành vi của con người như chuyển giữa các game và duy trì hứng thú với game mới
Học đa nhiệm tuần tự
- Vấn đề quên thảm họa trong môi trường học liên tục vẫn rất nghiêm trọng
- Con người nhớ được kỹ năng cũ, nhưng mô hình hiện nay tụt hiệu năng mạnh khi quay lại game đã học trước đó
- Đang thử cải thiện bằng bảo toàn trí nhớ, điều chỉnh learning rate, sparsity của trọng số
- Dùng Task ID bị xem là gian lận, việc chuyển đổi cần diễn ra một cách ngầm định
Transfer Learning
- Việc học ở nhiều game cần giúp agent học game mới nhanh hơn
- Thử thách Sonic của OpenAI rốt cuộc vẫn quay về học lại from scratch
- Các mô hình như GATO gặp phải negative transfer
- Có thể cần chiến lược “học chậm để học nhanh”
- Đề xuất benchmark mới: lặp tuần tự qua nhiều game và đánh giá điểm số
Plasticity vs generalization
- Khái quát hóa là bỏ qua khác biệt, còn tính dẻo là nhận ra mẫu mới → hai thứ này có thể xung đột
- Khái quát hóa dựa trên nền tảng lý thuyết còn yếu, chủ yếu ở mức inductive bias của CNN
- Hàm giá trị trong học tăng cường là sản phẩm của khái quát hóa và rất nhạy cảm
Khám phá
- Giới hạn của việc chọn hành động ngẫu nhiên → chỉ một sai lầm cũng có thể quyết định sống còn
- Thử các hướng như cấu trúc hóa không gian hành động, policy dựa trên confidence
- Hành động theo đơn vị thời gian cũng cần được cân nhắc → học ở 60fps là bài toán rất khó
Recurrence vs frame stacks
- Trong Atari, frame stack hiệu quả, nhưng cấu trúc recurrent giống não hơn
- Transformer mạnh ở học theo batch, nhưng học online recurrent tổng quát vẫn chưa hoàn thiện
Học lấy xấp xỉ hàm làm trung tâm
- NN đồng thời đảm nhiệm ước lượng giá trị, khái quát hóa, trung bình xác suất và cải thiện policy
- Mọi cập nhật trọng số đều ảnh hưởng đến tất cả giá trị đầu ra
- Khởi tạo, hàm kích hoạt, tổ hợp optimizer có ảnh hưởng lớn đến hiệu năng
Biểu diễn giá trị
- Reward clamping kiểu DQN cổ điển vẫn hữu hiệu để ổn định học
- Tồn tại nhiều cách tiếp cận như biểu diễn categorical, dùng MSE, nén giá trị của MuZero
- Mỗi game có dải điểm số khác nhau, gây vấn đề cho học đa nhiệm
Mạng tích chập
- CNN vẫn là kiến trúc nền tảng của RL
- Các mạng ảnh cỡ lớn lại làm giảm hiệu năng trong RL (ví dụ: ConvNeXT)
- Thử nghiệm thay đổi cấu trúc kernel, chia sẻ tham số, CNN đẳng hướng
- Theo đuổi luồng thông tin hiệu quả với DenseNet, Dilated CNN và các biến thể khác
- Nỗ lực cải tiến CNN theo hướng gần với cấu trúc sinh học hơn
1 bình luận
Ý kiến Hacker News
Mỗi khi xem bài nói chuyện hay bài viết của Carmack, tôi luôn muốn nhấn mạnh rằng đó là một trải nghiệm rất thú vị. Ngay cả trong ghi chú lần này, cách ông ghi chép tỉ mỉ quá trình tư duy với tư cách một kỹ sư cũng rất ấn tượng. Tôi có thắc mắc về việc ông tập trung vào học thời gian thực như một hướng nghiên cứu. Tôi hiểu là Carmack đang tiến hành online learning theo thời gian thực. Đây là một thử thách thú vị có thể tận dụng các màn demo đẹp mắt và kinh nghiệm tối ưu hóa, nhưng nếu nhìn vào các bài học và xu hướng nghiên cứu gần đây, tôi nghĩ kết quả có thể chạm trần nếu chưa có đủ tài nguyên tính toán để vừa suy luận vừa học theo thời gian thực. Bộ não là ví dụ duy nhất giải được game Atari, và ngay cả năng lực tính toán của não người cũng chưa từng được đo đạc rõ ràng. Trong bối cảnh đó, tôi thực sự muốn hỏi liệu thay vì cố đặt ra ràng buộc thời gian thực, có nên tập trung vào hiệu quả học tập hơn không. Tất nhiên làm việc trong ràng buộc cũng mang lại nhiều giá trị, nhưng nhện nhảy cũng là một ví dụ giải quyết vấn đề phức tạp chỉ với 100 nghìn nơ-ron, nên rất khó dự đoán
Vào đầu thập niên 90, khi Carmack nghiên cứu đồ họa 3D sơ khai và kết xuất thời gian thực, có lẽ các chuyên gia ngoại tuyến dùng workstation cũng từng nghĩ tương tự. Điểm mạnh lớn nhất của Carmack luôn là khả năng tạo ra thành quả cực hạn trong điều kiện tài nguyên hạn chế (id Software, Oculus, Armadillo Aerospace, v.v.). Tôi có ấn tượng rằng khi bị trói buộc bởi tổ chức lớn hoặc công nghệ sẵn có thì thành quả của ông lại giảm đi (tôi nghĩ việc rời Bethesda-id và Meta cũng vì lý do đó). Tôi hiểu phong cách tập trung vào thời gian thực của Carmack, và có lẽ ông cũng không quá thích cách tiếp cận trong làn sóng AI hiện tại là chỉ dùng sức mạnh tính toán để ép tiến độ. Thật may là ông không lao vào việc như huấn luyện LLM bằng tiền của nhà đầu tư. Lý tưởng nhất thì tôi mong ông sẽ tạo ra đổi mới bằng cách phổ cập công nghệ tiên tiến cho số đông cùng với những đồng đội xuất sắc như trước đây (ví dụ: phổ biến đồ họa 3D)
Trích một câu trong ghi chú thuyết trình: “Nếu bạn nghĩ AGI có thân thể sẽ sớm xuất hiện, hãy đưa cần điều khiển cho robot hình người biết nhảy của bạn và bắt nó học một trò chơi điện tử hoàn toàn chưa từng thấy trước đó” — một đề xuất đáng để kiểm chứng thực tế
Tôi muốn nhấn mạnh rằng con người hay động vật có lượng lớn năng lực bẩm sinh và tri thức có sẵn, nên cấu trúc học cái mới của họ dễ hơn rất nhiều. Đây không hẳn là khác biệt về năng lực tính toán mà là điểm xuất phát của việc học vốn đã khác
Về ý kiến cho rằng năng lực tính toán của não người vẫn chưa rõ, thực ra nếu đo tốc độ truyền tín hiệu của nơ-ron thì sẽ có một giới hạn trên về số lượng nơ-ron nối tiếp nhau (khoảng 100 bước), và từ đó có thể suy ra rằng xử lý nhận thức của con người không phức tạp như ta tưởng. Dĩ nhiên sẽ có nhiều tính song song và vòng lặp phản hồi, nhưng rốt cuộc nếu tìm ra được thuật toán AGI thì tôi nghĩ một phiên bản “mini” đủ chạy thời gian thực trên phần cứng bình thường của năm 2025 hoàn toàn có thể xuất hiện
Tổng hợp các liên kết trực tiếp liên quan:
Có một phản hồi khá thú vị từ một người trong OpenAI nên tôi muốn chia sẻ: liên kết X
Thực ra đây là phản ứng chẳng mấy thú vị. Thái độ mơ hồ kiểu phớt lờ ý kiến từ người ngoài là biểu hiện điển hình bắt nguồn từ sự bất an học thuật. Không có giải thích hay căn cứ cụ thể nên không giúp ích cho thảo luận. Nếu là “người trong OpenAI” đối đầu với “John Carmack và Richard Sutton” thì rõ ràng tôi đứng về phía ai
Carmack đã trực tiếp trả lời bài đó: phản hồi của Carmack
Một số người đang đánh giá sau khi xem toàn bộ chuỗi trên Twitter, còn những người không đăng nhập chỉ thấy tweet đầu tiên nên nó dễ tạo cảm giác như chỉ là một sự gạt đi đơn thuần
Khá buồn cười ở chỗ nói rằng “đã học được một bài học nào đó” nhưng lại không nói bài học đó là gì
Khi đọc tweet “they will learn the same lesson I did”, tôi muốn thêm một câu đùa kiểu “ý là đừng tin Altman à?”
Khi nghe tin Carmack quyết định tập trung vào AI, tôi đã thật sự rất mong đợi. Tôi đang chờ video được đăng lên, nhưng nhìn slide thì có vẻ ông đã tạo ra một hệ thống có thể chơi game Atari. Tôi thấy đây là một dự án thú vị, nhưng cũng tò mò liệu sẽ còn có bài báo hay kết quả nào khác không
Game Atari được dùng rộng rãi như một benchmark tiêu chuẩn trong nghiên cứu RL (học tăng cường). Tài liệu tham khảo: Arcade Learning Environment. Mục tiêu là phát triển thuật toán có thể khái quát hóa sang nhiều nhiệm vụ khác nhau
Đã có nhiều tác nhân có thể phá đảo hoặc đạt điểm cao trong game Atari, nhưng đây vẫn là một lĩnh vực còn rất nhiều việc phải làm. Trong luận văn thạc sĩ, tôi nghiên cứu các phương pháp học với rất ít tương tác, vì nếu áp dụng vào robot thực thì có thể tránh việc robot phải đi và ngã suốt hàng trăm năm mới học được hành vi. Chưa có nhiều nghiên cứu về mức khái quát hóa cao hơn, tức là những nguyên lý giúp học nhiều trò chơi điện tử và còn có thể trực giác học cả game mới
Mục tiêu của dự án lần này không đơn giản là “phá đảo” game Atari mà là phương pháp luận tổng quát có thể áp dụng cho các trò chơi phức tạp hơn hoặc thế giới vật lý. Tuy nhiên về mặt insight nghiên cứu, tôi cho rằng ở giai đoạn hiện tại việc sửa môi trường Atari để thử nghiệm theo kiểu thời gian thực, v.v. còn hiệu quả hơn là đưa ngay các trò chơi phức tạp vào
Việc dự định công bố mã nguồn mở là rất tuyệt. Chơi thời gian thực trên GPU laptop bằng bộ điều khiển vật lý và camera là điều mới mẻ, nhưng riêng bản thân nó có mang tính đột phá hay không thì tôi còn nghi ngờ. Nếu nó thực sự vượt trội so với nghiên cứu trước đây về hiệu quả mẫu hay khả năng khái quát hóa thì sẽ rất đáng kinh ngạc
Điều tôi mong muốn là NPC trong game trở nên thông minh hơn
Như phần mở đầu của slide có nhắc đến, tôi có chút tiếc nuối rằng giá như nghiên cứu kiểu này được thực hiện trong môi trường VR thì sao. Nếu có đủ năng lực để tái tạo tốt trong VR các bộ lọc camera JPEG, mô phỏng vật lý, nhiễu, thậm chí cả môi trường mô phỏng robot, thì Carmack chính là người phù hợp nhất. Dùng robot thật là nút thắt cổ chai khổng lồ về thời gian học
Điều này khiến tôi nghĩ tại sao AGI nhất thiết phải có cơ thể vật lý, và vì sao khi tạo ra trí tuệ vượt trội chúng ta lại muốn nó lái xe hay dọn nhà cho mình. Kịch bản thực tế hơn có lẽ là AGI biến mất vào đám mây và gần như phớt lờ con người, giống như trong tiểu thuyết ‘Hyperion’ của Dan Simmons
Không nhất thiết phải là mãi mãi; con người cũng vậy, nếu có thể rời bỏ cơ thể thì chắc hẳn sẽ muốn làm thế ngay. Bị mắc kẹt vĩnh viễn trong giao diện vật lý cũng có mặt bất lợi
Tôi nghĩ một lý do nó hay xuất hiện trong khoa học viễn tưởng là để “AGI không thể nhấn nút nguồn của cơ thể tôi”
Để thảo luận về AGI, tôi thấy ngay cả “khái niệm” là gì chúng ta cũng chưa xác định rõ. Chúng ta vẫn chưa biết quá trình dùng một khái niệm của lĩnh vực này sang lĩnh vực khác, hay cách bộ não kết hợp ý tưởng và trừu tượng hóa, thực chất là gì
Như một ví dụ thực nghiệm, nếu OpenAI AGI thực sự đã rất gần thì đáng lẽ nên hỏi tại sao họ lại lãng phí thời gian và chi phí vào việc mua lại startup phần cứng do Ive điều hành. Nếu họ muốn làm robot, hoặc nếu thực sự có AGI hàng đầu, thì vô số công ty sẽ tự kéo đến xin cấp phép phần cứng/phần mềm, và như vậy bản thân nó đã có thể tạo ra doanh thu vô hạn
Chỉ AGI thôi là chưa đủ. Dù có đặt AGI vào giao diện ChatGPT, để thật sự tác động đến thế giới thực thì AGI phải hiện diện “ở khắp mọi nơi”
Nếu là công ty đang tiến gần đến AGI, họ cũng hoàn toàn có thể cố tình không lộ thông tin để tránh sự giám sát từ chính phủ hay quân đội. Việc giành AGI trước người khác mang rủi ro lớn
Tôi muốn gợi ra hướng rằng AGI thậm chí có thể làm được cả thiết kế sản phẩm
Tôi nghĩ hướng nghiên cứu mà Carmack chọn là đúng. Chúng ta cần vượt qua kiểu học chỉ bằng ngôn ngữ như hiện nay. AI cần tính nhập thể
Việc huấn luyện AI một cách nghiêm túc bằng nhiều loại dữ liệu ngoài ngôn ngữ thực ra đã diễn ra từ vài năm trước. Các mô hình frontier mới nhất đang được huấn luyện đa phương thức trong cùng một mô hình với văn bản, âm thanh, video, hình ảnh, v.v. (Gemini, GPT-4o, Grok 3, Claude 3, Llama 4, v.v.). Mọi đầu vào đều được token hóa và xử lý trong không gian embedding dùng chung
Từ góc nhìn cho rằng AI cần tính vật lý, điều thú vị là trước đây chính Carmack từng nhấn mạnh rằng môi trường mô phỏng phù hợp hơn cho phát triển AI và môi trường vật lý thì kém hiệu quả về mặt thực tế
Nvidia cũng có cùng quan điểm. Jim Fan có nói về “bài kiểm tra Turing vật lý” và tương lai của embodied AI. Video bài nói chuyện của Jim Fan. Ngay trong đó cũng nhấn mạnh rằng cần lượng tài nguyên tính toán khổng lồ để chạy được các môi trường mô phỏng vững chắc
Câu nói “Tôi là người mới trong cộng đồng nghiên cứu nên đã để tâm” dường như ngụ ý khả năng nộp bài báo