Richard Sutton và Andrew Barto đoạt Giải Turing 2024

(awards.acm.org)

1 điểm bởi GN⁺ 2025-03-06 | 1 bình luận | Chia sẻ qua WhatsApp

ACM đã chọn Andrew G. Barto và Richard S. Sutton, những người đặt nền móng khái niệm và thuật toán cho học tăng cường, là chủ nhân Giải ACM A.M. Turing Award 2024
Từ thập niên 1980, hai ông đã chính thức hóa học dựa trên phần thưởng thành một khung bài toán tổng quát, đồng thời phát triển các cách tiếp cận hoạt động được ngay cả khi môi trường và phần thưởng chưa được biết trước
Những đóng góp cốt lõi dẫn tới học sai phân thời gian, các phương pháp policy gradient, biểu diễn hàm dựa trên mạng nơ-ron, và thiết kế tác tử kết hợp học với lập kế hoạch
Giáo trình năm 1998 Reinforcement Learning: An Introduction đã được trích dẫn hơn 75.000 lần, ảnh hưởng tới AlphaGo, RLHF của ChatGPT, thao tác robot, kiểm soát tắc nghẽn mạng, thiết kế chip, v.v.
Giải Turing, với sự hỗ trợ của Google, trao tiền thưởng 1 triệu USD; ACM cho rằng học tăng cường đã đóng góp cả cho sự phát triển của AI lẫn việc hiểu cách bộ não hoạt động

Người đoạt giải và lý do được chọn

ACM đã chọn Andrew G. Barto và Richard S. Sutton là chủ nhân Giải ACM A.M. Turing Award 2024
Lý do được chọn là công lao phát triển nền tảng khái niệm và thuật toán của học tăng cường
Từ thập niên 1980, hai ông đã đưa các ý tưởng cốt lõi của học tăng cường vào các bài báo, xây dựng nền tảng toán học và các thuật toán chủ chốt
Barto là Giáo sư danh dự ngành Information and Computer Sciences tại University of Massachusetts, Amherst
Sutton là Giáo sư khoa học máy tính tại University of Alberta, nhà khoa học nghiên cứu tại Keen Technologies, và thành viên của Amii(Alberta Machine Intelligence Institute)
ACM A.M. Turing Award được gọi là “Giải Nobel của ngành điện toán”, với tiền thưởng 1 triệu USD nhờ sự hỗ trợ tài chính của Google, Inc.

Bài toán mà học tăng cường giải quyết

Trí tuệ nhân tạo nhìn chung là lĩnh vực tạo ra các tác tử cảm nhận môi trường và hành động
Một tác tử thông minh hơn phải chọn được lộ trình hành động tốt hơn; việc đánh giá hành động nào tốt hơn hành động khác nằm ở trung tâm của AI
Phần thưởng(reward) là thuật ngữ xuất phát từ tâm lý học và khoa học thần kinh, chỉ tín hiệu được cung cấp liên quan đến chất lượng hành động của tác tử
Học tăng cường là quá trình học cách hành động thành công hơn dựa trên tín hiệu phần thưởng này
Trong bài báo năm 1950 “Computing Machinery and Intelligence”, Alan Turing đã bàn về câu hỏi “Máy móc có thể suy nghĩ không?” và đề xuất cách tiếp cận học máy dựa trên thưởng và phạt
Arthur Samuel đã phát triển một chương trình chơi cờ đam học bằng cách tự đấu vào cuối thập niên 1950, nhưng trong nhiều thập kỷ sau đó, dòng AI này hầu như không có tiến bộ lớn

Đóng góp kỹ thuật của Barto và Sutton

Đầu thập niên 1980, Barto và Sutton, khi đó là nghiên cứu sinh tiến sĩ, bắt đầu chính thức hóa học tăng cường thành một khung bài toán tổng quát, lấy cảm hứng từ các quan sát trong tâm lý học
Hai ông sử dụng nền tảng toán học của quá trình quyết định Markov(MDP)
- Trong MDP, tác tử đưa ra quyết định trong một môi trường xác suất
- Sau mỗi chuyển tiếp, tác tử nhận tín hiệu phần thưởng, với mục tiêu tối đa hóa tổng phần thưởng tích lũy dài hạn
Lý thuyết MDP tiêu chuẩn giả định mọi thông tin đều được tác tử biết trước, nhưng khung học tăng cường cũng xử lý các tình huống môi trường và phần thưởng chưa được biết
Do yêu cầu thông tin thấp và khung MDP có tính tổng quát, học tăng cường có thể được áp dụng cho nhiều bài toán khác nhau
Thông qua nghiên cứu chung và các hợp tác tiếp theo, Barto và Sutton đã phát triển nhiều cách tiếp cận thuật toán học tăng cường nền tảng
- Đóng góp quan trọng nhất là học sai phân thời gian(temporal difference learning), tạo ra bước tiến lớn trong việc giải bài toán dự đoán phần thưởng
- Các phương pháp policy gradient(policy-gradient methods) cũng nằm trong các cách tiếp cận chủ chốt
- Hai ông phát triển cách tiếp cận dùng mạng nơ-ron làm công cụ biểu diễn các hàm đã học
- Họ cũng đề xuất thiết kế tác tử kết hợp học và lập kế hoạch, trong đó tác tử thu nhận tri thức về môi trường để làm cơ sở cho lập kế hoạch

Ảnh hưởng nối tiếp tới giáo trình và học tăng cường sâu

Giáo trình năm 1998 Reinforcement Learning: An Introduction vẫn là tài liệu tham khảo chuẩn của lĩnh vực và đã được trích dẫn hơn 75.000 lần
Giáo trình này đã giúp hàng nghìn nhà nghiên cứu hiểu và đóng góp cho học tăng cường, khi đó còn là một lĩnh vực mới nổi, và hiện vẫn ảnh hưởng tới hoạt động nghiên cứu khoa học máy tính
Dù các thuật toán của Barto và Sutton đã được phát triển từ nhiều thập kỷ trước, trong 15 năm gần đây, việc kết hợp học tăng cường với các thuật toán học sâu đã tạo ra những tiến bộ lớn trong ứng dụng thực tế
Sự kết hợp này dẫn tới các kỹ thuật học tăng cường sâu(deep reinforcement learning)
Các thuật toán học sâu được giới thiệu là do Bengio, Hinton và LeCun, những người đoạt Giải Turing 2018, tiên phong

Trường hợp ứng dụng và mở rộng nghiên cứu

Một ví dụ tiêu biểu của học tăng cường là việc AlphaGo đánh bại các kỳ thủ cờ vây hàng đầu thế giới vào năm 2016 và 2017
ChatGPT cũng nằm trong các thành tựu lớn
- ChatGPT là một mô hình ngôn ngữ lớn được huấn luyện qua hai giai đoạn
- Ở giai đoạn thứ hai, mô hình sử dụng học tăng cường từ phản hồi của con người(RLHF) để nắm bắt kỳ vọng của con người
Trong lĩnh vực robot, có các ví dụ về thao tác robot trong lòng bàn tay và giải khối Rubik vật lý
- Chúng cho thấy dù học tăng cường được thực hiện trong mô phỏng, nó vẫn có thể thành công trong thế giới thực vốn khác biệt đáng kể
Các lĩnh vực ứng dụng khác bao gồm kiểm soát tắc nghẽn mạng, thiết kế chip, quảng cáo Internet, tối ưu hóa, tối ưu hóa chuỗi cung ứng toàn cầu, cải thiện hành vi và năng lực suy luận của chatbot, và cải tiến thuật toán nhân ma trận
Các kỹ thuật lấy cảm hứng từ khoa học thần kinh cũng tác động ngược trở lại khoa học thần kinh
- Các nghiên cứu gần đây, trong đó có nghiên cứu của Barto, cho rằng một số thuật toán học tăng cường được phát triển trong AI là lời giải thích tốt nhất cho nhiều phát hiện liên quan đến hệ dopamine của não người

Đánh giá của ACM và Google

Chủ tịch ACM Yannis Ioannidis đánh giá rằng nghiên cứu của Barto và Sutton cho thấy tiềm năng áp dụng cách tiếp cận liên ngành cho những bài toán lâu đời của điện toán
Khoa học nhận thức, tâm lý học và khoa học thần kinh đã truyền cảm hứng cho sự phát triển của học tăng cường, còn học tăng cường cung cấp nền tảng cho những bước tiến quan trọng của AI cũng như hiểu biết sâu hơn về cách bộ não hoạt động
Ioannidis cho biết học tăng cường không phải là một bàn đạp đã qua, mà vẫn đang tiếp tục phát triển và mang lại tiềm năng cho những tiến bộ tiếp theo trong điện toán và nhiều lĩnh vực khác
Phó chủ tịch cấp cao của Google Jeff Dean trích lời Alan Turing trong một bài giảng năm 1947: “Điều chúng ta muốn là những cỗ máy có thể học từ kinh nghiệm”
Dean đánh giá rằng học tăng cường do Barto và Sutton tiên phong đã trực tiếp trả lời bài toán của Turing, là trục cốt lõi của tiến bộ AI trong vài thập kỷ qua và vẫn là một trụ cột trung tâm của làn sóng bùng nổ AI

Tiểu sử người đoạt giải

Andrew Barto là Giáo sư danh dự tại khoa Information and Computer Sciences của University of Massachusetts, Amherst
- Ông bắt đầu sự nghiệp năm 1977 với tư cách nghiên cứu viên sau tiến sĩ tại UMass Amherst
- Sau đó ông từng giữ các vị trí Associate Professor, Professor, Department Chair, v.v.
- Ông nhận bằng cử nhân toán học tại University of Michigan, cùng bằng thạc sĩ và tiến sĩ ngành Computer and Communication Sciences
- Ông nhận UMass Neurosciences Lifetime Achievement Award, IJCAI Award for Research Excellence, IEEE Neural Network Society Pioneer Award
- Ông là IEEE Fellow và AAAS Fellow
Richard Sutton là Giáo sư khoa học điện toán tại University of Alberta, nhà khoa học nghiên cứu tại Keen Technologies, một công ty trí tuệ nhân tạo tổng quát có trụ sở ở Dallas, và Cố vấn khoa học trưởng của Amii
- Từ năm 2017 đến 2023, ông là DeepMind Distinguished Research Scientist
- Từ năm 1998 đến 2002, ông làm Principal Technical Staff Member tại bộ phận AI của AT&T Shannon Laboratory
- Việc hợp tác với Barto bắt đầu năm 1978 tại University of Massachusetts at Amherst; Barto là người hướng dẫn tiến sĩ và sau tiến sĩ của Sutton
- Ông nhận bằng cử nhân tâm lý học tại Stanford University, cùng bằng thạc sĩ và tiến sĩ ngành Computer and Information Science tại University of Massachusetts at Amherst
- Ông nhận IJCAI Research Excellence Award, Canadian Artificial Intelligence Association Lifetime Achievement Award, University of Massachusetts at Amherst Outstanding Achievement in Research Award
- Ông là fellow của Royal Society of London, Association for the Advancement of Artificial Intelligence và Royal Society of Canada

1 bình luận

GN⁺ 2025-03-06

Ý kiến trên Hacker News

Thấy tin này thật vui. Hóa ra vợ chồng tôi đã mua nhà của vợ chồng Andy Barto
Trong quá trình mua có cạnh tranh trả giá, và họ bảo “hãy đưa ra đề nghị tốt nhất”, nên biết ông ấy là nhà toán học, tôi đã đưa ra một đề nghị bằng một số nguyên tố. Thật tuyệt khi thấy những đóng góp của ông ấy được ghi nhận
- Lẽ ra có thể đùa rằng: “Công bằng với nhau nhé, 2 đô la thì sao?”
- “Một số nguyên tố” là $12345678910987654321 à?
- Câu chuyện quá đỉnh. Tò mò không biết số nguyên tố đó là bao nhiêu
Tuyệt vời, và hoàn toàn xứng đáng. Cả hai bản của giáo trình học tăng cường đều đã được công bố miễn phí dưới dạng PDF
Tôi làm thực hành AI có lương từ năm 1982, nhưng học tăng cường là một chủ đề mà cá nhân tôi thấy khó tự học; cuốn Sutton/Barto và khóa học Reinforcement Learning trên Coursera của các giáo sư White đã giúp ích rất nhiều. Rất khuyên nên xem
Chương trình ví dụ của sách được cung cấp bằng Common Lisp và Python: http://incompleteideas.net/book/the-book-2nd.html
Giờ là lúc thích hợp để đọc lại The Bitter Lesson: https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson...
- URL chính thức ở đây: <http://www.incompleteideas.net/IncIdeas/BitterLesson.html>
- Đó thật sự là một bài học cay đắng. Trước đây, việc mã hóa tri thức của con người vào máy tính từng rất thú vị, và nhờ vậy ta có thể hiểu chuyện gì đang diễn ra
  Giờ đây mọi thứ đang trở thành những hộp đen khổng lồ khó suy luận. Ngoài ra, Định luật Moore đã trở thành một lời tiên tri tự hoàn thành. AI đẩy nhu cầu năng lực tính toán lên rất mạnh, khiến các hãng chip phải tạo ra phần cứng chuyên dụng, và điều này đang quay như một bánh đà
- Cũng còn tùy mục tiêu của nghiên cứu AI là gì. Nếu mục tiêu là tạo ra những cỗ máy làm tốt các công việc từng được cho là chỉ trí tuệ con người mới làm được hoặc mới cần thiết, thì bài học cay đắng này rất đáng giá
  Nhưng nếu mục đích là dạy máy làm X đồng thời hiểu con người làm X như thế nào, thì các cấu trúc thống kê ngày càng phức tạp chỉ cung cấp lượng thông tin hạn chế. Tôi không đứng về bên nào, chỉ muốn nói có thể cần một cách tiếp cận tinh tế hơn
- Trong thị giác máy tính cũng từng có xu hướng tương tự. Các phương pháp ban đầu xử lý thị giác bằng cách tìm cạnh, generalized cylinders, đặc trưng SIFT, nhưng ngày nay những thứ đó đã bị bỏ lại, và các mạng nơ-ron học sâu hiện đại làm tốt hơn nhiều chỉ với tích chập và một số bất biến nhất định
  Tôi đã có mặt trong ngành đúng lúc pattern matching bắt đầu chết dần trong thị giác. Nó chưa biến mất hoàn toàn, và những gì học được khi đó đến nay vẫn hữu ích ở nơi khác
- Nghĩ đến bài học cay đắng mà các chuyên gia xử lý ngôn ngữ tự nhiên cổ điển hẳn đã học được thì thấy choáng. Bài viết đó đến nay vẫn đúng
Cuốn Reinforcement Learning: An Introduction của họ là một trong những tài liệu dễ tiếp cận nhất trong lĩnh vực AI/machine learning, nên tôi cực kỳ khuyến nghị
- Tôi từng cố đi vào mảng học tăng cường, nhưng lúc nào cũng cảm thấy những công thức và đủ thứ có dấu sao vượt xa trình độ của mình
- Tò mò không biết nền tảng của bạn thế nào. Tiếc là tôi không thấy cuốn đó dễ tiếp cận lắm
- Cuốn đó đọc rất thú vị. Rất khuyên nên đọc
- Cuốn bạn nói là Reinforcement Learning: An Introduction à? Hay họ còn viết cuốn khác?
Để cân bằng thì đáng lẽ nên trao cho các nhà vật lý
Cần nhắc rằng Sutton là một người theo chủ nghĩa kế thừa nhân loại và là người không bận tâm nếu toàn bộ loài người chết đi. Ông ấy không phải đối tượng đáng tin hay đáng tôn vinh: https://www.youtube.com/watch?v=NgHFMolXs3U
- Giải thưởng của ACM được trao cho thành tựu học thuật chuyên môn của họ. Nên dừng nỗi ám ảnh đào bới đời tư của ai đó để tìm phần họ nói kỳ quặc nhất, rồi dùng nó phủ bóng ác lên toàn bộ thành tựu cả đời của họ
  Thật ngu ngốc và nguy hiểm khi ai cũng có thể phủ nhận những thành tựu cao quý về B có thể thay đổi thế giới chỉ vì họ không thích A và người đó từng nói hoặc làm A. Internet đặt phán đoán của những người am hiểu vấn đề lên cùng trọng lượng với sự ác cảm đơn thuần. Tôi tức giận vì cách này đang chia rẽ con người ở quy mô lớn hơn
- Bạn đã từng gặp trực tiếp Sutton chưa? Ông ấy gần như là hippie ấm áp, chu đáo và nhiệt huyết nhất trong số những người tôi từng gặp. Ông ấy không mong mọi con người đều chết
  Bài nói chuyện bạn liên kết cũng không ủng hộ lập luận đó. Nếu tôi bỏ sót, hãy để lại timestamp. Trong bài nói, ông ấy nói điều đó sẽ dẫn tới một kỷ nguyên thịnh vượng, dù nhân loại sẽ không còn đơn độc kiểm soát vận mệnh của mình. Slide kết luận ở 12:33 viết đúng nghĩa đen một mục là “hy vọng tốt nhất cho tương lai dài hạn của nhân loại”. Điều đó đối lập hoàn toàn với “không bận tâm nếu toàn bộ loài người chết đi”
  Việc tôi chuẩn bị cho sự kế thừa không có nghĩa là tôi muốn hay kỳ vọng con gái mình giết tôi. Tôi mong được nghỉ hưu khỏe mạnh, sống lâu, rồi lặng lẽ ra đi khi biết rằng mình đã để lại cho con gái những gì tốt nhất có thể trong mối quan hệ cộng sinh với vũ trụ
- “Không bận tâm nếu toàn bộ loài người chết đi” có vẻ là cách diễn đạt khắc nghiệt và dễ gây hiểu lầm về lập trường của ông ấy
  Theo tôi, ông ấy gần với niềm tin rằng con người cuối cùng sẽ bị transhuman thay thế, và điều đó là không thể tránh khỏi. Nó giống một kiểu chủ nghĩa không tưởng khoa học viễn tưởng thô ráp hơn là ác ý, và dường như không phải lý do để không tôn vinh thành tựu học thuật của ông ấy
- Việc nêu ra quan điểm đó thì thú vị, nhưng tôi không hiểu vì sao chỉ vì ai đó có quan điểm mà ta không đồng ý thì không được tin tưởng hay tôn vinh họ
  Đặc biệt, hàm ý rằng Sutton chủ động mong mọi người chết có vẻ rất thiếu cơ sở
- Slide cuối của ông ấy viết đúng nghĩa đen “hy vọng tốt nhất cho tương lai dài hạn của nhân loại”. Nó hoàn toàn trái ngược với cáo buộc đó
Tôi đã dùng cuốn sách học tăng cường của họ trong lớp mình dạy. Văn phong đẹp và được mở miễn phí: http://incompleteideas.net/book/the-book-2nd.html
Câu văn hay đến mức có lúc tôi mải đọc mà bỏ lỡ nội dung thực sự
Xin chúc mừng nồng nhiệt Andrew Barto và Richard Sutton đã nhận Turing Award. Khi còn là sinh viên, Reinforcement Learning: An Introduction là cánh cổng đưa tôi vào lĩnh vực này
Đặc biệt, Chương 6 Temporal Difference Learning đã thay đổi căn bản cách nhìn của tôi về ra quyết định tuần tự. Đây là một tác phẩm kinh điển vượt thời gian mà tôi đến nay vẫn rất khuyên nên đọc
Đây là một giải thưởng đã chờ rất lâu. Họ đã theo đuổi một ý tưởng từ đầu đến cuối, biến nó không còn là một tiểu mục trong sách về quy hoạch động, mà thành cả một lĩnh vực riêng
Tôi mong học tăng cường được dùng nhiều hơn nữa trong game, cũng là nơi tất cả những điều này khởi đầu. Chắc sẽ tuyệt lắm
Giải thưởng xứng đáng. Học tăng cường sẽ ngày càng quan trọng hơn nhờ tính linh hoạt mà nó có cùng với mạng nơ-ron
Khi quy mô tiếp tục tăng, bài học cay đắng có lẽ cũng sẽ không còn cảm thấy cay đắng đến thế

Richard Sutton và Andrew Barto đoạt Giải Turing 2024

Người đoạt giải và lý do được chọn

Bài toán mà học tăng cường giải quyết

Đóng góp kỹ thuật của Barto và Sutton

Ảnh hưởng nối tiếp tới giáo trình và học tăng cường sâu

Trường hợp ứng dụng và mở rộng nghiên cứu

Đánh giá của ACM và Google

Tiểu sử người đoạt giải

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News