Tính sáng tạo và khám phá trong AI theo Rich Sutton
(twitter.com/RichardSSutton)- AI tạo sinh được huấn luyện bằng học có giám sát là các mô hình bắt chước, hành xử tương tự các ví dụ đã thấy; dù hữu ích, chúng vẫn có giới hạn trong việc tạo ra các khám phá mới trong khoa học và toán học
- Trong việc trả lời câu hỏi trên Internet hay tóm tắt tài liệu, sự mới lạ lại thường trở thành ảo giác; câu trả lời tốt đến từ chất lượng của nguồn tư liệu gốc
- Ngay cả trong các trường hợp cần sự mới lạ như tạo tiểu thuyết hay hình ảnh, vẫn khó biết đầu ra gần với dữ liệu huấn luyện đến mức nào; tính ngẫu nhiên có thể tạo ra cái mới nhưng nếu không có đánh giá thì không thể trở thành khám phá tốt
- Các hệ thống như AlphaGo, AlphaZero, GT-Sophy, AlphaFold, AlphaProof, Claude-Code, RL-Lyft tìm ra các kết quả mới và tốt thông qua đánh giá và lưu giữ có chọn lọc
- Nếu muốn có một nhà khoa học AI hoàn chỉnh, cần chia sẻ các mục tiêu tường minh để AI có thể tạo ra, đánh giá và khám phá; cần có tự động hóa sáng tạo và khám phá
Giới hạn và tính hữu ích của AI tạo sinh
- AI tạo sinh là các mô hình bắt chước nhận vào khối lượng lớn ví dụ để tạo văn bản như con người, tạo hình ảnh như nghệ sĩ hoặc tự nhiên, hay tạo video như các video trên Internet
- AI tạo sinh có thể rất hữu ích, nhưng câu đùa cũ rằng “phần tốt thì không mới, còn phần mới thì không tốt” áp dụng đúng với một phần lớn kết quả của nó
- Khi tìm câu trả lời trên Internet hoặc tóm tắt tài liệu, AI không cần phải mới lạ; chất lượng câu trả lời đến từ nguồn tư liệu như tác giả tài liệu hay các bài viết trên Internet
- Nếu câu trả lời của AI thêm điều gì vượt ra ngoài nguồn gốc, đó là ảo giác, và trong đa số trường hợp người dùng không muốn AI bịa ra điều gì
Vấn đề của sự mới lạ, tính ngẫu nhiên và đánh giá
- Khi người dùng không cần sự thật hay hiện thực mà muốn tiểu thuyết và giải trí, thì nhu cầu về sự mới lạ mới trở nên cần thiết như một ngoại lệ
- Có thể yêu cầu AI tạo sinh kể chuyện trước giờ ngủ cho trẻ em hoặc tạo hình ảnh khác với các hình ảnh hiện có trên Internet nhưng vẫn dựa trên nền tảng đó
- Vì Internet quá lớn và có quá nhiều nguồn khả dĩ, trên thực tế rất khó biết câu chuyện, bài thơ hay hình ảnh do AI tạo ra thật sự sáng tạo đến mức nào
- Quá trình xử lý của AI tạo sinh có phần xác suất, nên mỗi quyết định có thể đi theo nhiều hướng và mỗi lần có thể tạo ra một quỹ đạo khác nhau
- Nếu quỹ đạo dựa trên ngẫu nhiên thì nó có thể mới; nếu dựa trên dữ liệu huấn luyện thì nó có thể tốt nhờ chất lượng dữ liệu; nhưng rất khó để vừa mới vừa tốt cùng lúc
Những khám phá cần thiết cho khoa học và toán học
- Dù AI tạo sinh không thể đồng thời vừa tốt vừa mới, điều đó không phải vấn đề chí mạng trong phần lớn ứng dụng; nếu nhanh, rẻ, nhỏ gọn, có thể tùy biến và sao chép thì nó vẫn có thể trở thành một công nghệ mang tính biến đổi
- Trong khoa học và toán học, AI bắt chước đơn thuần là chưa đủ; cần sự sáng tạo thực sự và năng lực khám phá
- Nước đi 37 của AlphaGo, phong cách cờ vua độc đáo của AlphaZero, và năng lực đua xe mô phỏng của GT-Sophy là các ví dụ về việc tìm ra điều gì đó vừa mới vừa tốt
- AlphaFold, AlphaProof và Claude-Code được nêu như các ví dụ đã mang lại tiến bộ thực tế trong khoa học, toán học và lập trình
- RL-Lyft là hệ thống tối ưu hóa cách phân bổ xe cho hành khách trong dịch vụ gọi xe
- Một số mô hình ngôn ngữ đã được tăng cường theo cách vượt ra ngoài AI tạo sinh dựa trên học có giám sát
Ba giai đoạn của khám phá
- Khám phá là quá trình thử nhiều khả năng, xem điều gì hoạt động, rồi giữ lại thứ hoạt động tốt nhất
- Tiến hóa qua chọn lọc tự nhiên, phương pháp khoa học, đời sống hằng ngày và học tập đều vận hành bằng cách thử nghiệm rồi ghi nhớ những gì có hiệu quả
- Trong tâm lý học, điều này được gọi là học bằng công cụ hoặc điều kiện hóa thao tác; trong học máy, nó được gọi là học tăng cường
- Ngay cả trong lập kế hoạch và tìm kiếm tổ hợp, ý tưởng khám phá theo kiểu “tạo ra rồi kiểm thử” cũng có hiệu lực
- Cốt lõi của khám phá là kết hợp ba giai đoạn: biến dị, đánh giá và lưu giữ có chọn lọc
- Chỉ với học có giám sát thì không có cách nào để đánh giá sản phẩm được tạo ra trong lúc chạy; không có đánh giá thì cũng không có lưu giữ có chọn lọc, và vì thế không có khám phá
- Sự mới lạ có thể xuất hiện thoáng qua, nhưng nếu giá trị của nó không được nhận ra thì nó sẽ biến mất và bị đánh mất
Đánh giá, mục tiêu và tính tự chủ
- Khi con người dùng AI tạo sinh để làm ra nhiều bức tranh rồi chọn lấy một bức mình thích, thì hệ thống người + AI đã hoàn tất quá trình khám phá
- Khi có mục tiêu rõ ràng thì việc đánh giá là khả thi: có nước đi dẫn tới chiếu hết, có bước dẫn tới chứng minh, có hành động dẫn tới phần thưởng cao
- Có kiểu gen tạo ra nhiều bản sao hơn, và có lý thuyết giải thích dữ liệu tốt hơn
- Biến dị không nhất thiết phải hoàn toàn ngẫu nhiên; một nhà khoa học giỏi không chọn ngẫu nhiên các lý thuyết để kiểm tra
- Nếu đáp án đã được quyết định hoàn toàn về vị trí của nó thì đó không còn là khám phá; khám phá đòi hỏi bất định
- Cập nhật trọng số bằng lan truyền ngược là có tính quyết định, nhưng các trọng số được khởi tạo bằng những giá trị ngẫu nhiên nhỏ, nên biến dị vẫn tồn tại
- Khởi tạo ngẫu nhiên là một dạng biến dị cần thiết, phải được thực hiện đúng để đạt hiệu năng tốt
- Trong lan truyền ngược, biến dị chỉ xảy ra một lần tại thời điểm khởi tạo mạng, nên hiệu ứng của nó chỉ là tạm thời và về sau mạng có thể mất khả năng học
- “continual backpropagation” thỉnh thoảng khởi tạo lại các nơ-ron ít được sử dụng bằng các trọng số ngẫu nhiên nhỏ để biến dị tiếp tục diễn ra và duy trì tính dẻo
- Khám phá cần có đánh giá đến từ con người hoặc từ các mục tiêu tường minh; tính tự chủ hoàn toàn là khả thi khi các mục tiêu tường minh cung cấp cơ chế đánh giá
- Nếu muốn có đầy đủ năng lực của một nhà khoa học AI, cần chia sẻ mục tiêu để AI có thể tạo ra, đánh giá, khám phá và tham gia vào việc đạt được mục tiêu đó
1 bình luận
Ý kiến trên Hacker News
Cũng như trong lập trình, những ứng dụng thành công nhất không đến từ kết quả của LLM/mô hình sinh thuần túy, mà từ việc khép vòng lặp bằng một harness kiểu tác tử
Vòng lặp tạo sinh-kiểm thử-cải tiến có chọn lọc là hình thức cốt lõi của công việc khoa học, và LLM + học tăng cường với phần thưởng có thể kiểm chứng + phản hồi thực thi từ compiler/terminal mô phỏng quá trình này khá tốt
Điều này gần với vòng lặp phản hồi Fisher/Box được hiện thực trên các hệ thống tính toán hiện đại (https://www-sop.inria.fr/members/Ian.Jermyn/philosophy/writi...), và LLM chỉ là một thành phần trong đó
Giá mà Sutton nói về toàn cảnh hiện nay thay vì chỉ bàn về phía LLM/backprop thì hay hơn; hơi tiếc ở điểm đó. Tôi thực sự tò mò liệu những vòng lặp như vậy có thể tự động hóa việc khám phá ít nhất là một phần hay không
Khám phá còn có nhiều yếu tố khác, và vẫn chưa rõ mô hình/giả thuyết ban đầu đến từ đâu, hay cách chọn cập nhật như thế nào. Gần đây tôi thấy cuốn Patterns of Discovery của Hanson có vẻ nói theo hướng đó, nhưng chưa đọc nên không biết có manh mối mang tính cơ giới nào không
Chỉ dùng học tăng cường thì rất khó chạm tới phần thưởng, nên có một vấn đề lớn là khó học nhiệm vụ chỉ bằng RL thuần túy. Con người cũng giải bài toán khám phá bằng cách kết hợp tín hiệu giám sát từ sách vở với việc tìm tòi khi giải bài, và người hoàn toàn không có giáo dục nền tảng về toán thì dù thông minh đến đâu cũng khó tạo ra kết quả lớn. Bootstrapping vốn là sự tìm kiếm mà chi phí đã được trả từ trước
Nhưng tôi thấy ở đây có vấn đề giống như các thuật toán tiến hóa từng gặp. Ta có thể sinh ra các lời giải ứng viên cho đến khi hết tiền, nhưng vẫn phải đánh giá các lời giải đó. Cần một hàm fitness, mà điều này có nghĩa là ít nhất phải biết hình dạng đại khái của lời giải. Nếu ai biết nghiên cứu nào về các hàm fitness cởi mở hơn thì tôi rất muốn đọc
Vì những giới hạn toán học đó mà LLM có thể không phải con đường dẫn tới AGI thật sự, nhưng ở thời điểm hiện tại thì thành thật mà nói điều đó có vẻ không quá quan trọng
Tôi rất thích cách framing kiểu như: “Những thứ mới được tạo ra phải được đánh giá thì mới thành sáng tạo. Nếu không có đánh giá và lưu giữ kết quả tốt nhất thì sẽ không có gì được tạo ra. Cái mới có thể xuất hiện chốc lát, nhưng nếu giá trị của nó không được nhận ra thì nó sẽ biến mất và bị đánh mất”
Nhiều người trong phần bình luận trên Twitter, và có lẽ cả một số người ở đây nữa, dường như không đọc tiếp sau phần mở đầu. Ông ấy không nói rằng hệ thống AI không thể có sáng tạo và khám phá, mà đang lập luận rằng AI tạo sinh không có harness thì không thể làm được điều đó
Ý ông là cần một hệ thống khác để nhận ra và ghi nhớ giá trị của các ý tưởng mới. Ông cũng đưa ra ví dụ cho thấy bước nhận diện giá trị này có thể được tự động hóa, qua đó đạt tới sáng tạo và khám phá trong một hệ thống hoàn toàn tự động theo đúng định nghĩa của nó
Nếu tôi không bỏ sót gì, thì lập luận này dường như chỉ áp dụng cho thời kỳ tiền huấn luyện ban đầu (ví dụ: GPT 1~4). Chẳng phải các mô hình hậu huấn luyện và học tăng cường rõ ràng đang làm biến dị, đánh giá và lưu giữ có chọn lọc hay sao?
Tôi tò mò liệu đây có phải dấu hiệu cho thấy Keen Tech đang nghiêng về hướng tiếp cận Ineffable Intelligence của David Silver hay không
Tức là có đánh giá và lưu giữ, nhưng không có biến dị hay “lập kế hoạch”
Điều đó không có nghĩa là không thể dùng LLM. AlphaEvolve làm đúng như vậy. Chỉ là nó dùng một bộ lập kế hoạch tiến hóa đơn giản từ bên ngoài. Ý lớn mà ông ấy muốn nói là bộ lập kế hoạch của chúng ta vẫn còn “ngu”, và chúng ta nên đầu tư thêm vào đó
Khi dẫn dắt LLM lặp đi lặp lại trong Claude Code thì người dùng về cơ bản đang đóng vai trò bộ lập kế hoạch bên ngoài, và cách đó cũng hoạt động tốt
Cách đặt vấn đề khi nói về những vấn đề mà AlphaGo và các mô hình AI tạo sinh kiểu này đối mặt có vẻ hơi kỳ lạ
AlphaGo được đánh giá nghiêm ngặt theo tiêu chí do bên ngoài đưa ra, chứ không phải do chính nó tạo ra
Các mô hình AI tạo sinh cũng có thể thành công ở nhiều lĩnh vực nếu được đặt dưới đánh giá nghiêm ngặt từ bên ngoài. Chúng đã thành công trong nhiều lĩnh vực, từ các bài toán lập trình đơn giản, toán học tuyến đầu (gần đây đưa ra phản ví dụ cho một giả thuyết), cho tới việc viết mã kernel tối ưu hơn, và đó là điểm đặc biệt đáng kinh ngạc
Ở những lĩnh vực mà lời giải cực kỳ phức tạp nhưng việc đánh giá lại tương đối ít phức tạp hơn, học tăng cường cũng xuất hiện nhiều, và việc khám phá cùng lựa chọn quỹ đạo kiểu “na ná tiến hóa” cũng thực sự diễn ra
Vì vậy so sánh với AlphaGo là điều khá lạ. AlphaGo nhận một đánh giá nghiêm ngặt, độc lập với chính nó, do con người như một nguồn bên ngoài đưa ra, trong một lĩnh vực hẹp. AI tạo sinh cũng có thể cho thấy kết quả khá đáng kinh ngạc nếu được cung cấp kiểu đánh giá như vậy
Điều còn lạ hơn là trong nhiều trường hợp, đổi mới và tiến bộ không thực sự đòi hỏi ý tưởng hoàn toàn mới, mà đến từ việc triển khai chồng lớp nhiều phương pháp, chiến thuật và ý tưởng khác nhau với chất lượng cao. Ở nhiều lĩnh vực, tri thức tập thể của chúng ta vừa cực kỳ thưa vừa cực kỳ phức tạp, nên khả năng tái tổ hợp có chọn lọc các công cụ, mô hình và ý tưởng với chất lượng cao là rất mạnh mẽ
Trong một chân trời tìm kiếm hữu hạn về thời gian và tài nguyên, khoảng cách giữa việc “lựa chọn tốt” chiếm 1% và 3% là hai thế giới hoàn toàn khác nhau
Quan trọng nhất, câu chuyện ở trên không phải về trí thông minh, mà là về việc canh tác những lời giải khô cằn cho các vấn đề quan trọng và có giá trị mà chúng ta đang có. Có vẻ phần lớn tranh luận về AGI và trí thông minh đều bỏ lỡ thực tế đơn giản này. Cũng giống như ẩn dụ quen thuộc rằng việc máy bay không bay như chim hay tàu ngầm không bơi không liên quan gì đến tính hữu dụng của chúng
Cuối cùng, bạn thật sự nghĩ rằng các hệ thống này không thể làm tốt hơn trung bình trên những vấn đề mà người bình thường gặp cả đời sao? Trong thực tế mà các kỳ thi vấn đề phổ thông trong khoa học hay y học có thể cấp bằng với mức điểm 60~70%, thì nên định nghĩa trí thông minh của con người như thế nào?
Cũng có những loài chim như hải âu albatross bay mà gần như không vỗ cánh
Tôi xem phần lớn deep learning là khái quát hóa mang tính cấu thành. Mô hình học các mảnh có thể tái sử dụng, tức là các trừu tượng, phong cách, thủ tục, ràng buộc..., rồi tái tổ hợp chúng theo những cách mà toàn bộ tổ hợp đó chưa từng xuất hiện trong dữ liệu huấn luyện
Vì vậy dù nguyên liệu đến từ dữ liệu quá khứ, cấu hình cuối cùng vẫn có thể mới theo một nghĩa có ý nghĩa
Tôi không theo kịp lắm ý chính của ông ấy. a) Ông ấy muốn nói cần một thuật toán nền tảng mới tích hợp trực tiếp mục tiêu, tức “gu”, vào giai đoạn huấn luyện, hay b) muốn nói mô hình đã huấn luyện cần được hướng theo mục tiêu trong quá trình lặp?
Nếu là a) thì ông ấy chưa đề xuất thuật toán như vậy, và tôi cũng không biết phải định lượng mục tiêu trừu tượng ở mức thấp như thế nào. Hay là ông ấy đã đề xuất rồi mà tôi đọc sót? Nếu là b) thì thứ đó đã tồn tại rồi. AlphaEvolve hay nhiều ví dụ ông ấy nhắc tới đều là như vậy, và nói hơi châm chọc thì chỉ cần nhập
/goalrồi chạy là đượcNgoài ra, tôi cho rằng việc nói LLM không thể làm những điều tốt và mới là sai về mặt phạm trù. Nếu chúng làm được thì có thể lại nói “đó không mới, chỉ là phái sinh thôi”, nhưng ví dụ nếu tôi tạo ra một ngôn ngữ lập trình bằng LLM và nó hoạt động rất phù hợp với mục đích của tôi, thì đó chẳng phải là thứ vừa mới vừa tốt sao? Chẳng lẽ ngoài FORTRAN thì mọi ngôn ngữ khác đều không mới?
Mọi thứ đều mang tính phái sinh, và có thể đặt LLM vào trong vòng lặp đánh giá những gì chính LLM đã thử. Ông ấy không phải người chậm chạp đến mức sai như vậy, nên có lẽ tôi đang hiểu nhầm điều gì đó
AlphaGo đánh giá các nước đi khả dĩ và dùng khám phá trong quá trình lặp
Claude Code cũng dùng khám phá khi tạo script rồi đánh giá xem nó có hoạt động hay không
Ý ông ấy là trong khoa học và kỹ thuật cũng nên để hệ thống AI tự đánh giá và lặp như cách nó làm với code
Về cơ bản là kỹ thuật harness cho kỹ thuật
https://youtu.be/ThFq87Rp21s?si=SrKj72_X8bjnB6ED
Khoảng phút 35
Khi dùng những từ như “sáng tạo” để nói về AI thì cần phải rất cụ thể
AI có thể tạo ra nghệ thuật không? Nó có thể tạo ra thứ gì đó dễ chịu về mặt cảm quan. Nhưng rốt cuộc nghệ thuật là việc truyền tải cảm xúc và tình cảm của con người. Ngay cả giữa con người với nhau, việc hiểu nghệ thuật cũng không mang tính phổ quát. “Cảm xúc và tình cảm”, vì vậy nghệ thuật có thể gắn rất sâu với những niềm tin và trải nghiệm được chia sẻ trong một nhóm cụ thể
Nó có thể sáng tạo trong những lĩnh vực phi chủ quan như toán học hay khoa học không? Einstein đã suy ra thuyết tương đối rộng bằng những thí nghiệm tư duy sáng tạo. Nếu AI thử nghiệm nhiều khuôn khổ toán học để giải một vấn đề được bộc lộ qua thực nghiệm rồi đưa ra phương trình trường của thuyết tương đối rộng, thì đó có phải là sáng tạo không? Có lẽ là có, nhưng chắc chắn không theo cùng một cách
Nếu câu hỏi là liệu máy móc có thể tạo ra nghệ thuật hay không, thì rốt cuộc cũng phải có ai đó bật cái máy lên và thiết kế nó để tạo ra nghệ thuật, nên xét cho cùng cũng có thể nói chính người đó hoặc những người đó đang làm ra nghệ thuật
Về mặt lịch sử, câu trả lời cho câu hỏi “x có phải là nghệ thuật không?” cuối cùng lúc nào cũng là “có”. Tôi không hiểu vì sao mọi người cứ tiếp tục rơi vào cùng một cái bẫy
Bài viết về nghệ thuật trên Wikipedia mở đầu như sau
“Art is a diverse range of cultural activity centered around works utilizing creative or imaginative talents, which are expected to evoke a worthwhile experience”
https://en.wikipedia.org/wiki/Art
Vì vậy AI cũng có thể làm nghệ thuật. Chỉ cần nó tạo ra phản ứng cảm xúc ở người tiếp nhận là được
Vấn đề thực tế là khả năng tuân theo prompt của mô hình còn rất hạn chế. Mức độ chi tiết có thể chỉ định trong thiết kế cảnh là quá thô. Vì thế nó có thể tạo ra hiệu ứng “slop” với rất nhiều chi tiết pastiche kiểu lấp chỗ trống, nhưng không thể tạo ra những tác phẩm mà từng đồ vật phụ đều được đặt vào một cách có chủ ý để củng cố thông điệp
https://en.wikipedia.org/wiki/The_Awakening_Conscience
Về cơ bản đây là phiên bản chuyên gia của bài toán “hãy vẽ một con bồ nông đi xe đạp”
Trong một số tình huống, mức độ kiểm soát sáng tạo như vậy là cần thiết, và các trình tạo ảnh hiện tại còn chưa đến gần được mức đó
Và nếu không có sự kiểm soát đó thì không thể đạt tới mức siêu sáng tạo là tạo ra những mỹ học mới trở thành cột mốc văn hóa, như các nghệ sĩ nổi tiếng đã từng và vẫn đang làm
Họ chỉ muốn dopamine. Họ không muốn suy nghĩ vì suy nghĩ thì đau
Tôi không cho rằng machine learning không thể sáng tạo hoặc không thể tạo ra khám phá. Sáng tạo và khám phá rốt cuộc là nghĩ đồng thời về những khái niệm đúng nhưng thoạt nhìn có vẻ rời rạc, còn tư duy thuật toán thì là xử lý những khái niệm có liên quan rõ ràng hơn
Ngay cả không phải LLM, một số mô hình cũng có thể tạo ra các ý tưởng ngẫu nhiên, xếp hạng chúng rồi xuất ra kết quả tốt nhất
Tuy nhiên tôi nghĩ con người giỏi hơn trong những việc như vậy, còn machine learning giỏi hơn trong tư duy thuật toán. Ở đây “giỏi hơn” có nghĩa là hiệu quả hơn và là thứ chúng ta thích làm hơn, đồng thời cũng có thể đánh giá chính xác hơn những gì hấp dẫn một cách chủ quan đối với con người, bao gồm cả chính chúng ta, tức là gu thẩm mỹ
Tôi nghĩ machine learning đòi hỏi nhiều khái quát hóa hơn lập trình, nhưng vẫn chủ yếu nên được tối ưu cho các công việc logic. Như phát triển phần mềm, dịch thuật, và các công cụ phục vụ nghệ thuật cũng như khám phá
Không sao cả. LLM vẫn hữu ích ngay ở hình thái hiện tại. Kể cả nếu nó tuyệt đối không bao giờ đưa ra được thế hệ toán học hay vật lý tiếp theo thì vẫn vậy
Ngay trong loài người, những bộ não tạo ra các bước nhảy vọt theo từng nấc trong tư duy hiếm đến mức chúng ta còn nhớ họ bằng tên
Liên kết thay thế: <https://xcancel.com/RichardSSutton/status/206121608774494665...>
Hiện tại bên tôi đang báo 502 “Bad Gateway”, nhưng có lẽ rồi sẽ hoạt động lại vào lúc nào đó