- Chỉ ra giới hạn khái quát hóa của mô hình AI và độ lệch của huấn luyện lấy học tăng cường (RL) làm trung tâm, đồng thời giải thích vì sao các hệ thống hiện tại không thể tư duy linh hoạt như con người
- Tiền huấn luyện (pre-training) giúp thu nhận tri thức tự nhiên từ lượng dữ liệu khổng lồ, nhưng bị đánh giá là còn thiếu năng lực thích nghi trong môi trường thực tế
- Chẩn đoán rằng kỷ nguyên mở rộng (2012~2025) đã kết thúc, và hiện là thời điểm cần đến những nguyên lý học tập mới cùng đổi mới lấy nghiên cứu làm trung tâm
- SSI đặt mục tiêu tạo ra các mô hình có năng lực học ở cấp độ con người bằng cách kết hợp học liên tục (continual learning) với học thông qua triển khai trong thế giới thực
- Từ góc nhìn rằng AI cần tích hợp “cảm xúc và hàm giá trị”, “năng lực khái quát hóa” và “căn chỉnh đạo đức (alignment)”, bài viết đưa ra định hướng cho nghiên cứu AI trong tương lai
Tính bất ổn của mô hình và vấn đề khái quát hóa
- Các mô hình AI hiện nay rất giỏi trong đánh giá (evals), nhưng trong môi trường thực tế lại bộc lộ “độ gập ghềnh (jaggedness)” với các lỗi lặp đi lặp lại
- Ví dụ, khi được yêu cầu sửa mã, mô hình có thể sửa một lỗi nhưng lại tạo ra lỗi khác
- Phân tích cho rằng huấn luyện RL bị tối ưu quá mức theo một số chỉ số đánh giá nhất định, từ đó làm suy giảm năng lực khái quát hóa
- So với cách con người học, mô hình được ví như “một học sinh thi lập trình đối kháng” bị quá khớp với một số dạng bài cụ thể nên khả năng ứng dụng thực tế bị hạn chế
Cảm xúc và hàm giá trị (Value Function)
- Hệ thống cảm xúc của con người đóng vai trò cốt lõi trong ra quyết định, và được diễn giải như đối ứng sinh học của hàm giá trị
- Thông qua các trường hợp con người thiếu hụt cảm xúc, ông nhấn mạnh rằng cảm xúc là yếu tố thiết yếu cho phán đoán và học tập hiệu quả
- Học tăng cường hiện tại chỉ phụ thuộc vào phần thưởng cuối cùng, nhưng hàm giá trị cho phép phản hồi ở các bước trung gian, nhờ đó nâng cao hiệu quả học tập
- Điều này hàm ý rằng AI trong tương lai cần đưa vào cấu trúc hàm giá trị có khả năng điều tiết cảm xúc
Từ kỷ nguyên mở rộng sang kỷ nguyên nghiên cứu
- Giai đoạn 2012~2020 được chia là thời kỳ phát triển lấy nghiên cứu làm trung tâm, còn 2020~2025 là thời kỳ phát triển lấy mở rộng làm trung tâm
- Việc mở rộng đơn thuần dữ liệu, tham số và compute đã chạm tới giới hạn, và giờ là lúc cần tìm kiếm những công thức học tập mới
- RL nổi lên như một trục mở rộng mới, nhưng sử dụng tài nguyên hiệu quả và các nguyên lý học tập mới mới là bài toán cốt lõi của giai đoạn tiếp theo
- Với tuyên bố “giờ là lúc quay trở lại kỷ nguyên nghiên cứu”, ông nhấn mạnh sự cần thiết của đổi mới căn bản vượt ra ngoài việc chỉ scale mô hình
Năng lực khái quát hóa và hiệu quả học tập của con người
- Con người học nhanh với ít dữ liệu, và điều này được giải thích là nhờ tri thức tiên nghiệm do tiến hóa (prior) cùng hàm giá trị hiệu quả
- Việc con người vẫn học rất tốt trong các lĩnh vực không liên quan đến tiến hóa như ngôn ngữ, toán học hay lập trình cho thấy có tồn tại những nguyên lý học tập nền tảng
- Con người học thông qua tự phản hồi và tự sửa sai (self-correction), và điều này có được nhờ độ vững chắc của hàm giá trị nội tại
- Sutskever cho biết có tồn tại cách để hiện thực hóa nguyên lý học tập ở cấp độ con người, nhưng không công bố chi tiết
Chiến lược của SSI và cách tiếp cận siêu trí tuệ
- SSI đang vận hành theo định hướng nghiên cứu với nguồn vốn quy mô $3B, tập trung vào nghiên cứu nền tảng hơn là sản phẩm
- Công ty duy trì chiến lược “đi thẳng tới siêu trí tuệ (superintelligence straight shot)”, đồng thời có kế hoạch song hành công bố dần từng bước và học thông qua triển khai
- Mục tiêu là “AI có thể học mọi việc”, tức không phải một kho tri thức hoàn chỉnh mà là người học liên tục (super learner)
- Ông cho rằng nếu các mô hình như vậy được triển khai trên toàn nền kinh tế thì có thể dẫn tới tăng trưởng kinh tế đột biến
Căn chỉnh (Alignment) và an toàn
- Vấn đề cốt lõi của AI là “quyền lực (power)”, và hệ thống càng mạnh thì triển khai từng bước cùng phản hồi thời gian thực càng quan trọng
- Ông dự đoán trong tương lai nghiên cứu an toàn mang tính hợp tác giữa các công ty AI và sự can thiệp mạnh hơn của chính phủ sẽ là điều không thể tránh khỏi
- SSI nhắm tới một AI biết quan tâm tới “sự sống có tri giác (sentient life)”, và cho rằng mục tiêu này khả thi hơn so với căn chỉnh hoàn toàn lấy con người làm trung tâm
- Ông đề xuất cần giới hạn sức mạnh của siêu trí tuệ hoặc kiểm soát nó thông qua các thỏa thuận lẫn nhau
Đồng tiến hóa người-AI và cân bằng dài hạn
- Về dài hạn, ông đưa ra kịch bản rằng con người sẽ cần kết hợp với AI (Neuralink++) thì mới có thể hiểu và kiểm soát nó
- Ông nhắc tới bí ẩn thần kinh học về cách ham muốn xã hội và cảm xúc của con người đã được mã hóa ở cấp độ cao như thế nào qua tiến hóa
- Điều này gợi ý rằng cấu trúc ham muốn ở cấp độ cao đó có thể trở thành manh mối cho nghiên cứu căn chỉnh AI
Bản sắc của SSI và điểm khác biệt công nghệ
- SSI là một “công ty lấy nghiên cứu làm trung tâm”, đặt khám phá các nguyên lý khái quát hóa làm mục tiêu cốt lõi
- Khác với các công ty khác, SSI theo đuổi các cách tiếp cận kỹ thuật mới, đồng thời dự đoán rằng trong tương lai các chiến lược căn chỉnh sẽ hội tụ (convergence)
- Ông dự báo trong 5~20 năm tới sẽ xuất hiện người học ở cấp độ con người, sau đó thị trường sẽ chứng kiến sự chuyên môn hóa và phân hóa thông qua cạnh tranh
Tự đấu với chính mình (Self-play) và đa tác tử
- Self-play được đánh giá là một phương pháp thú vị có thể học chỉ bằng compute mà không cần dữ liệu
- Tuy nhiên, nó cũng có giới hạn là chủ yếu áp dụng cho các kỹ năng mang tính xã hội như đàm phán hay chiến lược
- Gần đây, hướng này phát triển thành các cấu trúc như Prover–Verifier hay LLM-as-a-Judge, mở ra khả năng đảm bảo tính đa dạng thông qua cạnh tranh giữa các tác tử
Gu nghiên cứu (Research Taste)
- Nghiên cứu xuất sắc phải đồng thời có “vẻ đẹp, sự đơn giản và nguồn cảm hứng đúng đắn trong não bộ”
- Cần lấy cảm hứng từ não người, nhưng điều quan trọng là mô phỏng chính xác cấu trúc bản chất
- Ông giải thích rằng niềm tin từ trên xuống vào các khái niệm cấp cao (top-down belief), hơn là kết quả thực nghiệm từ dưới lên, mới là động lực giúp duy trì nghiên cứu
Tóm tắt: Ilya Sutskever tuyên bố rằng “kỷ nguyên lấy mở rộng làm trung tâm đã kết thúc, và giờ đây kỷ nguyên nghiên cứu xoay quanh khái quát hóa, học liên tục và căn chỉnh đã bắt đầu”, đồng thời nhấn mạnh rằng SSI đang đứng ở trung tâm của sự chuyển đổi đó.
1 bình luận
Ý kiến trên Hacker News
Điều gây bối rối là các mô hình dạo này trông thông minh hơn rất nhiều so với tác động kinh tế thực tế của chúng
Tôi đã tích hợp AI và thuật toán vào quy trình làm việc của con người suốt 20 năm qua, và những thay đổi kiểu này cần thời gian
Cần có quá trình tìm hiểu cách dùng công cụ và cách hòa nó vào các hệ thống hiện có
Ngay cả khi mô hình không thông minh hơn bây giờ, tôi vẫn nghĩ chỉ sau vài năm nữa sẽ xuất hiện kết quả rõ rệt
Nếu nhân viên đã làm việc hiệu quả sẵn rồi, thì dù AI có tăng tốc công việc, năng suất cũng không tăng nhiều
Ngược lại, nhiều tổ chức lại bố trí dư nhân lực để lấp đầy những “công việc bận rộn”, nên dù khối lượng việc thực tế giảm đi thì đầu ra vẫn có thể giữ nguyên
Tôi không biết đó là giới hạn kỹ thuật hay giới hạn tổ chức
Phần lớn thời gian vẫn được dùng để giải quyết các vấn đề mang tính con người như điều phối ưu tiên hay xây dựng đồng thuận giữa mọi người, chứ không phải vấn đề kỹ thuật
Thời đại học, giáo sư của tôi từng nói “mọi hệ thống đều dành 90% thời gian ở trạng thái hoàn thành 90%”, và đó thật sự là một câu rất đúng
Ví dụ nếu có một mô hình tên là ‘Dave’, thì Microsoft, OpenAI, Meta, Oracle, thậm chí cả chính phủ Mỹ đều sẽ thuê Dave
Cuối cùng thế giới sẽ bị lấp đầy bởi hàng chục bản sao của cùng một kiểu tư duy, và việc mất đi sự đa dạng mới là rủi ro thật sự
Kết nối và cảm quan kinh doanh trở nên quan trọng hơn nghiên cứu
Công chúng sẽ biết đến các thương hiệu như ChatGPT hay Copilot nhiều hơn là các nhà nghiên cứu như Ilya hay Andrej
Rất nhiều công nghệ nền tảng như Wikipedia, OCR, điện toán đám mây... đã tích lũy để làm nên LLM ngày nay, và đây chỉ là một giai đoạn trung gian để đi tới thứ gì đó lớn hơn
Nếu “Era of Scaling” có nghĩa là thời kỳ cải thiện hiệu năng có thể dự đoán được nên dễ gọi vốn đầu tư, thì nó nghe khá giống “AI summer”
Vậy thì “Era of Research” có thể chỉ là một cách nói giảm nói tránh của “AI winter”
Giống như các nhà sáng tạo đi pitch ý tưởng cho Hollywood, sẽ xuất hiện research bounty thay cho bug bounty
Chính tiêu đề dường như được tạo ra nghịch lý một cách có chủ ý
Mô hình đã đủ thông minh rồi, và giờ sẽ là thời của ‘kỷ nguyên nghiên cứu’ và ‘kỷ nguyên kỹ thuật’
Các mùa đông AI trước đây không phải vì không có tiến bộ, mà vì không thể thương mại hóa thành sản phẩm
Có thể sẽ xuất hiện phần cứng giúp tăng tốc huấn luyện và suy luận LLM lên gấp một triệu lần, nhưng AGI thì vẫn còn rất xa
Điều đó khiến người ta phải nghĩ xem AI cần điều kiện gì để tự có cảm xúc hay ham muốn
Có khi các nhà đầu tư sẽ bị hạ xuống thành công cụ của AI
Cụm từ “một sinh thể sinh ra từ biển thông tin” khiến người ta hình dung đến một thời đại mà ký ức của con người và ký ức của AI không còn phân biệt được
Hiệu quả mẫu của con người là kết quả của tiến hóa
Tiến hóa đã thực hiện một lượng học tập khổng lồ, và chúng ta học nhanh nhờ cấu trúc đã được ‘tiền huấn luyện’ đó
Qua nhiều thế hệ, loài người đã nén và truyền lại tri thức, còn các mô hình nhân tạo thì vẫn chưa có được chất lượng dữ liệu tổng hợp ở mức đó
Con người ngay từ khi sinh ra đã tiếp nhận dữ liệu qua giác quan, rồi nén chúng trong lúc ngủ
Dữ liệu mà LLM nhận được nhìn qua có vẻ rất lớn, nhưng so với lượng thông tin một con người trải nghiệm trong 20 năm thì vẫn ít hơn nhiều
Bộ não con người chỉ xử lý có ý thức một phần cực nhỏ đầu vào, nhưng vẫn đi qua một pipeline nén rất phức tạp
Dù vậy, con số này vẫn không bằng quy mô học lặp của machine learning hiện đại
Hai hệ thống này về mặt cấu trúc gần như không có điểm chung
Có lẽ một tagline kiểu “Nhà tư tưởng dẫn dắt của ngành công nghiệp được tài trợ dồi dào nhất thế giới tuyên bố một bước nhảy vọt lớn trở lại giai đoạn thiết kế” sẽ hợp hơn
Đổi mới thực sự của AI dạo này không đến từ việc đơn thuần làm mô hình lớn hơn
Dù điểm benchmark có cao hơn, từ góc nhìn người dùng thì mức cải thiện cảm nhận được lại không lớn
Nó vẫn sai cả những bài toán đơn giản (ví dụ: đếm số chữ cái trong một từ), và đa số mọi người không cần một mô hình có năng lực nghiên cứu cấp tiến sĩ
Giờ đây nghiên cứu thay vì scaling, cùng với việc tích hợp sản phẩm và mô hình, mới là điều quan trọng hơn
Điểm số bài kiểm tra dành cho con người có thể không phản ánh trí thông minh của máy
Vì đặc tính overfitting của não người và của mô hình là khác nhau
Pretraining gần như đã kết thúc, và chi phí tính toán sẽ lớn hơn rất nhiều so với hiện nay
Mô hình chỉ là công cụ để trích xuất và khai thác trí thông minh đó
Thay vì nhìn dòng ký tự như con người, mô hình nhận biết câu dưới dạng chuỗi token số
Tình hình hiện tại giống như việc năm 1996 mọi người bỗng nhiên đều có internet 1Gbps
Tiền đang đổ vào hạ tầng, nhưng lại chưa có killer app kiểu YouTube hay Dropbox nên cảm giác như tiềm năng đang bị lãng phí
Loạt podcast này thật sự rất hay
Đặc biệt là loạt địa chính trị với Sarah Paine của người dẫn, xem trên YouTube cũng rất tuyệt
Câu “hãy quay lại bàn thiết kế” hiện lên trong đầu
Dù hàng nghìn tỷ USD đầu tư không thu hồi được, cuối cùng người nộp thuế vẫn sẽ phải cứu trợ
Trí thông minh của con người có thể không chỉ học từ trải nghiệm cá nhân mà còn từ trải nghiệm của tổ tiên
Ví dụ, cũng có nghiên cứu cho thấy nỗi sợ mà người cha trải qua có thể được truyền tới cả thế hệ cháu
(liên kết bài báo Nature)
Có lẽ vì vậy mà con người có thể khái quát hóa tốt chỉ với ít dữ liệu
Con người phải dự đoán tương lai và khái quát hóa để sinh tồn, nên về mặt tiến hóa đã đạt hiệu quả mẫu rất cao
Nếu scaling đạt tới mức có thể thực hiện nghiên cứu tốt hơn con người, thì scaling và nghiên cứu rốt cuộc sẽ mang cùng một ý nghĩa
Nhưng việc Ilya nói rằng chúng ta vẫn chưa tới mức đó cũng có thể là một phát biểu mang tính chiến lược để gọi vốn đầu tư
So với một thiên tài đơn lẻ, trí tuệ tập thể của toàn nhân loại quan trọng hơn
Không có gì đảm bảo rằng AI dù có thông minh đến đâu cũng sẽ tốt hơn hàng nghìn nhà nghiên cứu
Có vẻ như người ta đang ngộ nhận rằng có thể mở rộng đường cong chữ S một cách lũy thừa vô hạn