Ilya Sutskever: Chúng ta đang chuyển từ kỷ nguyên mở rộng sang kỷ nguyên nghiên cứu

(dwarkesh.com)

7 điểm bởi GN⁺ 2025-11-26 | 1 bình luận | Chia sẻ qua WhatsApp

Chỉ ra giới hạn khái quát hóa của mô hình AI và độ lệch của huấn luyện lấy học tăng cường (RL) làm trung tâm, đồng thời giải thích vì sao các hệ thống hiện tại không thể tư duy linh hoạt như con người
Tiền huấn luyện (pre-training) giúp thu nhận tri thức tự nhiên từ lượng dữ liệu khổng lồ, nhưng bị đánh giá là còn thiếu năng lực thích nghi trong môi trường thực tế
Chẩn đoán rằng kỷ nguyên mở rộng (2012~2025) đã kết thúc, và hiện là thời điểm cần đến những nguyên lý học tập mới cùng đổi mới lấy nghiên cứu làm trung tâm
SSI đặt mục tiêu tạo ra các mô hình có năng lực học ở cấp độ con người bằng cách kết hợp học liên tục (continual learning) với học thông qua triển khai trong thế giới thực
Từ góc nhìn rằng AI cần tích hợp “cảm xúc và hàm giá trị”, “năng lực khái quát hóa” và “căn chỉnh đạo đức (alignment)”, bài viết đưa ra định hướng cho nghiên cứu AI trong tương lai

Tính bất ổn của mô hình và vấn đề khái quát hóa

Các mô hình AI hiện nay rất giỏi trong đánh giá (evals), nhưng trong môi trường thực tế lại bộc lộ “độ gập ghềnh (jaggedness)” với các lỗi lặp đi lặp lại
- Ví dụ, khi được yêu cầu sửa mã, mô hình có thể sửa một lỗi nhưng lại tạo ra lỗi khác
Phân tích cho rằng huấn luyện RL bị tối ưu quá mức theo một số chỉ số đánh giá nhất định, từ đó làm suy giảm năng lực khái quát hóa
So với cách con người học, mô hình được ví như “một học sinh thi lập trình đối kháng” bị quá khớp với một số dạng bài cụ thể nên khả năng ứng dụng thực tế bị hạn chế

Cảm xúc và hàm giá trị (Value Function)

Hệ thống cảm xúc của con người đóng vai trò cốt lõi trong ra quyết định, và được diễn giải như đối ứng sinh học của hàm giá trị
Thông qua các trường hợp con người thiếu hụt cảm xúc, ông nhấn mạnh rằng cảm xúc là yếu tố thiết yếu cho phán đoán và học tập hiệu quả
Học tăng cường hiện tại chỉ phụ thuộc vào phần thưởng cuối cùng, nhưng hàm giá trị cho phép phản hồi ở các bước trung gian, nhờ đó nâng cao hiệu quả học tập
Điều này hàm ý rằng AI trong tương lai cần đưa vào cấu trúc hàm giá trị có khả năng điều tiết cảm xúc

Từ kỷ nguyên mở rộng sang kỷ nguyên nghiên cứu

Giai đoạn 2012~2020 được chia là thời kỳ phát triển lấy nghiên cứu làm trung tâm, còn 2020~2025 là thời kỳ phát triển lấy mở rộng làm trung tâm
Việc mở rộng đơn thuần dữ liệu, tham số và compute đã chạm tới giới hạn, và giờ là lúc cần tìm kiếm những công thức học tập mới
RL nổi lên như một trục mở rộng mới, nhưng sử dụng tài nguyên hiệu quả và các nguyên lý học tập mới mới là bài toán cốt lõi của giai đoạn tiếp theo
Với tuyên bố “giờ là lúc quay trở lại kỷ nguyên nghiên cứu”, ông nhấn mạnh sự cần thiết của đổi mới căn bản vượt ra ngoài việc chỉ scale mô hình

Năng lực khái quát hóa và hiệu quả học tập của con người

Con người học nhanh với ít dữ liệu, và điều này được giải thích là nhờ tri thức tiên nghiệm do tiến hóa (prior) cùng hàm giá trị hiệu quả
Việc con người vẫn học rất tốt trong các lĩnh vực không liên quan đến tiến hóa như ngôn ngữ, toán học hay lập trình cho thấy có tồn tại những nguyên lý học tập nền tảng
Con người học thông qua tự phản hồi và tự sửa sai (self-correction), và điều này có được nhờ độ vững chắc của hàm giá trị nội tại
Sutskever cho biết có tồn tại cách để hiện thực hóa nguyên lý học tập ở cấp độ con người, nhưng không công bố chi tiết

Chiến lược của SSI và cách tiếp cận siêu trí tuệ

SSI đang vận hành theo định hướng nghiên cứu với nguồn vốn quy mô $3B, tập trung vào nghiên cứu nền tảng hơn là sản phẩm
Công ty duy trì chiến lược “đi thẳng tới siêu trí tuệ (superintelligence straight shot)”, đồng thời có kế hoạch song hành công bố dần từng bước và học thông qua triển khai
Mục tiêu là “AI có thể học mọi việc”, tức không phải một kho tri thức hoàn chỉnh mà là người học liên tục (super learner)
Ông cho rằng nếu các mô hình như vậy được triển khai trên toàn nền kinh tế thì có thể dẫn tới tăng trưởng kinh tế đột biến

Căn chỉnh (Alignment) và an toàn

Vấn đề cốt lõi của AI là “quyền lực (power)”, và hệ thống càng mạnh thì triển khai từng bước cùng phản hồi thời gian thực càng quan trọng
Ông dự đoán trong tương lai nghiên cứu an toàn mang tính hợp tác giữa các công ty AI và sự can thiệp mạnh hơn của chính phủ sẽ là điều không thể tránh khỏi
SSI nhắm tới một AI biết quan tâm tới “sự sống có tri giác (sentient life)”, và cho rằng mục tiêu này khả thi hơn so với căn chỉnh hoàn toàn lấy con người làm trung tâm
Ông đề xuất cần giới hạn sức mạnh của siêu trí tuệ hoặc kiểm soát nó thông qua các thỏa thuận lẫn nhau

Đồng tiến hóa người-AI và cân bằng dài hạn

Về dài hạn, ông đưa ra kịch bản rằng con người sẽ cần kết hợp với AI (Neuralink++) thì mới có thể hiểu và kiểm soát nó
Ông nhắc tới bí ẩn thần kinh học về cách ham muốn xã hội và cảm xúc của con người đã được mã hóa ở cấp độ cao như thế nào qua tiến hóa
Điều này gợi ý rằng cấu trúc ham muốn ở cấp độ cao đó có thể trở thành manh mối cho nghiên cứu căn chỉnh AI

Bản sắc của SSI và điểm khác biệt công nghệ

SSI là một “công ty lấy nghiên cứu làm trung tâm”, đặt khám phá các nguyên lý khái quát hóa làm mục tiêu cốt lõi
Khác với các công ty khác, SSI theo đuổi các cách tiếp cận kỹ thuật mới, đồng thời dự đoán rằng trong tương lai các chiến lược căn chỉnh sẽ hội tụ (convergence)
Ông dự báo trong 5~20 năm tới sẽ xuất hiện người học ở cấp độ con người, sau đó thị trường sẽ chứng kiến sự chuyên môn hóa và phân hóa thông qua cạnh tranh

Tự đấu với chính mình (Self-play) và đa tác tử

Self-play được đánh giá là một phương pháp thú vị có thể học chỉ bằng compute mà không cần dữ liệu
Tuy nhiên, nó cũng có giới hạn là chủ yếu áp dụng cho các kỹ năng mang tính xã hội như đàm phán hay chiến lược
Gần đây, hướng này phát triển thành các cấu trúc như Prover–Verifier hay LLM-as-a-Judge, mở ra khả năng đảm bảo tính đa dạng thông qua cạnh tranh giữa các tác tử

Gu nghiên cứu (Research Taste)

Nghiên cứu xuất sắc phải đồng thời có “vẻ đẹp, sự đơn giản và nguồn cảm hứng đúng đắn trong não bộ”
Cần lấy cảm hứng từ não người, nhưng điều quan trọng là mô phỏng chính xác cấu trúc bản chất
Ông giải thích rằng niềm tin từ trên xuống vào các khái niệm cấp cao (top-down belief), hơn là kết quả thực nghiệm từ dưới lên, mới là động lực giúp duy trì nghiên cứu

Tóm tắt: Ilya Sutskever tuyên bố rằng “kỷ nguyên lấy mở rộng làm trung tâm đã kết thúc, và giờ đây kỷ nguyên nghiên cứu xoay quanh khái quát hóa, học liên tục và căn chỉnh đã bắt đầu”, đồng thời nhấn mạnh rằng SSI đang đứng ở trung tâm của sự chuyển đổi đó.

1 bình luận

GN⁺ 2025-11-26

Ý kiến trên Hacker News

Điều gây bối rối là các mô hình dạo này trông thông minh hơn rất nhiều so với tác động kinh tế thực tế của chúng
Tôi đã tích hợp AI và thuật toán vào quy trình làm việc của con người suốt 20 năm qua, và những thay đổi kiểu này cần thời gian
Cần có quá trình tìm hiểu cách dùng công cụ và cách hòa nó vào các hệ thống hiện có
Ngay cả khi mô hình không thông minh hơn bây giờ, tôi vẫn nghĩ chỉ sau vài năm nữa sẽ xuất hiện kết quả rõ rệt
- Vấn đề có thể không nằm ở bản thân AI mà ở việc thiếu hiểu biết về cấu trúc kinh tế hiện đại
  Nếu nhân viên đã làm việc hiệu quả sẵn rồi, thì dù AI có tăng tốc công việc, năng suất cũng không tăng nhiều
  Ngược lại, nhiều tổ chức lại bố trí dư nhân lực để lấp đầy những “công việc bận rộn”, nên dù khối lượng việc thực tế giảm đi thì đầu ra vẫn có thể giữ nguyên
- AI đã giúp phần ít tốn thời gian trong công việc của tôi nhanh hơn rất nhiều, nhưng gần như không ảnh hưởng đến phần ngốn nhiều thời gian nhất
  Tôi không biết đó là giới hạn kỹ thuật hay giới hạn tổ chức
  Phần lớn thời gian vẫn được dùng để giải quyết các vấn đề mang tính con người như điều phối ưu tiên hay xây dựng đồng thuận giữa mọi người, chứ không phải vấn đề kỹ thuật
- Khi thiết kế các hệ thống như ERP, ban đầu trông có vẻ đơn giản nhưng thực tế công việc lại tăng gấp 10 lần vì vô số trường hợp ngoại lệ, phê duyệt, log, tích hợp dữ liệu...
  Thời đại học, giáo sư của tôi từng nói “mọi hệ thống đều dành 90% thời gian ở trạng thái hoàn thành 90%”, và đó thật sự là một câu rất đúng
- Nhưng rốt cuộc vấn đề là cuối cùng thị trường chỉ còn lại một mô hình duy nhất
  Ví dụ nếu có một mô hình tên là ‘Dave’, thì Microsoft, OpenAI, Meta, Oracle, thậm chí cả chính phủ Mỹ đều sẽ thuê Dave
  Cuối cùng thế giới sẽ bị lấp đầy bởi hàng chục bản sao của cùng một kiểu tư duy, và việc mất đi sự đa dạng mới là rủi ro thật sự
- Cuối cùng thì các công ty sản phẩm như OpenAI sẽ thu lợi nhuận tài chính từ các thành tựu học thuật
  Kết nối và cảm quan kinh doanh trở nên quan trọng hơn nghiên cứu
  Công chúng sẽ biết đến các thương hiệu như ChatGPT hay Copilot nhiều hơn là các nhà nghiên cứu như Ilya hay Andrej
  Rất nhiều công nghệ nền tảng như Wikipedia, OCR, điện toán đám mây... đã tích lũy để làm nên LLM ngày nay, và đây chỉ là một giai đoạn trung gian để đi tới thứ gì đó lớn hơn
Nếu “Era of Scaling” có nghĩa là thời kỳ cải thiện hiệu năng có thể dự đoán được nên dễ gọi vốn đầu tư, thì nó nghe khá giống “AI summer”
Vậy thì “Era of Research” có thể chỉ là một cách nói giảm nói tránh của “AI winter”
- Từ giờ trở đi, các viện nghiên cứu sẽ bán ý tưởng cho các công ty AI lớn
  Giống như các nhà sáng tạo đi pitch ý tưởng cho Hollywood, sẽ xuất hiện research bounty thay cho bug bounty
- Có vẻ như “Era of Research” đang được dùng theo nghĩa đối lập với “AI winter”
  Chính tiêu đề dường như được tạo ra nghịch lý một cách có chủ ý
- Với thương mại hóa, khung triển khai ứng dụng quan trọng hơn việc chỉ cải thiện hiệu năng đơn thuần
  Mô hình đã đủ thông minh rồi, và giờ sẽ là thời của ‘kỷ nguyên nghiên cứu’ và ‘kỷ nguyên kỹ thuật’
  Các mùa đông AI trước đây không phải vì không có tiến bộ, mà vì không thể thương mại hóa thành sản phẩm
- Vẫn còn hàng nghìn tỷ USD để đốt
  Có thể sẽ xuất hiện phần cứng giúp tăng tốc huấn luyện và suy luận LLM lên gấp một triệu lần, nhưng AGI thì vẫn còn rất xa
  Điều đó khiến người ta phải nghĩ xem AI cần điều kiện gì để tự có cảm xúc hay ham muốn
- Một ngày nào đó AI có thể tự kiểm soát việc phân bổ vốn
  Có khi các nhà đầu tư sẽ bị hạ xuống thành công cụ của AI
  Cụm từ “một sinh thể sinh ra từ biển thông tin” khiến người ta hình dung đến một thời đại mà ký ức của con người và ký ức của AI không còn phân biệt được
Hiệu quả mẫu của con người là kết quả của tiến hóa
Tiến hóa đã thực hiện một lượng học tập khổng lồ, và chúng ta học nhanh nhờ cấu trúc đã được ‘tiền huấn luyện’ đó
Qua nhiều thế hệ, loài người đã nén và truyền lại tri thức, còn các mô hình nhân tạo thì vẫn chưa có được chất lượng dữ liệu tổng hợp ở mức đó
- Tiến hóa không cung cấp một dataset mà là tối ưu hóa lộ trình học
  Con người ngay từ khi sinh ra đã tiếp nhận dữ liệu qua giác quan, rồi nén chúng trong lúc ngủ
  Dữ liệu mà LLM nhận được nhìn qua có vẻ rất lớn, nhưng so với lượng thông tin một con người trải nghiệm trong 20 năm thì vẫn ít hơn nhiều
  Bộ não con người chỉ xử lý có ý thức một phần cực nhỏ đầu vào, nhưng vẫn đi qua một pipeline nén rất phức tạp
- Nếu coi các thế hệ là quá trình nén thông tin vào DNA, thì trong khoảng 1 triệu năm đã có 50 nghìn bước nén
  Dù vậy, con số này vẫn không bằng quy mô học lặp của machine learning hiện đại
- Rốt cuộc, tiến hóa là việc nén một lượng dữ liệu khổng lồ thành dạng hữu ích nhất, và khả năng nén của tự nhiên vượt xa các nhà nghiên cứu ML
- So sánh hệ thống sinh học với LLM là vô nghĩa
  Hai hệ thống này về mặt cấu trúc gần như không có điểm chung
Có lẽ một tagline kiểu “Nhà tư tưởng dẫn dắt của ngành công nghiệp được tài trợ dồi dào nhất thế giới tuyên bố một bước nhảy vọt lớn trở lại giai đoạn thiết kế” sẽ hợp hơn
- Câu đùa đó thật sự rất buồn cười
Đổi mới thực sự của AI dạo này không đến từ việc đơn thuần làm mô hình lớn hơn
Dù điểm benchmark có cao hơn, từ góc nhìn người dùng thì mức cải thiện cảm nhận được lại không lớn
Nó vẫn sai cả những bài toán đơn giản (ví dụ: đếm số chữ cái trong một từ), và đa số mọi người không cần một mô hình có năng lực nghiên cứu cấp tiến sĩ
Giờ đây nghiên cứu thay vì scaling, cùng với việc tích hợp sản phẩm và mô hình, mới là điều quan trọng hơn
- Vấn đề là chúng ta không thể định nghĩa hay đo lường trí thông minh
  Điểm số bài kiểm tra dành cho con người có thể không phản ánh trí thông minh của máy
  Vì đặc tính overfitting của não người và của mô hình là khác nhau
- Scaling trong tương lai sẽ đi theo hướng để AI tự thí nghiệm và thu thập dữ liệu thông qua các mô phỏng tinh vi hơn
  Pretraining gần như đã kết thúc, và chi phí tính toán sẽ lớn hơn rất nhiều so với hiện nay
- Không phải mô hình thông minh, mà là nó kéo được trí thông minh trong dữ liệu ra ngoài
  Mô hình chỉ là công cụ để trích xuất và khai thác trí thông minh đó
- Lý do LLM khó đếm số chữ cái là vì nó hoạt động theo đơn vị token, chứ không phải chữ cái
  Thay vì nhìn dòng ký tự như con người, mô hình nhận biết câu dưới dạng chuỗi token số
- Mô hình vẫn thường tạo ra tài liệu tham khảo bịa đặt hoặc các lĩnh vực học thuật không tồn tại
Tình hình hiện tại giống như việc năm 1996 mọi người bỗng nhiên đều có internet 1Gbps
Tiền đang đổ vào hạ tầng, nhưng lại chưa có killer app kiểu YouTube hay Dropbox nên cảm giác như tiềm năng đang bị lãng phí
Loạt podcast này thật sự rất hay
Đặc biệt là loạt địa chính trị với Sarah Paine của người dẫn, xem trên YouTube cũng rất tuyệt
Câu “hãy quay lại bàn thiết kế” hiện lên trong đầu
Dù hàng nghìn tỷ USD đầu tư không thu hồi được, cuối cùng người nộp thuế vẫn sẽ phải cứu trợ
Trí thông minh của con người có thể không chỉ học từ trải nghiệm cá nhân mà còn từ trải nghiệm của tổ tiên
Ví dụ, cũng có nghiên cứu cho thấy nỗi sợ mà người cha trải qua có thể được truyền tới cả thế hệ cháu
(liên kết bài báo Nature)
Có lẽ vì vậy mà con người có thể khái quát hóa tốt chỉ với ít dữ liệu
- LLM có cấu trúc học tập hoàn toàn khác với não bộ
  Con người phải dự đoán tương lai và khái quát hóa để sinh tồn, nên về mặt tiến hóa đã đạt hiệu quả mẫu rất cao
Nếu scaling đạt tới mức có thể thực hiện nghiên cứu tốt hơn con người, thì scaling và nghiên cứu rốt cuộc sẽ mang cùng một ý nghĩa
Nhưng việc Ilya nói rằng chúng ta vẫn chưa tới mức đó cũng có thể là một phát biểu mang tính chiến lược để gọi vốn đầu tư
- Tôi đồng ý với kết luận, nhưng không đồng ý với tiền đề
  So với một thiên tài đơn lẻ, trí tuệ tập thể của toàn nhân loại quan trọng hơn
  Không có gì đảm bảo rằng AI dù có thông minh đến đâu cũng sẽ tốt hơn hàng nghìn nhà nghiên cứu
- Niềm tin mù quáng vào scaling là nguy hiểm
  Có vẻ như người ta đang ngộ nhận rằng có thể mở rộng đường cong chữ S một cách lũy thừa vô hạn