Tôi nghĩ Yann LeCun đã đúng về LLM (dù có thể chỉ là ngẫu nhiên)

(substack.com)

21 điểm bởi GN⁺ 2025-02-24 | 2 bình luận | Chia sẻ qua WhatsApp

Trong vài năm gần đây, các cuộc thảo luận về AGI (Artificial General Intelligence, trí tuệ nhân tạo tổng quát) đã bùng nổ
Định nghĩa chính xác của AGI vẫn mơ hồ và gây nhiều tranh cãi, và việc đặt ra mốc thời gian AGI đã trở thành cách tranh luận phổ biến
- "Mốc thời gian dài": quan điểm cho rằng AGI sẽ đến sau 10–20 năm
- "Mốc thời gian ngắn": lập luận rằng AGI sẽ sớm xuất hiện
Nhưng thảo luận về sự phát triển của AI theo cách này là không hiệu quả
- Thích hợp hơn là xem đây như một quá trình năng suất của AI tăng lên, chứ không phải đang tiến tới một đích đến gọi là AGI
- AI đang phát triển để có thể thực hiện nhiều công việc hơn với ít sự can thiệp của con người hơn
  - Ví dụ: gán nhãn dữ liệu, viết mã, giải bài toán, lái xe tự động, bay tự động
- Tuy nhiên, việc AI có thể đạt tới điểm hoạt động mãi mãi mà không cần con người can thiệp hay không vẫn chưa chắc chắn
- Chúng ta cần đo lường AI có thể tạo ra bao nhiêu giá trị so với lượng đầu vào được cung cấp
Có thể xem sự phát triển của AI là sự gia tăng giá trị kinh tế mà AI tạo ra so với nỗ lực con người bỏ vào
Những câu hỏi quan trọng:
- Liệu AI có thể tiến bộ vô hạn để tạo ra giá trị kinh tế mà không cần con người can thiệp hay không?
- Hay nó sẽ chạm tới giới hạn kỹ thuật ở một mức nào đó?
Nếu AI có thể tạo ra giá trị kinh tế hoàn toàn không cần con người can thiệp, đó cũng có thể là một kết quả khá nguy hiểm

Chúng ta đã từng thấy hiện tượng này rồi (xe tự lái)

Trong ngành AI, trước làn sóng mô hình ngôn ngữ, khoảng năm 2017 từng có cơn sốt xe tự lái
- Khi đó, nhiều công ty tuyên bố sẽ tung ra xe Full Self-Driving (FSD) trong vòng một năm và đã thu hút hàng tỷ USD đầu tư
- Hàng triệu dặm đã được chạy thử, nhiều công ty được thành lập, nhưng một số cuối cùng đã phá sản
Quảng cáo
Đến nay FSD hoàn chỉnh vẫn chưa thành hiện thực
- Tesla vẫn chưa thể tự lái hoàn toàn, còn Waymo chỉ có thể vận hành một phần trong những khu vực cụ thể đã được lập bản đồ trước
- Vẫn cần sự can thiệp của con người theo từng lúc

Dự đoán năm 2016 của CEO Tesla Elon Musk:
"Trong năm nay, Tesla sẽ tự lái hoàn toàn từ Los Angeles đến New York."
→ Nhưng đến năm 2024 vẫn chưa thành hiện thực (Tesla vẫn đang bán tùy chọn đăng ký "Full Self-Driving")

Giờ đây, thay vì tranh luận liệu tự lái hoàn toàn có khả thi hay không, cách tiếp cận thực tế hơn là đo "miles-per-intervention" (số dặm trên mỗi lần can thiệp của con người)
- Tức là đo xem xe có thể đi được bao xa mà không cần một lần con người can thiệp
Theo các báo cáo mới nhất, Tesla trung bình cần một lần can thiệp của con người sau mỗi 13 dặm
- Khi có mô hình AI lớn hơn, tốc độ suy luận nhanh hơn, nhiều dữ liệu hơn và kỹ thuật tốt hơn, con số này nhiều khả năng sẽ tăng lên
- Tuy nhiên, với công nghệ hiện tại, chưa rõ liệu con số này có thể tăng tới vô hạn hay không
Quảng cáo
Nói cách khác, chúng ta vẫn chưa biết liệu mô hình tự lái có thể tiến bộ vô hạn để hoàn toàn không cần con người can thiệp, hay sẽ chạm trần ở một mức nào đó

Vì sao Yann LeCun đã sai (một phần)

Yann LeCun, Giám đốc khoa học AI của Meta, từng lập luận rằng mô hình ngôn ngữ không thể đạt tới trí thông minh cấp độ con người
Lý do: mô hình ngôn ngữ tạo đầu ra theo từng token, và ở mỗi token đều có xác suất phát sinh lỗi; khi lỗi tích lũy lại, hiệu năng cuối cùng sẽ suy giảm
Ông xem vấn đề tích lũy lỗi này là giới hạn chí tử của mô hình ngôn ngữ, và cho rằng để giải quyết nó thì phải từ bỏ cách tiếp cận autoregressive hiện nay
Nhưng thực tế lại khác
- Các hệ thống AI mới nhất (OpenAI o1/o3, DeepSeek R1, v.v.) đang trực diện bác bỏ giả thuyết đó
- Chúng vẫn là mô hình autoregressive, nhưng đầu ra càng dài thì hiệu năng lại càng tăng
- Trong nghiên cứu về DeepSeek R1, xuất hiện mô thức cho thấy mô hình suy nghĩ càng lâu thì xác suất trả lời đúng càng tăng
  
  Nhìn vào biểu đồ trong báo cáo DeepSeek R1, có thể thấy mô hình tạo đầu ra càng dài thì hiệu năng càng cải thiện → mâu thuẫn trực diện với giả thuyết của Yann LeCun
Cách mô hình tự sửa lỗi
- Lập luận trước đây dựa trên giả định rằng lỗi tất yếu sẽ tích lũy theo từng token
- Nhưng các nghiên cứu mới nhất cho thấy mô hình có cơ chế tự sửa lỗi bên trong
- Ví dụ, khi tạo ra một số mẫu token nhất định, người ta quan sát thấy xu hướng mô hình dần tìm ra câu trả lời tốt hơn theo xác suất ngay trong quá trình sinh
  
  Ví dụ từ DeepSeek R1: quá trình mô hình tìm ra "câu trả lời tốt hơn" tại một điểm nhất định → điều mà Yann LeCun từng cho là không thể
  
  Quảng cáo
Hiện nay, một số nhà nghiên cứu đang phân tích các cơ chế self-correction này và nghiên cứu cách dẫn dắt chúng hiệu quả hơn
Dù vậy, vẫn chưa rõ liệu cách làm này chỉ áp dụng cho một số loại bài toán nhất định như lập trình và toán học hay không

Vì sao Yann LeCun đã đúng (một phần)

Giả thuyết của Yann LeCun không hoàn toàn sai
Dù các nghiên cứu mới nhất bác bỏ giả thuyết "tích lũy lỗi" của ông, việc mô hình ngôn ngữ không thể tạo ra đầu ra chính xác vô hạn vẫn là điều đúng
Tức là AI không thể hoạt động độc lập mãi mãi
Giới hạn của tác tử tự trị hoàn toàn (FAA)
- Nhiều nhà nghiên cứu đang cố phát triển các tác tử AI (Agents) có thể thực hiện công việc trong thời gian dài
- Nhưng đây là vấn đề tương tự như phát triển xe Full Self-Driving (FSD)
- Nói cách khác, với công nghệ hiện tại, hệ thống AI hoàn toàn tự trị có thể là điều bất khả thi
Tầm quan trọng của đầu vào từ con người
- Thông tin đáng tin cậy nhất đến từ prompt do con người trực tiếp cung cấp
- AI có thể thu thập thêm dữ liệu thông qua một số công cụ (ví dụ: tra cứu chuyến bay, kiểm tra thời tiết), nhưng việc chỉ tạo ra đầu ra dài hơn không có nghĩa xác suất đúng sẽ tăng vô hạn
- Khả năng AI tạo ra đầu ra hữu ích vô hạn mà không cần con người can thiệp là thấp

Vì sao nên tránh thảo luận AGI trong nghiên cứu AI

Đo tiến triển của mô hình ngôn ngữ bằng mốc thời gian AGI là cách làm sai lệch
Câu hỏi tốt hơn nên là: "AI có thể làm việc hiệu quả trong bao lâu mà không cần con người can thiệp?"
Giống như thước đo "miles-per-intervention" của tự lái, với mô hình ngôn ngữ cũng thực tế hơn nếu đo "chúng có thể tạo ra đầu ra chính xác trong bao lâu mà không cần con người can thiệp"
Thay vì chờ một AI hoạt động hoàn toàn không cần con người can thiệp (FAA, Fully Autonomous Agent), điều quan trọng là nhận ra quá trình phát triển liên tục mang tên "khối lượng công việc hữu ích mà AI có thể xử lý ngày càng tăng"
Ngay cả khi chưa có AGI hoàn chỉnh, giá trị kinh tế mà công nghệ hiện tại mang lại vẫn đã đủ đáng kể
Vì vậy, thay vì tranh luận khi nào AGI sẽ đạt tới, hướng đi tốt hơn là cải thiện năng suất thực tế của AI

2 bình luận

princox 2025-02-27

“AI không thể mãi mãi hoạt động độc lập”

Đoạn này khá ấn tượng.

GN⁺ 2025-02-24

Ý kiến Hacker News

Satya Nadella đã nhắc đến AGI
- Điều quan trọng hơn doanh thu của Microsoft là điều tiết kỳ vọng quá mức về AGI
- Tốc độ tăng trưởng kinh tế của các nước phát triển chỉ ở mức 2%, và nếu tính lạm phát thì gần như bằng 0
- Năm 2025 sẽ có những thách thức đối với tăng trưởng kinh tế
- Cần đạt được mức tăng trưởng như thời Cách mạng Công nghiệp
- Bên thắng cuộc sẽ là các ngành sử dụng AGI chứ không phải các công ty công nghệ
- Khi năng suất tăng và nền kinh tế tăng trưởng nhanh, các ngành công nghiệp cũng sẽ phát triển
- Việc tự ca ngợi thành tựu của AGI là vô nghĩa, và tiêu chuẩn thực sự là kinh tế thế giới tăng trưởng 10%
Điều quan trọng là tìm ra cách cung cấp việc làm cho mọi người
- Sự chuyển dịch marketing từ AGI sang ASI là một cái bẫy
- Bất chấp những chỉ trích về nền kinh tế "gig", nhiều người đang có cuộc sống tốt hơn nhờ Uber hoặc DoorDash
- Uber và DoorDash có giá trị trong đời sống hằng ngày
- Họ boa cho người giao hàng để họ có thể kiếm được nhiều hơn mức lương tối thiểu
- Không phải ai cũng có thể tự học để trở thành kỹ sư phần mềm hoặc doanh nhân
- Điều quan trọng là cung cấp việc làm cho mọi người
Sự hoài nghi về "suy luận" của LLM đang gia tăng
- Có thể thấy giới hạn của LLM qua kết quả của DeepSeek và Grok
- Có những trường hợp mô hình rơi vào những lộ trình kém hiệu quả hoặc sai lầm
- Ví dụ, Grok 3 đã dành 10 phút để lặp đi lặp lại việc xác nhận tên của một lá bài cụ thể
- Có những trường hợp mô hình rơi vào hành vi không hiệu quả do tự khuếch đại
Thảo luận về xe tự lái
- Tesla vẫn chưa thể tự lái hoàn toàn, còn Waymo chỉ làm được trong những khu vực nhất định
- Một số hệ thống AI hoạt động tốt hơn khi tạo ra đầu ra dài hơn
- Tuy nhiên, đầu ra dài hơn không có nghĩa là mô hình tốt hơn
- Lập luận của LeCun chỉ ra vấn đề tích lũy lỗi của các mô hình ngôn ngữ
Kỳ vọng quá mức về AGI và robot hình người
- Nên tập trung vào lợi ích kinh tế hơn là AGI
- Mục tiêu của AGI là vượt qua 99,99% con người
Kỳ vọng của mọi người về AGI
- Mọi người muốn một thứ khác chứ không phải AGI
- Nếu AGI có tính tự chủ thì sẽ không thể kiểm soát được
- Mọi người muốn những chuyên gia xuất sắc về mặt kỹ thuật nhưng vẫn tuân theo chỉ thị
Thành công của mô hình khuếch tán ngôn ngữ
- Sử dụng chiến lược remasking để giải quyết vấn đề tích lũy lỗi
- Đã thành công trong việc dự đoán nhiều token cùng lúc
Câu hỏi về giá trị kinh tế của AI
- Khi AI nâng cao năng suất của con người, giá trị kinh tế đó sẽ được chuyển đến ai
- Nếu việc làm của con người giảm đi, cần có kế hoạch cho việc phân phối giá trị kinh tế
So sánh giữa AI và giấc mơ của con người
- Cách AI tạo ra và mở rộng các kịch bản dựa trên mô hình về thực tại có thể giống với giấc mơ
- Có người tự hỏi liệu có thể thêm đầu vào thời gian thực vào LLM để "đánh thức" nó hay không

Tôi nghĩ Yann LeCun đã đúng về LLM (dù có thể chỉ là ngẫu nhiên)

Chúng ta đã từng thấy hiện tượng này rồi (xe tự lái)

Vì sao Yann LeCun đã sai (một phần)

Vì sao Yann LeCun đã đúng (một phần)

Vì sao nên tránh thảo luận AGI trong nghiên cứu AI

Bài viết liên quan

2 bình luận

Ý kiến Hacker News