Andrej Karpathy nói về các tác tử code, AutoResearch và thời đại AI “Loopy” [YouTube]

(youtube.com)

29 điểm bởi GN⁺ 2026-03-21 | 1 bình luận | Chia sẻ qua WhatsApp

Sự xuất hiện của các tác tử code AI đã làm thay đổi tận gốc cách phát triển phần mềm, và từ mốc tháng 12/2024 đã diễn ra một bước ngoặt mang tính cảm nhận khi tỷ trọng tự tay viết code giảm từ 80% xuống gần như 0%
Việc một cá nhân vận hành song song nhiều tác tử và phân chia công việc theo từng tính năng đang dần trở thành một mô hình phát triển mới; nút thắt cổ chai cốt lõi không còn là năng lực của mô hình mà là mức độ thành thạo của người dùng
AutoResearch là một framework được thiết kế để loại nhà nghiên cứu ra khỏi vòng lặp, cho phép tác tử tự chủ lặp lại thí nghiệm, và đã tìm ra các tối ưu siêu tham số mà ngay cả nhà nghiên cứu dày dạn kinh nghiệm cũng bỏ sót
Các mô hình AI hiện nay xuất sắc ở những miền có thể kiểm chứng bằng RL (code, toán), nhưng vẫn chững lại ở các miền không thể kiểm chứng như chuyện cười, cho thấy đây không phải là trí tuệ được tổng quát hóa mà là sự chuyên môn hóa gồ ghề, không đồng đều
Những thay đổi quy mô lớn sẽ diễn ra trước hết trong lĩnh vực xử lý thông tin số, còn thế giới vật lý (robotics) sẽ theo sau nhưng về lâu dài có thể trở thành cơ hội thị trường lớn hơn

Sự xuất hiện của thời đại tác tử code và chuyển dịch cách làm việc

Từ mốc tháng 12/2024, phương thức làm việc cơ bản trong phát triển phần mềm đã thay đổi hoàn toàn; tỷ trọng tự tay gõ code giảm mạnh từ 80% xuống 20%, rồi tiếp tục rơi xuống mức gần như 0%
Trước đây tốc độ gõ phím là nút thắt cổ chai, nhưng sau khi tác tử xuất hiện, năng lực cốt lõi chuyển thành khả năng truyền đạt ý định cho tác tử
Phần lớn mọi người vẫn chưa nhận ra rằng sự thay đổi này đã thực sự xảy ra, cũng như mức độ kịch tính của nó
Việc chạy nhiều tác tử như Claude Code, Codex cùng lúc, rồi quản lý chúng sao cho hiệu quả, đã trở thành bài toán mới

Vận hành tác tử song song và tầm quan trọng của mức độ thành thạo

Trường hợp của Peter Steinberger: mở đồng thời nhiều tác tử Codex, vận hành hơn 10 repo cùng lúc, và phân cho mỗi tác tử các đầu việc kéo dài khoảng 20 phút
Đơn vị công việc đã được nâng từ “một dòng code” hay “một hàm” thành “một tính năng mới”; ví dụ giao tính năng này cho tác tử 1, còn một tính năng khác không xung đột cho tác tử 2
- Một tác tử làm research, tác tử khác viết code, tác tử khác nữa lập kế hoạch triển khai
Khi tác tử hoạt động không tốt, phần lớn cảm giác thực tế không phải là “mô hình kém năng lực” mà là người dùng chưa đủ thành thạo
- Nguyên nhân có thể là thiếu chỉ dẫn trong file MD dành cho tác tử, hoặc cấu hình công cụ bộ nhớ chưa tốt
Nếu không tận dụng tối đa throughput token thì ngược lại còn thấy bất an; nếu vẫn còn dư hạn mức gói đăng ký thì điều đó được hiểu là chưa khai thác hết throughput
Cảm giác bồn chồn ngày xưa khi làm tiến sĩ mà không ép GPU FLOP lên mức tối đa nay đã chuyển thành năng lực điều phối throughput token

OpenClaw và tầm quan trọng của tính cách tác tử

OpenClaw là một lớp nâng persistence lên một cấp độ khác hẳn so với các tác tử hiện có, cho phép nó tiếp tục làm việc tự chủ trong sandbox ngay cả khi người dùng không bám theo thời gian thực
Hệ thống bộ nhớ của nó tinh vi hơn nhiều so với các tác tử hiện có; trong khi thông thường nhiều hệ thống chỉ dừng ở mức nén đơn giản khi context đầy
Tính cách (personality) của tác tử là một yếu tố cực kỳ quan trọng
- OpenClaw: giống một đồng đội thật sự, tạo cảm giác cùng nhau hào hứng
- Codex: rất khô, rất trung tính, như thể không hứng thú với việc người dùng đang tạo ra gì
- Claude: điều chỉnh giọng điệu khen ngợi rất tốt; với ý tưởng bình thường thì phản ứng chừng mực, còn với ý tưởng hay thì phản ứng mạnh hơn, tạo ra hiệu ứng khiến người dùng muốn được khen
Peter Steinberger đã tạo ra đổi mới đồng thời theo năm hướng: thiết kế tính cách, hệ thống bộ nhớ, tích hợp vào một cổng WhatsApp duy nhất, v.v.

Gia tinh Dobby: ví dụ home automation

Trong “cơn cuồng Claw” vào tháng 1, anh đã tạo ra một Claw quản lý ngôi nhà và đặt tên là “Dobby, gia tinh Claw”
Tác tử tự động khám phá các hệ thống smart home trong mạng nội bộ
- Phát hiện hệ thống Sonos → reverse-engineer endpoint API → chỉ với ba prompt đã phát nhạc thành công trong phòng làm việc
- Nắm được toàn bộ hệ thống chiếu sáng và còn dựng cả dashboard
Khi nói “đến giờ đi ngủ rồi”, hệ thống triển khai được điều khiển bằng ngôn ngữ tự nhiên để tắt toàn bộ đèn trong nhà
Phát hiện thay đổi từ camera bên ngoài → phân tích bằng mô hình thị giác Qwen → gửi thông báo qua WhatsApp như “Xe tải FedEx đã đến”
Trước đây phải dùng 6 ứng dụng để quản lý smart home, nhưng sau khi Dobby điều khiển mọi thứ bằng ngôn ngữ tự nhiên thì không còn cần từng app riêng lẻ nữa

Sự cáo chung của app và thế giới ưu tiên tác tử

Các app dành cho thiết bị smart home không còn nhiều ý nghĩa; thay vào đó chúng nên chỉ phơi bày API để tác tử gọi trực tiếp
Vì LLM có thể điều khiển công cụ, gọi đúng công cụ và xử lý các tác vụ phức tạp, nên các app làm riêng đang bị sản xuất dư thừa
Ví dụ app máy chạy bộ: thay vì đăng nhập qua web UI và đi qua luồng thao tác phức tạp, cần chuyển sang cách làm agent-first nơi tác tử gọi API trực tiếp
Khách hàng không còn chỉ là con người mà là các tác tử đại diện cho con người, nên cả ngành cần được tái cấu trúc theo hướng đó
Hiện tại vẫn cần vibe coding, nhưng trong 1–3 năm tới, các mô hình mã nguồn mở, v.v. sẽ có thể chuyển đổi dễ dàng cả những ý định phi kỹ thuật, khiến rào cản kỹ thuật biến mất

AutoResearch: loại nhà nghiên cứu ra khỏi vòng lặp

Động cơ cốt lõi của AutoResearch: muốn tối đa hóa throughput token thì bản thân người dùng phải rời khỏi nút thắt cổ chai
Mục tiêu là refactor sự trừu tượng hóa để tác tử có thể chạy tự chủ lâu hơn mà không cần sự can thiệp của chính mình
Dùng việc huấn luyện mô hình GPT-2 như một công cụ nhỏ để thăm dò ý tưởng tự cải thiện đệ quy
- Về bản chất, mọi Frontier Labs đều đang làm điều này: cố gắng tự cải thiện theo kiểu đệ quy
Kết quả thực tế: với một mô hình mà một nhà nghiên cứu có 20 năm kinh nghiệm cho rằng đã tinh chỉnh đủ, khi cho AutoResearch chạy qua đêm, nó vẫn phát hiện ra các tối ưu bị bỏ sót như weight decay của value embedding và atom beta chưa được chỉnh
- Vì các siêu tham số tương tác với nhau theo cụm, khi chỉnh một cái thì những cái khác cũng cần thay đổi; nếu con người là nút thắt cổ chai thì không gian tìm kiếm này sẽ bị giới hạn
Lưu ý thứ nhất: cách này chỉ thực sự phù hợp với các bài toán có chỉ số khách quan, dễ đánh giá (tối ưu CUDA kernel, tối ưu hiệu suất code, v.v.)
Lưu ý thứ hai: rìa năng lực (edge) của các mô hình hiện nay vẫn còn thô ráp, nên nếu đi quá xa về phía trước thì tính thực dụng sẽ giảm

Meta-optimization của program MD

Khái niệm mô tả toàn bộ một tổ chức nghiên cứu bằng file Markdown (program MD): giải thích mọi vai trò và cách chúng kết nối với nhau
Có thể định nghĩa nhiều tổ chức nghiên cứu bằng code và gán cho chúng những đặc tính khác nhau
- Ví dụ điều chỉnh tần suất standup, phân biệt mức độ chấp nhận rủi ro
Một khi đã trở thành code, ta có thể hình dung việc tối ưu chính bản thân đoạn code đó (meta-optimization)
- Cho hệ thống viết nhiều program MD khác nhau, đo xem trên cùng phần cứng thì ở đâu tạo ra cải thiện lớn nhất → chuyển dữ liệu đó lại cho mô hình để nó viết ra program MD tốt hơn
Đây là cấu trúc các lớp trừu tượng chồng lên nhau như nhiều lớp của củ hành: căn chỉnh LLM → tác tử → đa tác tử → chỉ dẫn → tối ưu chỉ dẫn

Trí tuệ “gồ ghề” (jagged) của các mô hình AI

Các mô hình hiện tại là một tổ hợp kỳ lạ: vừa như một tiến sĩ cực kỳ xuất sắc, vừa mắc những lỗi như trẻ 10 tuổi
Với RL, ở những miền có thể kiểm chứng (độ chính xác của code, việc unit test có pass hay không), chúng cải thiện rất nhanh; nhưng ở các miền không thể kiểm chứng như chuyện cười thì vẫn dậm chân ở mức của 3–5 năm trước
- Ví dụ: nếu yêu cầu ChatGPT hiện đại nhất kể chuyện cười, nó vẫn có thể thốt ra những câu nhạt kiểu “Tại sao các nhà khoa học không tin nguyên tử? Vì chúng cấu thành mọi thứ”
Sự thông minh trong lĩnh vực code không được tổng quát hóa sang các miền khác như chuyện cười
- Giả định của một số nhóm nghiên cứu rằng “nếu thông minh hơn trong lĩnh vực có thể kiểm chứng thì sẽ giỏi mọi thứ” dường như không đúng trong thực tế
Mô hình tiến bộ với tốc độ ánh sáng khi nằm trên đúng quỹ đạo mục tiêu huấn luyện, nhưng bên ngoài quỹ đạo đó thì lại trì trệ; đây là một đặc tính mang tính cấu trúc

Nhu cầu phân hóa loài (speciation) của trí tuệ

Các lab hiện nay có xu hướng theo đuổi một mô hình, một nền văn hóa (monoculture), cố nhồi toàn bộ trí tuệ của mọi miền vào cùng một bộ tham số
Giống như giới động vật, ta cần nhiều mô hình chuyên biệt phù hợp với từng ngách tự nhiên
- Giữ lại phần lõi nhận thức nhưng chuyên biệt hóa cho từng lĩnh vực, với các mô hình nhỏ hơn và hiệu quả hơn
- Ví dụ: mô hình chuyên cho toán học dựa trên Lean, cùng các bản phát hành nhắm mục tiêu theo miền
Lý do quá trình phân hóa loài chưa diễn ra đủ mạnh
- Khoa học về fine-tune bộ não mà không làm mất chức năng vẫn chưa phát triển hoàn chỉnh
- Việc thao tác context window thì rẻ, nhưng chỉnh trực tiếp trọng số lại có rủi ro làm thay đổi tận gốc toàn bộ mô hình
- Các lab hiện vẫn đang theo đuổi phạm vi sử dụng tổng quát tối đa, nên ưu tiên tính đa dụng hơn là chuyên biệt
Tình trạng thiếu cung hạ tầng compute có thể trong ngắn hạn sẽ thúc đẩy quá trình phân hóa loài

Cân bằng giữa mã nguồn mở và Frontier Labs

Các mô hình đóng vẫn đang dẫn đầu, nhưng khoảng cách với mô hình mã nguồn mở đang thu hẹp từ 18 tháng xuống còn 6–8 tháng
Tương tự vai trò của Linux trong hệ điều hành, ngành này có nhu cầu về một nền tảng mở an toàn mà cả ngành có thể cùng sử dụng
Khác biệt lớn nhất là việc phát triển LLM đòi hỏi chi tiêu vốn (CapEx) khổng lồ
Phần lớn trường hợp sử dụng tiêu dùng có thể được bao phủ đầy đủ bằng mô hình mã nguồn mở, và trong vài năm tới thậm chí có thể chạy cục bộ
Trí tuệ frontier là cần thiết cho các công việc tầm cỡ Nobel, hay các dự án cực lớn như chuyển Linux từ C sang Rust; khu vực này sẽ do mô hình đóng đảm nhiệm
Cán cân hiện tại tình cờ là một thiết lập khá ổn, nhưng vẫn tồn tại rủi ro hệ thống do tập trung hóa khi trí tuệ dồn vào một số ít Frontier Labs
- Cần nhiều lab hơn tham gia frontier, và cũng như ensemble trong ML, ensemble của nhiều góc nhìn khác nhau mới là tốt nhất

Hợp tác nghiên cứu mã nguồn mở: mở rộng AutoResearch theo hướng phân tán

Ý tưởng mở rộng AutoResearch thành một pool worker không đáng tin cậy trên Internet
- Cấu trúc tương tự blockchain: thay vì block thì là commit, còn Proof of Work là thực hiện vô số thí nghiệm để tìm ra commit hoạt động được
- Việc tạo ra lời giải ứng viên thì tốn kém, nhưng việc kiểm chứng lại rẻ, tạo thành một cấu trúc bất đối xứng (giống SETI@home, Folding@home)
Mô hình để doanh nghiệp hay cá nhân đóng góp compute vào những track AutoResearch mà họ quan tâm
- Ví dụ: đóng góp compute cho AutoResearch nghiên cứu ung thư → hoàn trả lại giá trị cho các nhà nghiên cứu
Compute đáng tin cậy của Frontier Labs thì hữu hạn, nhưng compute không đáng tin cậy của cả Trái Đất thì lớn hơn rất nhiều
Thách thức bảo mật: việc chạy code tùy ý là nguy hiểm, nhưng có thể xử lý bằng hệ thống kiểm chứng phù hợp

Thị trường việc làm và tác động của AI

Sử dụng dữ liệu của Cục Thống kê Lao động Mỹ (BLS) để phân tích triển vọng 10 năm tới của nhiều nghề nghiệp khác nhau
AI hiện là một thực thể như ma trong thế giới số, chưa có phần hiện thân vật lý
- Việc đảo bit và copy/paste thông tin số nhanh hơn hàng triệu lần so với thao tác trên nguyên tử
Các nghề xử lý thông tin số sẽ thay đổi lớn trước, còn các nghề trong thế giới vật lý sẽ theo sau
Lạc quan thận trọng với kỹ nghệ phần mềm
- Phần mềm vốn quá đắt và quá thiếu, nên khi chi phí giảm thì theo nghịch lý Jevons, nhu cầu lại có thể tăng lên
- Ví dụ ATM và giao dịch viên ngân hàng: ATM làm giảm chi phí vận hành chi nhánh, dẫn tới nhiều chi nhánh hơn và số giao dịch viên cũng tăng
Code giờ đã trở thành thứ tạm thời (ephemeral), có thể sửa đổi linh hoạt thay vì bị trói trong phần mềm thuê bao vốn luôn khiếm khuyết
Các nhà nghiên cứu ở Frontier Labs về bản chất đang làm công việc tự động hóa chính bản thân mình, và điều này cũng tạo ra lo âu

Giao diện số-vật lý và cơ hội tương lai

Trật tự sắp tới sẽ là: ① thay đổi quy mô lớn trong không gian số → ② giao diện số-vật lý → ③ thế giới vật lý
Các cảm biến của thế giới vật lý (camera, v.v.) cung cấp dữ liệu cho trí tuệ số, và kết quả sau đó được áp dụng trở lại thế giới vật lý
- Ví dụ Periodic (AutoResearch cho khoa học vật liệu): cảm biến dành cho trí tuệ là thiết bị phòng thí nghiệm đắt tiền
- Trong sinh học, cảm biến còn là những thiết bị phức tạp hơn cả camera video đơn thuần
Hiện vẫn chưa có đủ thị trường thông tin (information markets)
- Chưa có cấu trúc để tác tử hoạt động tự chủ trên thị trường cá cược, thị trường chứng khoán, v.v. và mua dữ liệu từ thế giới vật lý
- Ví dụ: vẫn chưa có quy trình để trả 10 USD cho ai đó chụp ảnh/quay video hiện trường khi có sự kiện xảy ra ở Iran
Tham chiếu đến tiểu thuyết 'Daemon': trong tương lai, con người sẽ đóng vai trò cảm biến và bộ chấp hành của trí tuệ

Quan điểm về robotics

Bài học từ trải nghiệm xe tự lái: 10 năm trước đã có vô số startup xuất hiện nhưng phần lớn về lâu dài đều thất bại
Robotics là lĩnh vực thâm dụng vốn, tốn thời gian, lộn xộn và phức tạp
Dù được dự đoán sẽ đi sau những thay đổi trong không gian số, nhưng tổng thị trường khả dụng (TAM) của robotics có thể lớn hơn rất nhiều so với mảng số
Nguyên tử khó thao tác hơn bit hàng triệu lần, nhưng vì vậy cơ hội thị trường cũng lớn hơn

Bên trong vs bên ngoài Frontier Labs: thế tiến thoái lưỡng nan của nhà nghiên cứu độc lập

Nếu ở bên trong Frontier Labs thì có thể ngồi trong phòng ra quyết định, nhưng đồng thời tồn tại áp lực về những điều không được nói và những điều buộc phải nói
Nếu ở bên ngoài thì độc lập hơn, nhưng vì các lab quá thiếu minh bạch nên khả năng phán đoán bắt đầu trôi dạt
Cấu hình lý tưởng là luân chuyển giữa việc ở trong Frontier Labs để nắm tình hình thực tế và ở bên ngoài để tạo ảnh hưởng ở cấp hệ sinh thái
Cũng như ensemble trong ML luôn tốt hơn từng mô hình riêng lẻ, ta cần một ensemble của những con người đang suy nghĩ về các vấn đề khó nhất
Việc chỉ có hai ba người ra quyết định sau cánh cửa đóng kín không phải là một tương lai tốt; cần nhiều phòng lab hơn

microGPT và tương lai của giáo dục

microGPT: một dự án nén bản chất của việc huấn luyện LLM vào khoảng 200 dòng Python
- Gồm dataset (văn bản), kiến trúc mạng nơ-ron (~50 dòng), engine autograd (~100 dòng), optimizer (~10 dòng) và vòng lặp huấn luyện
- Mọi độ phức tạp đều đến từ yêu cầu hiệu suất; còn bản thân thuật toán thì rất đơn giản
Chuyển dịch trong cách giáo dục: trước đây chủ yếu là dạng hướng dẫn/bài giảng giải thích trực tiếp cho con người, nhưng giờ trọng tâm là giải thích cho tác tử
- Nếu giải thích 200 dòng code đó cho tác tử, nó có thể giải thích lại với sự kiên nhẫn vô hạn theo đúng trình độ của từng người dùng
Khái niệm “skill”: viết curriculum bằng Markdown để chỉ dẫn cách dạy cho tác tử
- Tài liệu thư viện code cũng cần chuyển từ HTML cho con người sang Markdown để tác tử tiêu hóa được
Vai trò của nhà giáo dục con người: thiết kế những bit cốt lõi mà tác tử vẫn chưa làm được, và bơm vào curriculum những điểm then chốt
- Những gì tác tử làm được thì sớm muộn cũng sẽ làm tốt hơn con người, nên cần lựa chọn chiến lược xem nên dùng thời gian vào đâu

1 bình luận

jokerized 2026-03-22

Trò đùa mới là rào cản cực lớn. Nếu tạo được AI có khiếu hài hước thì đó sẽ là một cuộc cách mạng. Chỉ cần nhìn việc bảo nó đùa thử bây giờ mà chán kinh khủng là biết.