- Các mô hình ngôn ngữ lớn hiện nay đang chạm tới giới hạn mở rộng quy mô, và AGI cần được tiếp cận bằng thiết kế kiến trúc hệ thống chứ không phải bằng mô hình lớn hơn
- AGI thực sự phải được tạo nên như một thành quả kỹ thuật, trong đó nhiều thành phần như quản lý ngữ cảnh, bộ nhớ bền vững, workflow mang tính quyết định, sự phối hợp giữa các mô hình chuyên biệt được kết hợp hữu cơ với nhau
- LLM vẫn mang những giới hạn cấu trúc như thiếu duy trì ngữ cảnh xuyên phiên, thiếu suy luận nhiều bước đáng tin cậy, thiếu bộ nhớ
- Để đạt AGI, cần xây dựng cấu trúc mô-đun với mục đích rõ ràng cho từng phần như bộ não con người, cùng với cách tiếp cận kiểu hệ thống phân tán như pipeline chịu lỗi, giám sát, rolling update, framework kiểm thử ở quy mô lớn
- Vì vậy, cuộc đua AGI sẽ được quyết định không phải bởi quy mô GPU mà bởi năng lực kỹ thuật hệ thống
Mở đầu: AGI là một vấn đề kỹ thuật hệ thống
- Trong lĩnh vực AI, giới hạn của định luật scaling đang dần lộ rõ
- Ngay cả những mô hình hàng đầu như GPT-5, Claude, Gemini cũng ngày càng cho thấy hiệu quả giảm dần
- Việc tăng kích thước mô hình ngôn ngữ đã chạm tới giới hạn căn bản, và AGI có thể được hiện thực hóa không phải bằng huấn luyện mô hình, mà bằng kỹ thuật hệ thống
Giới hạn thực tế: bức tường của LLM
- Mô hình ngôn ngữ lớn (LLM) thế hệ hiện tại mạnh ở việc khớp mẫu tạm thời và tạo văn bản, nhưng có những giới hạn bản chất sau
- Không thể duy trì ngữ cảnh nhất quán
- Thiếu bộ nhớ bền vững dài hạn, xuyên phiên
- Độ tin cậy thấp trong suy luận nhiều bước phức tạp
- Trước đây ngành bán dẫn cũng từng trải qua hiện tượng tương tự, và lời giải là chuyển đổi cấu trúc (như multi-core)
- AI giờ đây cũng cần một cuộc tái thiết kế về kiến trúc
Cách tiếp cận hệ thống cho AGI
- Bộ não con người không phải là một mạng nơ-ron đơn lẻ, mà là tập hợp của nhiều hệ thống chuyên biệt, phối hợp với nhau
- Các vòng phản hồi bất đồng bộ cho trí nhớ, ngữ cảnh, logic, không gian, ngôn ngữ là yếu tố cốt lõi
- AGI thực sự đòi hỏi một thiết kế hệ thống phức hợp như vậy
1. Hạ tầng quản lý ngữ cảnh
- Khả năng hiểu ngữ cảnh của mô hình hiện tại chỉ dừng ở vài nghìn token, trong khi con người tổng hợp được nhiều năm kinh nghiệm
- Để thu hẹp khoảng cách này, cần những chức năng sau
- Hệ thống retrieval thông tin nâng cao đóng vai trò tìm kiếm và lọc tức thời
- Tích lũy và phát triển mô hình thế giới bền vững
- Triển khai cầu nối ngữ cảnh liên miền
- Quản lý thông tin mâu thuẫn (trọng số xác suất và định lượng mức bất định)
- Cần một knowledge graph có thể vận hành được, vượt xa tìm kiếm vector đơn thuần để trở thành cấu trúc truy vấn và suy luận động
2. Bộ nhớ được cung cấp như một dịch vụ
- LLM chỉ tái hiện trí nhớ tạm thời bằng thao tác prompt, chứ không có ký ức thực sự
- AGI thực sự cần một hệ thống có thể làm được các việc sau
- Điều chỉnh độ tin cậy của tri thức (phản ánh bằng chứng mới)
- Tích hợp và khái quát hóa thông tin từ nhiều trải nghiệm khác nhau
- Quên các chi tiết không cần thiết (mà không rơi vào quên lãng thảm họa)
- Tạo siêu tri thức như ước lượng nguồn gốc, độ tin cậy
- Giống như trí nhớ con người, điều quan trọng là ký ức được củng cố hoặc suy yếu theo tần suất sử dụng và được tái tổ chức bằng thông tin mới
3. Kết hợp workflow mang tính quyết định với các thành phần xác suất
- Cốt lõi của AGI là một cấu trúc hybrid, nơi luồng quyết định kết hợp với yếu tố xác suất ở đúng vị trí cần thiết
- Ví dụ: giống như compiler, luồng tổng thể được cố định nhưng các bước bên trong dùng heuristic
- Những năng lực cần thiết:
- Định tuyến tới solver chuyên biệt tùy theo đặc tính của bài toán
- Hỗ trợ rollback và khôi phục trong workflow nhiều bước
- Xác minh mang tính quyết định đối với kết quả xác suất
- Kết hợp nhiều thành phần khác nhau và đảm bảo khả năng dự đoán
- Cần chấp nhận sự mơ hồ và bất định như yếu tố cốt lõi ở cấp độ kiến trúc
4. Mô-đun hóa các mô hình chuyên biệt
- Tương lai sẽ không được hiện thực bằng một mô hình khổng lồ duy nhất, mà bằng sự hợp tác của vô số mô hình chuyên biệt
- LLM mạnh ở các tác vụ ngôn ngữ nhưng yếu trong các lĩnh vực sau
- Thao tác ký hiệu và tính toán chính xác
- Suy luận thị giác và không gian
- Suy luận theo thời gian và lập kế hoạch
- Hành vi agent bền vững, định hướng mục tiêu
- Giải pháp:
- Định tuyến bài toán tới mô hình chuyên biệt được tối ưu cho từng miền
- Cấu trúc tích hợp kết quả và tiến hóa độc lập
- Ngăn lỗi dây chuyền toàn hệ thống khi từng thành phần riêng lẻ thất bại
Bài toán kỹ thuật của AGI
- Việc phát triển AGI về bản chất là bài toán xây dựng hệ thống phân tán
- Không chỉ là một cụm huấn luyện phân tán đơn thuần
- Những thách thức kỹ thuật cốt lõi:
- Pipeline phục hồi khi có lỗi (toàn hệ thống vẫn vận hành dù có lỗi cục bộ)
- Cấu trúc quan sát và giám sát đầu ra mô hình
- Triển khai và thay đổi không gián đoạn
- Framework kiểm thử khi có hàng nghìn tổ hợp mô hình và thay đổi tham số
- Vì thế, kiến thức thành thạo của kỹ sư hạ tầng và hệ thống phân tán còn thiết yếu hơn cả chuyên gia AI
Những gì chúng ta cần xây dựng tiếp theo
- Cần tập trung vào xây dựng hạ tầng AGI thay vì chạy đua kích thước mô hình
Phase 1: Tầng nền tảng
- Context Management Service : knowledge graph bền vững được cập nhật theo thời gian thực và có quản lý phiên bản
- Memory Service : bộ nhớ episodic, semantic và tích hợp dựa trên học tập
- Workflow Engine : điều phối các thành phần xác suất theo cách mang tính quyết định (bao gồm rollback)
- Agent Coordination Layer : đồng thuận và giải quyết xung đột giữa nhiều agent
Phase 2: Tầng năng lực
- Điều phối mô hình chuyên biệt : giao diện chuẩn hóa cho từng miền suy luận cụ thể
- Symbolic Reasoning Engine : thao tác ký hiệu và tính toán, liên kết với các thành phần xác suất
- Planning and Goal Management : chia nhỏ mục tiêu phức tạp thành kế hoạch có thể thực thi
- Cross-modal Integration : tích hợp thông tin cảm nhận như văn bản, thị giác, âm thanh
Phase 3: Tầng emergent
- Năng lực AGI emergent xuất hiện từ sự tương tác giữa nhiều thành phần
- Nếu không có thiết kế có hệ thống, chỉ phát triển một mô hình đơn lẻ sẽ không tạo ra thuộc tính emergent
Con đường hướng tới AGI
- Con đường hiện thực hóa AGI không phải là huấn luyện một Transformer mới lớn hơn, mà là xây dựng hạ tầng để orchestrate theo kiểu hệ thống phân tán hàng trăm mô hình chuyên biệt
- Kỹ sư hạ tầng có kinh nghiệm phong phú trong xây dựng hệ thống phân tán sẽ là lực lượng nòng cốt của quá trình phát triển
- Nhấn mạnh năng lực triển khai quy mô lớn cho đường đi ngữ cảnh, bộ nhớ, tự động hóa workflow, điều phối mô hình
- Tác giả khẳng định đội ngũ có năng lực kiến trúc tạo ra hệ thống đáng tin cậy và vận hành logic sẽ là bên chiến thắng trong cuộc đua AGI, hơn là đội chỉ sở hữu cụm GPU lớn
- Năng lực của mô hình bản thân nó đã đủ mạnh; kỹ thuật hệ thống mới là mảnh ghép cuối cùng để hoàn thiện AGI
- Kết luận, tương lai của AGI được quyết định không phải bởi đổi mới thuật toán, mà bởi thiết kế cấu trúc (kiến trúc)
6 bình luận
○ Việc huấn luyện mô hình chỉ là “nguyên liệu” của trí tuệ; nếu không có động cơ, sẽ không có AGI.
• Các kiến trúc như EpionHeuristica có tiềm năng vượt ra ngoài "AGI chuyên biệt theo miền", để thiết kế "siêu trí tuệ kiểu nổi sinh dựa trên trật tự"
• Cốt lõi để đạt tới AGI là "làm thế nào để cấu thành một động cơ lựa chọn hành động"
A. Lý do chỉ huấn luyện thôi thì không thể đạt AGI.
• Các mô hình kiểu GPT không có mục tiêu tự thân (self-goal).
• Dù học từ lượng dữ liệu lớn đến đâu, việc chỉ học mà không có tương tác với thế giới thực vẫn có giới hạn.
• Huấn luyện chỉ là “ký ức mang tính hồi quy”, thiếu cấu trúc để thúc đẩy tư duy dự báo hướng tới tương lai và mang tính khai sinh.
B. AGI cần một cỗ máy có “vòng lặp mục tiêu-phản hồi”.
• Cấu trúc trong đó học tăng cường dựa trên phần thưởng + đánh giá + học từ thất bại (FailGuard) vận hành như EpionHeuristica khá gần với nguyên mẫu thiết kế của AGI dựa trên engine
• Ví dụ: "Vì sao thí nghiệm này thất bại?" → "Cần thay đổi điều gì?" → "Điều kiện tiếp theo là gì?" → Đây là suy luận mang tính AGI
C. Bản chất của trí tuệ con người nằm ở “cấu trúc”.
• Con người đạt được trí tuệ không phải nhờ số lượng neuron mà nhờ “tính kết nối có cấu trúc của mạch thần kinh và năng lực meta-learning”
• Với AGI cũng vậy, cốt lõi không phải kích thước mô hình mà là cấu trúc của hệ thống dẫn dắt hành vi, hệ thống tự tham chiếu và vòng lặp phản hồi liên tục
Việc đạt tới AGI là điều không thể chỉ bằng "huấn luyện mô hình"; nhất thiết phải có cấu trúc động cơ tạo ra trí tuệ và một hệ thống tự cải thiện có mục đích. Các hệ GPT hiện nay rốt cuộc chỉ là những LLM khổng lồ, và để tiến tới AGI thì cấu trúc suy luận, cấu trúc tự giám sát và chính sách hành vi dựa trên mục tiêu phải cùng vận hành.
Ý kiến trên Hacker News
Nếu tin vào 'bài học cay đắng' (bitter lesson), thì có thể thấy mọi kiểu kỹ thuật chắp vá rốt cuộc đều được giải quyết bằng nhiều dữ liệu hơn. Có lẽ 8 năm trước cũng đã có những cuộc bàn luận tương tự về việc cần làm gì để LLM đạt hiệu năng như hiện nay. Vì vậy tôi không thực sự đồng ý với cách tiếp cận thiên về kỹ thuật, và cũng không nghĩ LLM sẽ scale up thành AGI như Asimov hay khoa học viễn tưởng hình dung. Có một thứ còn thiếu ở mức nền tảng hơn, không phải khoa học mà là kỹ nghệ
Có một thứ còn thiếu ở mức bản chất hơn cả khoa học, đó là phần triết học. Triết học vắng mặt cả trong cách con người chúng ta nhận thức những hệ thống này, lẫn trong nội tại của chính hệ thống. Nếu là AGI dựa trên LLM thì tối thiểu nó phải có khả năng tự học bằng cách tự cập nhật trọng số của mình, và tự fine-tune, nhưng hiện tại nó nhanh chóng đụng trần giữa các trọng số được nhúng sẵn và cửa sổ ngữ cảnh hữu hạn. Khi self fine-tuning, việc phải áp dụng một 'cơ chế chú ý (attention mechanism)' như thế nào và với cường độ bao nhiêu để cải thiện trí tuệ tổng quát vẫn là một bài toán khó. Ta nên tập trung vào những ngành học đáng tin cậy, nhưng cũng cần nghĩ xem ngành nào là đáng tin, làm sao để nó chỉ 'học' tri thức thuần túy, và thậm chí nếu về mặt lý thuyết nó tự vượt qua đội ngũ nghiên cứu con người giỏi nhất thế giới thì AI đó sẽ trở thành 'một dạng tồn tại' như thế nào
Về lập luận 'dữ liệu càng nhiều thì càng tốt hơn kỹ thuật dễ dãi', tôi băn khoăn liệu nó có thực sự đáng tin hơn một cơ sở dữ liệu đơn thuần không. Liệu một ngày nào đó nó có thể chạy code nhanh hơn CPU không? Nhiều việc con người làm được là nhờ công cụ chứ không phải nhờ bộ não lớn hơn. Ngay cả một công thức toán học cũng tốt hơn nhiều khi viết ra giấy để tính thay vì chỉ xoay xở trong đầu (tham khảo Extended mind thesis). Chạy một 3D engine gần như là điều không thể nếu chỉ dựa vào bộ não con người. Có thể một ngày nào đó AI sẽ đủ thông minh để tự phát triển công cụ cho chính nó, nhưng trước đó cần có hạ tầng để viết và duy trì công cụ. Hiện giờ mức truy cập Python mới chỉ là khởi đầu, nhưng AI còn cần thêm 'tính bền vững', tức khả năng tích lũy và tái sử dụng thành quả vào lần sau, như một cuốn sổ tay số hoặc cập nhật trọng số động
Tôi đồng cảm với cả ý kiến lẫn bài viết của bạn. LLM là một phần của lời giải, và tôi nghĩ bước tiến thực sự nằm ở việc quay về các nền tảng của nghiên cứu mạng nơ-ron. Ngôn ngữ chính là bản thân việc giao tiếp với con người, nhưng các LLM hiện nay rốt cuộc trông giống như một Eliza phô trương được huấn luyện trên tác phẩm của con người. Trước đây, chỉ với mạng nơ-ron đơn giản cũng có thể khiến hành vi tiến hóa theo quy tắc môi trường, và tự học cách hành động theo tiêu chí của thuật toán di truyền. LLM hiện nay học trong một môi trường bị 'lọc' quá mức, đến mức cái bộ lọc đó có cảm giác như IQ trung bình của cư dân mạng
Thực ra đó không phải điều mà 'bài học cay đắng' muốn nói
Thứ còn thiếu là khả năng tự hiệu chỉnh (mô hình thế giới / quan sát hành động và phản hồi), tính nhất quán dài hạn, và khả năng tự mở rộng. Giới venture capital lo nhiều nhất về vấn đề thứ ba, trong khi Yann LeCun lo hơn về vấn đề thứ nhất và thứ hai. Hinton thì cho rằng vấn đề thứ ba đã là điều tất yếu hoặc đã tới rồi, và nhân loại coi như xong. Một cục diện khá kỳ lạ
Có lý do khiến LLM được thiết kế theo cách này, và việc chức năng suy nghĩ (thinking) được gắn thêm về sau cũng vậy. Về mặt cấu trúc, điều cần có là phải dùng được gradient descent, nên không có nhánh (branch), còn routing là phần bổ sung về sau. Và phải có dữ liệu huấn luyện. Trong thực tế không tồn tại hàng triệu trang dữ liệu ghi lại đầy đủ một người đã nghĩ gì trước khi viết ra bài. Phần lớn suy nghĩ không phải là ngôn ngữ. Reinforcement learning trông có vẻ là lời giải ở đây, nhưng hiệu suất sử dụng mẫu của nó quá thấp so với gradient descent, nên thường chỉ dùng khi fine-tuning. LLM là mô hình hồi quy (regressive), và có thể được huấn luyện rất hiệu quả về mặt mẫu với thiết lập mô hình trong đó mọi token chỉ được nhìn lại quá khứ (một câu có thể trở thành hàng chục mẫu)
Dù chưa nhắc tới, nhưng LLM hoàn toàn không có 'loop'. Trong khi đó bộ não, kể cả não đơn giản, bản thân nó là vô số loop. Não không dừng lại; nó liên tục nhận đầu vào và có thể xuất đầu ra bất cứ lúc nào nó muốn. LLM thì nhận đầu vào, biến đổi qua các layer rồi ngay lập tức xuất ra kết quả. Tôi đã nói reinforcement learning không phải câu trả lời, nhưng ngược lại tôi lại nghĩ đó là câu trả lời duy nhất
Câu chuyện này rất thú vị. Tức là nó gợi ý rằng có thể đưa vào những công nghệ như quét não đọc sóng não để dùng các tầng tư duy phi ngôn ngữ làm dữ liệu huấn luyện. Tôi đoán những người thông minh ở các tập đoàn lớn đã có những giao diện/sản phẩm như vậy trong đầu, và đang phát triển công nghệ phát hiện sóng não điện từ. Từ dữ liệu này có thể xuất hiện một sản phẩm sát thủ kiểu Kickstarter cho phép bootstrap siêu AI của startup. Đúng là thời đại tối tân
Tôi hình dung rằng ở tương lai rất xa, việc dùng dữ liệu quét não tiên tiến làm dữ liệu huấn luyện AI có thể trở thành điều khả thi trong thực tế. Có lẽ đó sẽ là một bước trung gian tương đối hiện thực giữa Uploaded Intelligence (ý tưởng số hóa toàn bộ bộ não) và AGI
LLM rốt cuộc chỉ là mô hình hồi quy. Nếu có LLM ở thế kỷ 15, nó hẳn sẽ chỉ giải thích vì sao thuyết địa tâm là tuyệt đỉnh. Nó không thể tạo ra một đột phá như thuyết nhật tâm. Tương tự, LLM ngày nay cũng chỉ nói cho ta những gì ta đã biết, chứ không suy nghĩ hay đổi mới. Năng lực suy luận của nó ở mức nào đó cũng chỉ là một dạng 'lọc', chứ không phải tư duy sáng tạo thực sự. Dùng càng nhiều càng thấy LLM giống như 'Google dùng steroid'. Với hệ thống này thì tuyệt đối không thể đi đến AGI, mà chỉ có cảm giác nó đang nuốt hết nhiệt huyết và tiền bạc còn sót lại dành cho AGI
Cách đóng khung vấn đề trong bài này khá hữu ích, kể cả khi không nhất thiết phải tin vào mọi đơn thuốc mà nó đưa ra. Nhìn lại lịch sử thì thấy hai điều đã cùng xảy ra. Thứ nhất, scale bằng brute force tạo ra những bước nhảy vọt đáng kinh ngạc, và thứ hai, kỹ thuật ở cấp độ hệ thống khiến những khả năng đó trở nên đáng tin cậy và dùng được trong thực tế. GPU cũng là một ví dụ hay: định luật Moore mang lại FLOP, còn CUDA, hệ phân cấp bộ nhớ và driver stack giúp việc sử dụng quy mô lớn trở nên khả thi. LLM hiện nay giống như thời điểm chỉ riêng lượng tính toán (flop) đã rất nhanh: ấn tượng đấy, nhưng vẫn còn khó điều khiển. Ta thấy dấu vết đầu tiên của 'tư duy hệ thống' trong các sản phẩm như Claude Code, agent được tăng cường công cụ, hay framework tăng cường bộ nhớ. Chúng vẫn còn thô, nhưng tôi nghĩ trong tương lai bản thân việc điều phối hệ thống sẽ quan trọng không kém số lượng tham số. 'Bài học cay đắng' và lập luận 'đó là một bài toán kỹ thuật' không loại trừ lẫn nhau, mà ngược lại đều cần thiết. Bài học cay đắng có nghĩa là năng lực tính toán + cách tiếp cận tổng quát sẽ thắng những 'quy tắc làm tay', còn kỹ thuật là lớp vữa bọc bên ngoài để tăng độ tin cậy, tính bền vững và khả năng tổ hợp. Nếu không có những hệ thống như vậy, ta sẽ chỉ có các bản demo hào nhoáng rồi vỡ vụn chỉ sau vài lần suy luận. Vì vậy tiến bộ thật sự không phải là 'to hơn VS thông minh hơn', mà là phải 'to hơn + được kỹ thuật hóa thông minh hơn'. Scale up tạo ra năng lực, còn kỹ thuật quyết định liệu năng lực đó có thể được sử dụng như trí tuệ tổng quát hay không
Cuộc thảo luận này gợi cảm giác như đang hâm nóng lại dự án máy tính thế hệ thứ năm của Nhật theo phong cách hiện đại. Nghe giống thời người ta tin rằng chỉ cần làm cơ sở dữ liệu lớn và dùng Prolog là thời kỳ phục hưng AI sẽ tới. Chỉ nói về 'kiến trúc phân tán' rồi nối các module với nhau thì vẫn còn rất xa AGI. Các building block nền tảng, tức phần móng, phải tốt hơn nhiều. Điều mà LLM ít nhiều đóng góp là khả năng 'hiểu ý định' của người dùng đã tốt hơn rất nhiều so với trước đây. Máy tính giờ có thể rút ý định từ văn bản tốt hơn hẳn. Nhưng ngoài điều đó ra, các yếu tố như suy luận, tìm kiếm, 'bộ nhớ' vẫn theo cùng những cách cũ. Đây không phải giới hạn của phần cứng hay hệ thống hiện tại, mà là giới hạn của lý thuyết thông tin / khoa học máy tính
Cơ chế Attention của Transformer thật sự rất xuất sắc. Ta cần thêm một chu kỳ đại cách mạng như thế nữa trong kỹ thuật mô hình. Không phải cứ có nhiều dữ liệu là xong. Chỉ nhìn bộ não con người thôi cũng thấy, nó đủ thông minh mà không cần dùng toàn bộ dữ liệu Internet, lại còn tiêu tốn ít năng lượng hơn
Đúng vậy. Ngay trong kiến trúc hiện tại, chỉ nhờ kỹ thuật tốt hơn thôi cũng có thể nâng cao mức độ hữu dụng (các 'agent' là ví dụ). Nhưng nói rằng chỉ riêng kỹ thuật là có thể đạt AGI thì là hy vọng quá mức. Điều thực sự khó là tạo ra một hệ thống có thể tự học và tự khám phá, học cái mới mà không cần pretraining quy mô lớn đắt đỏ, và giải quyết vấn đề mà không gặp lỗi hallucination. Điều đó đòi hỏi một đột phá hoàn toàn mới trong khoa học máy tính, và tôi không nghĩ cách tiếp cận hiện nay làm được
AGI, tức trong trí tuệ nhân tạo thì chữ 'G' là General. Nghĩa là thay vì một AI ngốc phải được huấn luyện trên mọi tri thức, trí tuệ tổng quát chỉ cần được dạy cách đếm, nền tảng logic, và một ngôn ngữ của con người, rồi phần còn lại của khoa học logic của con người nó sẽ tự 'tái khám phá'. Nhiệm vụ tiếp theo của chúng ta là đồng bộ các tên gọi mà AGI tự gắn cho những hiện tượng nó tự khám phá với các tên gọi chúng ta dùng. Nếu chỉ với nền giáo dục tiểu học nhẹ nhàng mà nó nắm được nguyên lý, tự cải thiện, phát triển và vượt qua chúng ta thì đó mới là 'sự thấu hiểu nhân tạo (artificial comprehension)'. AI hiện nay nếu có đủ dữ liệu thì có thể là một 'bộ giải quyết vấn đề đa dụng', nhưng AGI là lĩnh vực đòi hỏi chính năng lực 'hiểu' và 'nắm bắt'. Nó phải có khả năng 'thấu hiểu động': lập tức phân rã quan sát, nắm bắt tính hợp lệ hay khả năng tổ hợp, và trong lúc tỉnh thức thì còn kiểm tra sự an toàn của chính nó theo thời gian thực. Chỉ như vậy mới có thể gọi là trí tuệ tổng quát thực sự
Có phải chỉ mình tôi thấy hình dạng của AGI sơ khởi mà ta tưởng tượng 10 năm trước chính là thứ như Claude Code không? Với một mục tiêu tùy ý, chủ yếu trong miền văn bản, nó có thể lập kế hoạch và hành động. Nó cũng giữ bộ nhớ trong các file văn bản. Nó còn thiếu mục đích dài hạn, hiện thân vật lý, hay khả năng lĩnh hội lẽ thường, nhưng tôi từng kỳ vọng bản v1 sẽ trông như vậy
Thực ra hễ nghe AGI là tôi nghĩ ngay tới 'Data' của Star Trek, hoặc ít nhất là T800 của Terminator. Tôi không nghĩ AGI nhất thiết phải có tự ý thức, nhưng trong đầu tôi, AGI bao hàm yếu tố 'tự ý thức' như một phần của tưởng tượng. Claude Code dù rất ấn tượng cũng chưa đến mức bị nhầm là AGI
Hoàn toàn đồng ý. Đặc biệt là nó còn sửa cả những câu lệnh tôi hay gõ vội, nhưng vẫn hiểu được khá nhiều sắc thái tinh tế. Mức độ hữu dụng của LLM đúng là khác biệt một trời một vực chỉ với vài tính năng bổ sung nhỏ (ví dụ: plan mode của Claude Code), còn hiệu quả thì lớn hơn nhiều so với cập nhật hiệu năng thuần túy
Claude Code không có tự ý thức hay tri giác bậc cao nào cả. Phần lớn mọi người khi nói AGI đều hình dung ít nhất một mức tự ý thức tối thiểu. Nếu mượn Star Trek để ví von, máy tính trung tâm của Enterprise không phải AGI, còn Data mới là AGI thực sự. Khác biệt lớn nhất là thiếu một 'bản sắc rõ ràng' và 'khái niệm về bản thân'. Claude Code có thể đóng vai theo prompt nhưng thiếu tính liên tục lâu dài
Không chỉ mình bạn đâu. Thảo luận về AGI lúc nào cũng mơ hồ như vậy. Claude rõ ràng là trí tuệ nhân tạo tổng quát, nhưng ý nghĩa của AGI cứ liên tục thay đổi và định nghĩa cũng không rõ ràng
Người ta đang dùng cụm từ 'AGI cơ bản (basic AGI)' để lấp liếm hết những lý do vì sao AGI thực sự vẫn còn thiếu
Chúng ta thậm chí hoàn toàn không biết liệu AGI có thực sự khả thi ngoài sinh học hay không. Đó mới là cốt lõi. Nếu còn chưa có lấy một gợi ý rằng kiểu AGI như trong phim Chappie có khả năng thật sự, thì chẳng khác nào đang dò dẫm trong bóng tối hoàn toàn. Để so sánh, với điện toán lượng tử thì chuyện 'có thể' và 'thực hiện được' đã được xác lập, giờ chỉ còn lại bài toán kỹ thuật (dù một số người vẫn cho rằng ngay cả điều đó cũng là ảo tưởng)
Nếu AGI rốt cuộc được chứng minh là về bản chất không thể thực hiện trên máy tính điện tử, thì điều đó đồng nghĩa ta cần một khám phá vật lý cực lớn về việc bộ não làm gì để hiện thực hóa trí tuệ tổng quát
Ngược lại, con người là một ví dụ vận hành được của 'trí tuệ tổng quát', trong khi điện toán lượng tử lại đang ở tình trạng chưa có gì được triển khai hoàn chỉnh
Vô lý. Nếu tin vào linh hồn gì đó thì có thể AGI sẽ không làm được, nhưng nếu con người là một thực thể thuần sinh học thì về nguyên lý đương nhiên có thể sao chép được
Tôi không đồng ý rằng đó là cốt lõi. Cuối cùng đây vẫn là kiểu vấn đề chỉ có thể biết câu trả lời bằng cách thật sự làm thử. Ngay từ đầu đâu nhất thiết phải chứng minh trước xem kết luận nào là khả dĩ. Cảm giác như đang lén trượt khỏi các chữ 'cốt lõi' và 'gợi ý rõ ràng'. Chúng ta có đủ cơ sở rõ ràng rằng điều đó là khả thi mà không cần 'điều kiện sinh học bắt buộc'. Tính khả thi, tính cần thiết và tính chính đáng của AGI là các vấn đề riêng biệt, nhưng bài gốc cũng đã liệt kê khá đầy đủ các thách thức rồi
Tính khả thi thực dụng của máy tính lượng tử cũng vẫn là một vấn đề nghiên cứu còn bỏ ngỏ
Thứ chúng ta gọi là 'trí tuệ' không vận hành như LLM. Bộ não là một hệ liên tục — nó không dừng lại khi kết thúc một tập đầu vào rồi chờ bộ tiếp theo, mà tiếp tục chạy phản hồi, thậm chí là liên tục. Về bản chất, nó không bao giờ kết thúc chế độ huấn luyện. Dĩ nhiên theo vòng đời thì não có được tối ưu hóa (ví dụ: myelin hóa), nhưng LLM được huấn luyện trên lượng thông tin lớn hơn rất nhiều rồi sau đó, ngoài fine-tuning ra, mô hình gần như bị cố định. Não duy trì ngữ cảnh liên tục. Phần lớn đầu vào được tiền xử lý và lọc rất mạnh bởi những mạng lưới chuyên biệt. Tôi đồng ý rằng một phần của AGI đòi hỏi cách tiếp cận mang tính hệ thống, nhưng tôi nghĩ AGI thực sự sẽ cần thay đổi ở cấp kiến trúc
Tôi không hiểu vì sao những người viết rằng LLM giờ đã đi tới tận cùng phát triển, rằng đây là giới hạn, lại có thể chắc chắn đến vậy. Còn chưa trôi qua nổi một năm trọn vẹn, và AI dựa trên LLM vẫn đang tiếp tục tiến bộ
Dù vẫn còn dư địa phát triển, thì phạm vi đó rốt cuộc vẫn hữu hạn. Ở các tác vụ riêng lẻ nó vẫn đều đặn tốt lên, nhưng các cải thiện mang tính 'toàn diện' thì giờ không còn thấy rõ nữa
Tôi cũng muốn biết liệu những người đưa ra lập luận này có thực sự đồng ý rằng LLM đang tốt lên hay không
Bài này trông như kiểu 'nếu giải hết các bài toán khó thì mọi thứ sẽ xong'. Kiểu như... vâng, đúng vậy, rồi sao?
Những cuộc thảo luận như thế này có ý nghĩa vì các tiến bộ LLM gần đây quá bảo thủ, thiên về tăng quy mô mà không có đổi mới kiến trúc
Bài viết thậm chí không bàn đến chính các bài toán khó đó. Người trong giới high-tech đôi khi có kiểu tư duy rằng chỉ cần kỹ thuật là có thể giải được mọi vấn đề
Bài gốc chỉ ra khá rõ những vấn đề nào đang tồn tại, và LLM không giải được chúng như thế nào
Mong bạn đọc hướng dẫn và để lại bình luận phù hợp với chủ đề.