Vì sao AI agent cứ liên tục thất bại — vấn đề không nằm ở mô hình mà ở thiết kế ‘thế giới (World)’
(dev.to)Khi thực sự bắt tay xây dựng AI agent dựa trên LLM,
đến một thời điểm nào đó bạn gần như luôn đụng phải cùng một bức tường.
- Rõ ràng mô hình đã thông minh hơn
- Nhưng việc thực thi vẫn liên tục bất ổn
- Không thể giải thích vì sao nó lại hành động như vậy
- Ngay cả với cùng một đầu vào, kết quả cũng khác nhau
Vì thế, người ta thường đi đến kết luận như sau.
“Mô hình vẫn chưa đủ tốt. Hãy thử dùng mô hình lớn hơn.”
Nhưng sau khi thực sự trải qua nhiều lần thử sai, điều tôi nhận ra là,
cốt lõi của vấn đề không phải là trí thông minh của mô hình,
mà là ‘thế giới (World)’ nơi agent vận hành chưa được thiết kế.
Bản chất của vấn đề: thế giới chỉ tồn tại trong đầu mô hình
Trong nhiều kiến trúc agent,
những thứ như trạng thái, quy tắc, hay khả năng hành động
đều được đặt một cách ngầm định bên trong suy luận của mô hình.
Nói cách khác,
- Điều gì là khả thi
- Vì sao một hành động nào đó thất bại
- Khi nào trạng thái đã thay đổi
Tất cả những điều này đều được kỳ vọng là mô hình sẽ “ghi nhớ và tự suy luận ra”.
Với cấu trúc như vậy,
dù mô hình có tốt hơn đến đâu đi nữa,
vẫn rất khó đảm bảo khả năng debug, tính tái lập và khả năng giải thích.
Chuyển đổi góc nhìn: World-Centric Architecture
Vì vậy, trong bài viết này tôi muốn đảo ngược góc nhìn,
đề xuất một cách thiết kế agent không phải lấy mô hình làm trung tâm (Intelligence-Centric)
mà là lấy thế giới làm trung tâm (World-Centric).
Ý tưởng cốt lõi rất đơn giản.
- Thế giới phải tồn tại một cách tường minh bên ngoài mô hình
- Trạng thái được cố định dưới dạng Snapshot
- Việc thay đổi trạng thái chỉ diễn ra qua đúng một con đường duy nhất là Patch/Apply
- “Hành động này có khả thi không?” phải được tính toán một cách có cấu trúc
Và nguyên tắc quan trọng nhất là câu này.
> Trí thông minh không được thực thi, mà chỉ được phép đề xuất
Mô hình có thể đề xuất “muốn thử làm gì”,
nhưng không có quyền thực sự thay đổi trạng thái.
Vì sao điều này quan trọng?
Trong cấu trúc này, một điều thú vị sẽ xảy ra.
- Những hành động bất khả thi sẽ không bao giờ đến được bước thực thi
- Thất bại không còn được giải thích là “vì mô hình ngu” mà bằng lý do mang tính cấu trúc
- Ngay cả khi việc chọn hành động là ngẫu nhiên, hệ thống vẫn không bị vỡ
Bởi vì
tính đúng đắn (correctness) không được bảo đảm bởi suy luận của mô hình,
mà bởi các quy tắc của thế giới và mô hình trạng thái.
Tôi cho rằng đây là một cách tiếp cận gần với
“hệ thống có thể vận hành được” hơn là một bản demo phục vụ nghiên cứu.
Bài viết này không phải là gì
- Hướng dẫn về một framework agent mới ❌
- Bài viết so sánh hiệu năng mô hình ❌
- Câu chuyện về prompt engineering ❌
Thay vào đó,
> “Vì sao chúng ta lại đang tạo ra AI agent bất ổn đến vậy?”
đó là câu hỏi tôi muốn đặt ra.
Tôi cũng muốn biết cách tiếp cận này,
nếu nhìn từ góc độ state machine, workflow engine, DSL hay thậm chí PL,
thì sẽ được nhìn nhận như thế nào.
Những ý kiến hay phê bình từ góc nhìn
“Rốt cuộc thì điều này có thể được quy về cái gì?”
đều rất được hoan nghênh.
Chưa có bình luận nào.