Tác nhân AI: cần "độ tin cậy cao hơn" hơn là "nhiều tính năng hơn"

(sergey.fyi)

5 điểm bởi GN⁺ 2025-04-01 | 1 bình luận | Chia sẻ qua WhatsApp

Vì sao đặt vé máy bay lại trở thành "Hello World" trong các bản demo tác nhân AI?
- Người dùng thích UX đã hoàn thiện (ví dụ: Google Flights) hơn là để AI đặt chuyến bay giúp mình
- Chỉ một sai sót duy nhất cũng có thể khởi đầu cho địa ngục dịch vụ khách hàng phức tạp
- Hệ thống trực quan và có thể dự đoán lại mang tính đổi mới hơn
AI vẫn đang ở giai đoạn đầu, và người dùng phổ thông kỳ vọng sự nhất quán và khả năng dự đoán
- Ví dụ: ngay cả độ chính xác 80% nhưng cho kết quả nhất quán vẫn có thể được chấp nhận
  Trong khi đó, độ chính xác 90% nhưng thất thường lại làm sụp đổ niềm tin
- Nhiều dự án AI bỏ qua điều này và theo đuổi các bản demo hào nhoáng và tính năng quá sức → cuối cùng đánh mất niềm tin
Ngày càng nhiều IDE đang đánh mất tính minh bạch
- Người dùng không thể biết AI đang làm gì
- Ví dụ: vụ việc Cursor xóa toàn bộ công việc từng gây xôn xao trên Reddit
  - Đây cũng là vấn đề do người dùng chưa thành thạo quản lý phiên bản, nhưng nguyên nhân thực sự là thiết kế UI/UX
  - Thiết kế tốt phải ngăn ngừa sai sót, giải thích rõ AI đang làm gì, và cung cấp chức năng hoàn tác
Ở giai đoạn đầu, Cursor:
- Cung cấp tương tác minh bạch và nhẹ nhàng với giao diện tab-completion
- Trở nên phổ biến nhờ cách dần dần xây dựng niềm tin với người dùng
- Thiết kế đơn giản và có thể đảo ngược đã hiệu quả trong việc giảm sự mất lòng tin vào AI
Devin, startup nhận 200 triệu USD vốn đầu tư, theo đuổi "tác nhân hoàn toàn tự chủ"
- Hệ thống phức tạp, phản hồi chậm và kết quả khó đoán khiến niềm tin sụp đổ
- Cách tiếp cận quá tham vọng lại gây ra sự bối rối cho người dùng

Nhanh chóng vs. độ tin cậy: thế tiến thoái lưỡng nan của các đội phát triển AI

Các đội phát triển AI phải chọn một trong hai:
- Di chuyển thật nhanh và chấp nhận sai lầm
- Ưu tiên độ tin cậy và sự ổn định
Lời giải là tập trung vào các tính năng có thể tạo ra kết quả xuất sắc trong phạm vi nhỏ, rồi liên tục cải tiến lặp đi lặp lại

Nguyên tắc cốt lõi: khả năng dự đoán quan trọng hơn độ phức tạp

Nên tập trung vào các tác vụ đã được hiểu rõ hơn là các hệ thống phức tạp
Tác nhân AI vẫn mang tính biến đổi, nhưng ba yếu tố sau phải là trung tâm:
- Độ tin cậy
- Tính minh bạch
- Khả năng dự đoán

Workflow vs. tác nhân

Cách đóng khung của Anthropic: "Nếu một tác vụ có thể được biểu diễn dưới dạng workflow, hãy xây workflow chứ không phải tác nhân"
- Workflow có thể dự đoán, có thể kiểm soát và đơn giản
- Tác nhân phức tạp và khó kiểm soát, vì vậy chỉ nên dùng trong các tình huống động thực sự

1 bình luận

GN⁺ 2025-04-01

Ý kiến Hacker News

Tác nhân "đặt vé máy bay" giờ đã trở thành đề tài để đùa cợt. Nó cũng đã được nhắc đến trong bài keynote gần đây tại sự kiện dành cho kỹ sư AI của Swyx
- Tôi nghĩ bài viết này đang đánh giá thấp độ khó của vấn đề
- Với UI nơi con người nhập liệu hoặc hội thoại, luôn tồn tại vô số khả năng xảy ra lỗi
- Con người vốn không giỏi diễn đạt rõ ràng, và cũng khó hiểu chính xác phần mềm có thể làm gì
Các nhà nghiên cứu của Google Deepmind đang tiến hành nghiên cứu nhằm nâng cao độ tin cậy của tác nhân
- Việc đánh giá nghiêm ngặt đại diện cho hành vi người dùng là rất quan trọng
- Họ đã đăng demo suy luận nâng cao của tác nhân trên 80.000 trang tài liệu về vụ ám sát JFK
- Ngay cả với một lượng nhỏ tệp, chênh lệch về độ tin cậy/độ chính xác so với các tay chơi AI lớn cũng rất lớn
Đặt vé máy bay là công việc không thể giao cho AI
- Khi đi du lịch cùng gia đình hoặc du lịch cá nhân, cần nhiều mẹo và kinh nghiệm khác nhau
- Có nhiều yếu tố như website chính thức và so sánh giá, kiểm tra ngày tháng, cân nhắc điểm thẻ tín dụng, v.v.
Trong nhiều trường hợp, mọi người có xu hướng cố ép AI vào quy trình làm việc hiện có
- Quy trình hiện có vốn đã có UX/UI được tối ưu sẵn
- Việc dùng AI có thể không phải là giải pháp để xử lý vấn đề
Từ trải nghiệm dùng Cursor, tôi đi đến kết luận rằng độ tin cậy là yếu tố quan trọng
- Đầu ra của các model nhanh cần chỉnh sửa nhiều hơn
- Việc dùng rõ ràng một thư viện cụ thể là rất quan trọng
Tôi nghĩ trong các tiến bộ công nghệ suốt 20 năm qua, độ tin cậy quan trọng hơn
- Chỉ cần thêm vài tính năng mới như smartphone, chỉ đường lái xe, lưu trữ đám mây
- Giờ đây thời lượng pin và tính năng kiểm soát của phụ huynh trên thiết bị của con cái mới là điều quan trọng
Một bình luận trong thread Reddit về hiện trạng hiện nay của lập trình bằng AI đã tóm tắt đúng cảm xúc của tôi
- Những kỹ sư mới bước vào lập trình nhờ AI đang bỏ lỡ các yếu tố nền tảng thiết yếu
- Nhưng tôi vẫn thấy yên tâm vì ít nhất vẫn còn chỗ cho mình
Tôi giữ nguyên tắc rằng khi AI viết code thì ít nhất bản thân phải hiểu được đoạn code đó
- Tôi không thể đi theo cách làm của những "vibe coder" không hiểu nổi đoạn code do AI viết ra
Tôi nghĩ workflow quan trọng hơn tác nhân
- Khi tác nhân đã sẵn sàng thực thi công việc với độ chính xác cao, ta có thể dùng workflow
- Tôi sẽ tìm cách tạo ra workflow hiệu quả, chính xác và dễ chẩn đoán
Google Flights đã cung cấp UX gần như hoàn hảo
- Khi dùng tác nhân AI, tôi nghĩ tìm kiếm web vẫn đáng tin cậy hơn và nhanh hơn
- Tôi không chắc AI có trở nên hữu ích hay không, và cũng nghi ngờ liệu việc kiểm thử đã được thực hiện đúng cách chưa

Tác nhân AI: cần "độ tin cậy cao hơn" hơn là "nhiều tính năng hơn"

Nhanh chóng vs. độ tin cậy: thế tiến thoái lưỡng nan của các đội phát triển AI

Nguyên tắc cốt lõi: khả năng dự đoán quan trọng hơn độ phức tạp

Workflow vs. tác nhân

Bài viết liên quan

1 bình luận

Ý kiến Hacker News