3 điểm bởi ragingwind 2 giờ trước | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Đây là bài viết về phương pháp luận quản lý chất lượng tác nhân có tên "Skillify" do CEO Y Combinator Garry Tan đề xuất dựa trên kinh nghiệm vận hành tác nhân AI của chính ông. Bài viết bắt đầu từ nhận định rằng các framework như LangChain, vốn đã huy động được 160 triệu USD, có cung cấp công cụ kiểm thử nhưng lại thiếu một quy trình làm việc trả lời cho câu hỏi "nên kiểm thử cái gì và theo thứ tự nào". Tan đưa ra một checklist 10 bước để chuyển những sai lầm mà tác nhân gây ra thành các cấu trúc bền vững, thay vì chỉ sửa prompt một lần, với thành phần gồm file skill dạng Markdown, script mang tính quyết định và kiểm thử tự động.

Khái niệm cốt lõi

  • Skillify là gì: khi tác nhân thất bại, đó là hành động chuyển thất bại đó thành một "skill" (quy trình dạng Markdown + script mang tính quyết định + kiểm thử) để lỗi đó không thể tái diễn. Nếu nói "skillify it" trong hội thoại, tác nhân sẽ tự động thực hiện quy trình 10 bước.
  • Phân biệt Latent và Deterministic: tách bạch rõ ràng giữa công việc cần phán đoán (latent, phạm vi suy luận của LLM) và công việc cần độ chính xác cao (deterministic, phạm vi thực thi bằng code). Theo ông, lỗi cốt lõi là để LLM làm "trong đầu" những việc mà code có thể trả lời ngay, như tính múi giờ hay tìm kiếm lịch, rồi dẫn đến sai sót.
  • Checklist 10 bước: chỉ được công nhận là một "skill" khi vượt qua đầy đủ các bước gồm viết SKILL.md, viết script mang tính quyết định, unit test (vitest), integration test, đánh giá LLM (LLM-as-judge), đăng ký trigger cho resolver, đánh giá resolver, kiểm tra khả năng tiếp cận/trùng lặp, E2E smoke test và cả quy tắc brain filing.

Các ví dụ thực tế

  • Một trường hợp hỏi về lịch công tác Singapore từ 10 năm trước, tác nhân đã gọi live API suốt 5 phút rồi mới phát hiện dữ liệu vốn có thể tìm thấy ngay trong 3.146 file lịch đã được index sẵn ở local
  • Một trường hợp trả lời "cuộc họp tiếp theo sau 28 phút" nhưng thực tế là sau 88 phút — LLM nhẩm việc chuyển múi giờ từ UTC sang PT và sai đúng 1 tiếng
  • Trong cả hai trường hợp, script sẵn có (chạy trong vòng dưới 100ms) đều đã có đáp án đúng, nhưng nguyên nhân là tác nhân chọn suy luận thay vì chạy script

Điểm khác biệt

  • Nếu LangChain mới dừng ở việc cung cấp một "bộ công cụ kiểm thử", thì Skillify đưa ra chính quy trình làm việc mang tính quan điểm: "thất bại → skill → kiểm thử → sửa lỗi vĩnh viễn". Nếu framework chỉ giống như đưa thẻ hội viên phòng gym, thì Skillify tương đương với một lịch tập cụ thể.
  • Tác giả chỉ ra rằng Hermes Agent của Nous Research tuy tạo skill tự động tốt nhưng vì không có kiểm thử nên theo thời gian skill sẽ bị xuống cấp, đồng thời nhấn mạnh rằng cần cả hai mặt: "tạo ra + xác minh".

Hàm ý

  • Bài viết nhắc lại rằng trong kỹ thuật phần mềm, nguyên tắc "mọi bug đều phải đi kèm regression test" đã được xác lập từ năm 2005, trong khi lĩnh vực tác nhân AI vẫn chưa đạt đến mức đó. Góc nhìn cho rằng skill của tác nhân cũng sẽ xuống cấp nếu không có kiểm thử, giống như codebase, là một lời cảnh báo có giá trị cho toàn ngành.
  • Trường hợp vận hành hơn 40 skill nhưng 15% không được đăng ký vào resolver và trở thành "chức năng trong bóng tối" cho thấy khi hệ thống tác nhân mở rộng quy mô, quản lý khả năng được phát hiện (discoverability) sẽ trở thành một bài toán bắt buộc.

Chưa có bình luận nào.

Chưa có bình luận nào.