"Skillify" của Garry Tan — phương pháp biến thất bại của AI agent thành các chỉnh sửa cấu trúc vĩnh viễn
(x.com/garrytan)Đây là bài viết về một phương pháp quản lý chất lượng agent mang tên "Skillify" do CEO Y Combinator Garry Tan đề xuất dựa trên kinh nghiệm vận hành AI agent của chính ông. Bài viết bắt đầu từ vấn đề rằng các framework như LangChain, đã huy động được 160 triệu USD, có cung cấp công cụ kiểm thử nhưng lại thiếu một quy trình làm việc trả lời cho câu hỏi "cần kiểm thử cái gì và theo thứ tự nào". Tan đưa ra checklist 10 bước để chuyển những sai lầm do agent gây ra thành các cấu trúc vĩnh viễn gồm tệp skill Markdown, script mang tính quyết định và kiểm thử tự động, thay vì chỉ sửa prompt một lần rồi thôi.
Khái niệm cốt lõi
- Skillify là gì: khi xảy ra thất bại của agent, đó là hành động chuyển thất bại ấy thành một "skill" (tài liệu quy trình bằng Markdown + script mang tính quyết định + kiểm thử) khiến lỗi đó không thể tái diễn. Nếu nói "skillify it" trong cuộc hội thoại, agent sẽ tự động thực hiện quy trình 10 bước.
- Phân biệt Latent vs. Deterministic: tách bạch rõ ràng các tác vụ cần phán đoán (latent, vùng suy luận của LLM) và các tác vụ cần độ chính xác cao (deterministic, vùng thực thi mã). Ông xem lỗi cốt lõi là việc LLM cố làm "trong đầu" những việc mà mã có thể trả lời ngay, như tính múi giờ hay tìm kiếm lịch.
- Checklist 10 bước: phải vượt qua đầy đủ từ viết
SKILL.md, viết script mang tính quyết định, unit test (vitest), integration test, đánh giá LLM (LLM-as-judge), đăng ký trigger cho resolver, đánh giá resolver, kiểm tra khả năng tiếp cận/trùng lặp, E2E smoke test cho đến quy tắc brain filing thì mới được công nhận là một "skill".
Ví dụ thực tế
- Khi được hỏi về lịch công tác Singapore cách đây 10 năm, agent đã gọi live API suốt 5 phút rồi mới muộn màng phát hiện ra dữ liệu vốn có thể tìm ngay trong 3.146 tệp lịch đã được index sẵn cục bộ
- Một trường hợp trả lời "cuộc họp tiếp theo sau 28 phút" nhưng thực tế là sau 88 phút — LLM đã nhẩm chuyển đổi múi giờ từ UTC sang PT và sai đúng 1 tiếng
- Trong cả hai trường hợp, script sẵn có (chạy trong dưới 100ms) đều đã có đáp án, nhưng nguyên nhân là agent chọn suy luận thay vì chạy script
Điểm khác biệt
- Nếu LangChain mới chỉ dừng ở việc cung cấp "bộ công cụ kiểm thử", thì Skillify tiến thêm một bước bằng cách đưa ra chính quy trình làm việc mang tính quan điểm: "thất bại → skill → kiểm thử → sửa lỗi vĩnh viễn". Nếu framework chỉ cho bạn thẻ thành viên phòng gym, thì Skillify tương đương với một giáo án tập luyện.
- Bài viết cũng chỉ ra rằng Hermes Agent của Nous Research làm tốt việc tự động tạo skill, nhưng vì không có kiểm thử nên theo thời gian các skill sẽ bị mục ruỗng, nhấn mạnh rằng cần cả hai vế: "tạo ra + xác minh".
Hàm ý
- Trong kỹ thuật phần mềm, nguyên tắc "gắn regression test cho mọi bug" đã được xác lập từ năm 2005, nhưng lĩnh vực AI agent vẫn chưa đạt đến mức này. Góc nhìn rằng skill của agent cũng giống codebase và sẽ xuống cấp nếu không có kiểm thử là một lời cảnh báo đáng suy ngẫm cho toàn ngành.
- Trường hợp vận hành hơn 40 skill nhưng 15% không được đăng ký vào resolver nên trở thành "chức năng trong bóng tối" cho thấy khi hệ thống agent đạt quy mô lớn, việc quản lý khả năng được khám phá (discoverability) sẽ trở thành một nhiệm vụ thiết yếu.
2 bình luận
Gresser
Có thể lấy kỹ năng thực thi việc đó ở đâu?
skillify skilllà một tính năng có trong gbrain.https://github.com/garrytan/gbrain/…