- Chỉ với một câu "hãy cấu hình Harness cho tôi", có thể thiết kế một đội ngũ tác nhân chuyên môn phù hợp với từng miền lĩnh vực và tự động tạo cả kỹ năng mà các tác nhân sẽ sử dụng — một meta-skill
- Hỗ trợ 6 mẫu kiến trúc, bao gồm orchestration giữa các tác nhân và giao thức xử lý lỗi
- Mẫu kiến trúc
- Pipeline: các tác vụ phụ thuộc tuần tự
- Fan-out/Fan-in: các tác vụ độc lập song song
- Bể chuyên gia: chọn và gọi theo từng tình huống
- Tạo sinh-xác minh: tạo xong rồi kiểm tra chất lượng
- Giám sát viên: tác nhân trung tâm phân phối động
- Ủy quyền phân cấp: ủy quyền đệ quy từ cấp trên → cấp dưới
- Quy trình làm việc 6 bước: phân tích miền lĩnh vực → thiết kế kiến trúc nhóm (đội tác nhân vs tác nhân con) → tạo định nghĩa tác nhân → tạo kỹ năng → tích hợp và orchestration → xác thực và kiểm thử
- Có hai chế độ thực thi:
- Đội tác nhân (mặc định): phương thức TeamCreate + SendMessage + TaskCreate, khuyến nghị khi cần từ 2 tác nhân trở lên và có cộng tác
- Tác nhân con: gọi trực tiếp công cụ Agent, phù hợp với tác vụ một lần và không cần giao tiếp
- Khi chạy Harness, các file định nghĩa tác nhân (ví dụ: analyst.md, builder.md, qa.md) sẽ được tự động tạo trong
.claude/agents/, còn các file kỹ năng sẽ được tạo trong .claude/skills/
- Ví dụ các cấu hình nhóm có thể tạo
- Nghiên cứu chuyên sâu —
Hãy cấu hình một harness nghiên cứu. Tôi cần một đội tác nhân có thể điều tra bất kỳ chủ đề nào từ nhiều góc độ — tìm kiếm web, tài liệu học thuật, phản hồi cộng đồng — rồi đối chiếu chéo và viết báo cáo tổng hợp.
- Xây dựng website —
Hãy cấu hình một harness phát triển website full-stack. Tôi cần một đội điều phối theo pipeline từ wireframe đến triển khai cho thiết kế, frontend (React/Next.js), backend (API) và kiểm thử QA.
- Sản xuất webtoon —
Hãy cấu hình một harness sản xuất tập webtoon. Tôi cần các tác nhân viết truyện, tạo prompt thiết kế nhân vật, lập kế hoạch bố cục panel và biên tập lời thoại, đồng thời phải review sản phẩm của nhau để đảm bảo tính nhất quán về phong cách.
- Lập kế hoạch nội dung YouTube —
Hãy cấu hình một harness sản xuất nội dung YouTube. Tôi cần một đội do tác nhân giám sát viên điều phối để nghiên cứu xu hướng, viết kịch bản, tối ưu SEO cho tiêu đề/thẻ tag và lên ý tưởng thumbnail.
- Review mã nguồn —
Hãy cấu hình một harness review mã tổng hợp. Tôi cần một đội mà các tác nhân sẽ kiểm tra song song kiến trúc, lỗ hổng bảo mật, nút thắt hiệu năng và phong cách mã, rồi hợp nhất kết quả thành một báo cáo.
- Viết tài liệu kỹ thuật —
Hãy cấu hình một harness tự động tạo tài liệu API từ codebase này. Tôi cần một đội xử lý theo pipeline việc phân tích endpoint, viết mô tả, tạo ví dụ sử dụng và review mức độ hoàn thiện.
- Thiết kế data pipeline —
Hãy cấu hình một harness thiết kế data pipeline. Tôi cần một đội tác nhân ủy quyền theo phân cấp cho thiết kế schema, logic ETL, quy tắc xác thực dữ liệu và thiết lập giám sát.
- Chiến dịch marketing —
Hãy cấu hình một harness tạo chiến dịch marketing. Tôi cần một đội thực hiện nghiên cứu thị trường mục tiêu, viết nội dung quảng cáo, thiết kế concept hình ảnh và lập kế hoạch A/B test, kèm các vòng review chất lượng lặp lại.
- revfactory/harness-100 — công bố 100 harness đội tác nhân sẵn sàng dùng cho production thuộc 10 miền lĩnh vực (200 gói tiếng Hàn/Anh)
- Mỗi harness gồm 4-5 tác nhân chuyên môn, kỹ năng điều phối viên và kỹ năng đặc thù theo miền
- Gồm 1.808 file Markdown cho các lĩnh vực như sản xuất nội dung, phát triển phần mềm, dữ liệu/AI, chiến lược kinh doanh, giáo dục, pháp lý, y tế...
- Tất cả đều được tạo bằng plugin Harness
- Cần bật tính năng đội tác nhân của Claude Code:
CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1
6 bình luận
Kết quả sau khi dùng thực tế là cực kỳ ấn tượng. Bản thân cấu trúc của Harness do anh Minho tạo ra hoạt động theo kiểu fan-in/fan-out, tạo ra nhiều multi-agent phù hợp với instruction theo từng mục đích, và một orchestrator quản lý chúng sẽ phân tách từng bước công việc thành nhiều phase để thực hiện.
Chất lượng đầu ra đạt tới mức bán chuyên gia; đó có thể là báo cáo, hoặc thậm chí là cả một ứng dụng, với các agent đảm nhận nhiều vai trò khác nhau như coder, tester, reviewer và analyst đều hoạt động ở mức rất khá.
Bạn có thể nghĩ rằng giống như MCP hay các công cụ khác, vì Harness mà context sẽ liên tục được giữ ở mức lớn và token sẽ nhanh chóng bị tiêu tốn, nhưng nếu mở context ra xem thì có thể thấy nó đang được sử dụng với hiệu quả tối đa. Tuy vậy, để tạo ra kết quả có tính dễ đọc và sự tinh tế như chúng tôi mong muốn thì cần gắn thêm một Skill tạo ảnh Nano Banana dựa trên Gemini API.
Ngay cả với Claude Max 200 thì có lẽ trong khoảng 1~2 giờ là sẽ chạm giới hạn hằng ngày, và tôi đã dùng Opus.
Đây là kết quả khi tôi đưa lịch trình du lịch Nhật Bản và yêu cầu nó tạo một trang lịch trình du lịch tương tác với vai trò là hướng dẫn viên du lịch Nhật Bản. Kiểu này tốn không nhiều token và làm ra rất nhanh.
http://namojo.github.io/tokyo-tour
Có ai dùng thử rồi cho xin chút đánh giá với
Nếu bạn đã dùng đội tác nhân Claude Code rồi thì không có gì quá đặc biệt.
Tuy vậy, việc xây dựng hạ tầng bằng agents hoặc skills để có thể tiếp tục duy trì thông tin cấu hình đội ngũ ngay cả trong các phiên mới là khá tiện.
Vì khi cấu hình đội ngũ thủ công, những phần kiểu boilerplate dành cho đội thường bị lặp lại.
Có một vấn đề là vì đây là môi trường có tính đến cả subagent lẫn agent team, nên trong mô hình Supervisor, đôi khi xảy ra tình huống kỳ quặc là người giám sát lại giao việc cho subagent dù team đã được tạo sẵn.
Đây là sản phẩm do anh Hwang Min-ho, trưởng nhóm chiến lược AI Native của Kakao, tạo ra.
Tôi đã thấy vài bài anh ấy giới thiệu nên cứ chờ đến bao giờ được công khai.
Tôi sẽ thử dùng xem sao!
Tôi đã dành thời gian và thử tổng hợp lại những gì đã áp dụng. Tôi đã áp dụng thực tế vào monorepo VibeCoding.
Trong ba chế độ Mode A (phát triển), B (kiểm toán mã), C (tích hợp: A+B), tôi đã chọn Mode B trên một dự án đã được triển khai trước đó.
Nhờ vậy có thể phát hiện các hạng mục mà phân tích tĩnh không bắt được, như sự không khớp kiểu giữa frontend/backend.
Tôi đã tổng hợp lại quá trình áp dụng.
https://blog.neocode24.com/blog/claude-code-harness-real-world/
Là người đang tự làm Harness, tôi khá tò mò các kết quả về hiệu quả áp dụng của những dự án mã nguồn mở được thể hiện qua những bài kiểm thử nào. Không biết có tồn tại công cụ benchmark chính thức và được định lượng hay không... Thường thì mọi người xác minh hiệu quả ngoài cảm nhận chủ quan bằng cách nào, tôi cũng khá muốn biết.