Thiết kế vòng lặp với Fable 5
(x.com/RLanceMartin)- Hai kỹ thuật cốt lõi để tận dụng hiệu quả Claude Fable 5, mô hình lớp Mythos đã thay đổi cách làm việc nội bộ tại Anthropic, là self-correction loop và memory
- Goal·rubric được thiết kế tốt sẽ đưa phản hồi vào môi trường, tạo cấu trúc để Claude thực hiện → thu thập phản hồi → tự sửa lặp lại cho đến khi đạt mục tiêu
- Trong bài toán kỹ thuật ML Parameter Golf, Fable 5 cải thiện pipeline huấn luyện khoảng 6 lần so với Opus 4.7
- Thông qua memory như một outer loop kéo dài qua nhiều phiên, Claude có thể tái sử dụng những gì đã ghi lại trong một phiên ở các phiên sau
- Điểm cốt lõi là thay vì prompt hay điều khiển trực tiếp, thiết kế vòng lặp để mô hình tự sửa và tự quản lý ngữ cảnh sẽ hiệu quả hơn
Self-correction loop (vòng lặp tự sửa)
- Công thức phổ biến để cải thiện hiệu năng tác vụ là để mô hình hillclimb dựa trên tiêu chí đánh giá
- bcherny nói rằng "công việc của mình là viết các vòng lặp"
- /goal của Claude Code và Outcomes của Claude Managed Agent là các primitive áp dụng công thức này vào từng tác vụ cụ thể
- Goal hoặc rubric được thiết kế tốt sẽ bổ sung phản hồi vào môi trường nơi Claude chạy, rồi tiếp tục thực thi, thu thập phản hồi, tự sửa cho đến khi đáp ứng goal/rubric
Bài test Parameter Golf
- Parameter Golf là thử thách kỹ thuật ML mã nguồn mở nhằm huấn luyện mô hình có hiệu năng cao nhất nằm trong artifact 16MB trên 8xH100 trong vòng 10 phút
- Bài test kiểm tra khả năng chỉnh sửa một file
train_gpt.py, chạy huấn luyện, polling log, kiểm tra điểm số và quyết định thí nghiệm tiếp theo - Tương tự dự án autoresearch của karpathy
- Bài test kiểm tra khả năng chỉnh sửa một file
- So sánh Fable 5 và Opus 4.7 bằng Claude Managed Agents (CMA)
- CMA cung cấp agent harness và sandbox được host sẵn, phù hợp với các tác vụ chạy dài của Fable 5
- Với Parameter Golf, hệ thống cung cấp GPU 8xH100 trong self-hosted sandbox
Tầm quan trọng của chủ thể chấm điểm
- Xác nhận rằng mô hình gặp vấn đề với self-critique đối với chính đầu ra của mình (được Prithvi Rajasekaran mô tả trong blog kỹ thuật)
- Verifier sub-agent tốt hơn self-critique vì việc chấm điểm diễn ra trong một context window độc lập
- Outcomes của CMA tự động tạo grader sub-agent để xử lý việc này
- Cung cấp rubric gồm 9 tiêu chí có thể kiểm tra được (chạy baseline, thực hiện 20 thí nghiệm, v.v.) và cho phép chạy tối đa 8 giờ
- Grader của Outcomes chỉ cho phép Claude kết thúc công việc sau khi xác nhận đã đáp ứng mọi tiêu chí thí nghiệm
So sánh kết quả
- Fable 5 cải thiện pipeline huấn luyện khoảng 6 lần so với Opus 4.7
- Khi chia thí nghiệm thành loại cấu trúc (thay đổi kiến trúc) và scalar (điều chỉnh hằng số), Fable 5 đặt cược vào những thay đổi cấu trúc lớn hơn và thể hiện độ bền bỉ cao (vượt qua quantization regression để đạt kết quả tối đa)
- Opus 4.7 sau một chút kết quả ở thí nghiệm đầu tiên thì phần lớn lặp lại cùng một template: điều chỉnh scalar · đo lường · nếu tích cực thì giữ nguyên
Memory (bộ nhớ)
- Là outer loop kéo dài qua nhiều phiên, cho phép truy xuất và tái sử dụng memory được viết trong các phiên trước ở những phiên sau
- Nhóm pgasawa công bố Continual Learning Bench 1.0
- Đây là benchmark thực tế đầu tiên đo mức độ một hệ thống AI có thể tự cải thiện trong môi trường online
- Các benchmark trước đó giả định mô hình là stateless và xử lý từng ví dụ một cách độc lập
Cấu hình thử nghiệm
- Trong một bài toán benchmark, so sánh Fable 5·Opus 4.7·Sonnet 4.6
- Đây là tác vụ trả lời các câu hỏi tuần tự với quyền truy cập SQL database; mỗi câu hỏi là một phiên agent riêng biệt và có memory
- Sử dụng memory của CMA, cung cấp mounted filesystem có thể chia sẻ giữa các phiên cho từng agent
Các bước sử dụng memory hiệu quả
- Việc tận dụng memory hiệu quả được tăng cường qua tiến trình fail (ghi lại điểm sai) · investigate (tìm nguyên nhân) · verify (xác thực thành sự thật đã kiểm chứng) · distill (rút thành quy tắc chung) · consult (tham chiếu lại quy tắc)
- Sonnet 4.6 dừng lại gần bước 1
- Kho lưu trữ chủ yếu là ghi chú thất bại và danh sách suy đoán chưa giải quyết ("maybe prc instead of prc_usd?"), gần như không tham chiếu lại ghi chú trước đó
- Cần hướng dẫn memory theo từng tác vụ để cải thiện hiệu năng
- Opus 4.7 dừng lại gần bước 3
- Tạo schema reference có đánh dấu độ bất định ("possibly prc in cents? Verify."), nhưng độ bao phủ xác minh thấp, chỉ 7~33% (median khoảng 17%)
- Fable 5 có xu hướng hoàn tất tiến trình
- Ở lần chạy tốt nhất, độ bao phủ xác minh đạt tối đa 73% (22 trên 30 mục), đồng thời distill những gì học được thành các quy tắc chung hữu ích cho các tác vụ sau
Tổng hợp
- Thay vì prompt hay điều khiển trực tiếp Fable 5, cách hiệu quả hơn là thiết kế vòng lặp để nó phản ứng với phản hồi từ môi trường (/goal, Outcomes), tự sửa và tự quản lý ngữ cảnh bằng memory
- Khuyến nghị trực tiếp thử nghiệm Fable 5 với các vòng lặp tự sửa và memory trên những bài toán thách thức
Chưa có bình luận nào.