Mã nguồn mở Ouroboros của một nhà phát triển Hàn Quốc vượt qua Claude Plan Mode, đứng số 1 trên benchmark mô hình hóa và mô phỏng
(github.com/Q00)Dự án mã nguồn mở Ouroboros do một nhà phát triển Hàn Quốc tạo ra đã
đứng hạng nhất toàn bảng trên benchmark "AI-assisted discrete-event simulation" được công bố gần đây.
Điểm đặc biệt có ý nghĩa là, dù được chạy trong cùng môi trường Claude Max, nó vẫn cho kết quả tốt hơn plan mode của chính Claude.
Benchmark này không phải là bài kiểm tra năng lực lập trình đơn thuần, mà là một bài toán độ khó cao để đánh giá xem tác tử AI có thể hiểu hệ thống thực tế đến mức nào,
mô hình hóa ra sao, và có thể tạo ra kết quả mô phỏng có thể chạy được hay không.
Bài toán lấy hệ thống vận tải trong mỏ làm đối tượng, và về cơ bản yêu cầu các năng lực như sau.
- Hiểu cấu trúc hệ thống như xe tải mỏ, điểm xếp hàng, điểm dỡ hàng, tuyến đường, hàng đợi
- Trừu tượng hóa các quy trình phức tạp ngoài thực tế thành mô hình discrete-event simulation
- Thiết kế những sự kiện nào sẽ xảy ra, trạng thái nào sẽ thay đổi, và chỉ số nào sẽ được đo lường
- Hiện thực mã mô phỏng có thể thực sự chạy được
- Diễn giải kết quả như điểm nghẽn, thông lượng, thời gian chờ
- Tạo ra các đầu ra dễ hiểu với con người như topology diagram, animation
Ouroboros được chạy dưới dạng ooo workflow bên trong Claude Code,
và bài nộp không chỉ dừng ở việc hiện thực mã, mà còn bao gồm cả animation cảnh xe tải mỏ vận chuyển quặng và topology diagram.
Điều thú vị là dù MCP server bị lỗi trong quá trình chạy,
Ouroboros vẫn fallback sang cách tiếp cận dựa trên skills và cho ra kết quả tốt.
Cá nhân tôi cho rằng điểm này đặc biệt có ý nghĩa.
Bởi trong môi trường thực tế, workflow AI không phải lúc nào cũng vận hành lý tưởng,
nên năng lực phục hồi khi thất bại và tiếp tục tiến hành theo một lộ trình khác là rất quan trọng.
Hướng mà Ouroboros nhắm tới không chỉ đơn giản là “để AI viết code”.
Nó tạo ra một workflow trong đó AI làm rõ vấn đề, lập kế hoạch, thực thi, phục hồi sau thất bại, đánh giá kết quả,
và khi cần thì tiếp tục cải thiện lại.
Tôi cho rằng benchmark lần này là một minh chứng tốt cho thấy cách tiếp cận như vậy có ý nghĩa ngay cả trong việc giải quyết các bài toán phức tạp ngoài thực tế.
Một điểm thú vị khác là việc chỉ đơn thuần gắn thêm thật nhiều chỉ dẫn hoặc skill lớn không phải lúc nào cũng cho kết quả tốt.
Trong kết quả lần này, một số cách tiếp cận dựa trên fat skills (ví dụ như superpowers) còn cho hiệu năng thấp hơn cả plan mode cơ bản,
trong khi workflow được cấu trúc theo các bước định nghĩa vấn đề, lập kế hoạch, thực thi, đánh giá và phục hồi như Ouroboros lại cho kết quả tốt hơn.
Cá nhân tôi cảm thấy tự hào ở khía cạnh “một workflow AI mã nguồn mở do nhà phát triển Hàn Quốc tạo ra
đã vượt qua plan mode mặc định của Anthropic”.
Tuy nhiên, điều quan trọng hơn là có thể xem đây như một kết quả thử nghiệm nhỏ về việc trong tương lai tác tử AI cần có cấu trúc như thế nào để giải quyết các vấn đề thực tế.
- Ouroboros GitHub: https://github.com/Q00/ouroboros
- Benchmark: https://lnkd.in/dhGMsGVD
Chưa có bình luận nào.