- Có thể giải bài này và nếu vượt qua hiệu năng cao nhất của Claude Opus 4.5 (1487 chu kỳ) thì gửi mã và CV cho Anthropic
- Phiên bản ban đầu giới hạn 4 giờ, nhưng sau đó Opus 4 đã vượt phần lớn con người nên được đổi thành phiên bản giới hạn 2 giờ
Bài take-home hiệu năng gốc của Anthropic
- Repository này chứa phiên bản bài tập dùng cho đánh giá hiệu năng ban đầu của Anthropic
- Đây là phiên bản trước khi Claude Opus 4.5 vượt con người về hiệu năng trong 2 giờ
- Ban đầu là bài tập giới hạn 4 giờ, sau đó được rút ngắn thành phiên bản 2 giờ
- Phiên bản 2 giờ dựa trên mã khởi đầu 18532 chu kỳ (nhanh hơn 7,97 lần)
- Phiên bản đang công khai giữ nguyên kiến trúc mới nhất, nhưng được đưa về lại mã baseline chậm nhất để cung cấp
- Sau Claude Opus 4.5, mã chuẩn mới bắt đầu được sử dụng
Benchmark hiệu năng
- Tất cả các số liệu đều được đo bằng đơn vị chu kỳ xung nhịp của máy mô phỏng
- Kết quả được đo theo chuẩn phiên bản 2 giờ (mã khởi đầu 18532 chu kỳ)
- Các kết quả chính:
- 2164 chu kỳ: Claude Opus 4 (chạy lâu trên test harness)
- 1790 chu kỳ: Claude Opus 4.5 (phiên làm việc mã thông thường, tương đương nhóm con người giỏi nhất)
- 1579 chu kỳ: Claude Opus 4.5 (chạy test harness 2 giờ)
- 1548 chu kỳ: Claude Sonnet 4.5 (chạy test harness trong thời gian dài)
- 1487 chu kỳ: Claude Opus 4.5 (chạy harness 11,5 giờ)
- 1363 chu kỳ: Claude Opus 4.5 (môi trường harness được cải tiến)
- Hiệu năng tốt nhất của con người cao hơn các con số trên nhưng không được công bố
Hướng dẫn tham gia và nộp bài
- Hiện tại, bất kỳ ai cũng có thể thử bài này mà không bị giới hạn thời gian
- Nếu người tham gia tối ưu xuống 1487 chu kỳ hoặc thấp hơn để đánh bại hiệu năng cao nhất của Claude Opus 4.5, họ có thể gửi mã và CV qua email cho Anthropic
- Địa chỉ email: performance-recruiting@anthropic.com
- Khi có mô hình mới ra mắt, mốc hiệu năng có thể thay đổi
- Có thể chạy kiểm thử bằng lệnh
python tests/submission_tests.py
1 bình luận
Ý kiến Hacker News
Bài toán cốt lõi về tìm sự cân bằng giữa ALU và VALU khá thú vị
Nhưng có vẻ vấn đề băng thông load có thể trở thành nút thắt cổ chai
Muốn đạt tổng số load không quá 2096 thì phải giả định chỉ số bắt đầu luôn là 0, mà như vậy thì không còn thú vị nữa
Nếu có tính năng như dynamic vector lane rotate thì có lẽ bài toán sẽ hấp dẫn hơn nhiều
Tôi tự thấy mình cũng khá thông minh, nhưng cứ nhìn những bài như thế này là lại nhận ra mình còn thiếu kiến thức đến mức nào
Có thể tôi nhỉnh hơn mức trung bình một chút, nhưng vẫn cảm nhận rõ khoảng cách với các lập trình viên hàng đầu
Điều quan trọng là khả năng học hỏi khi đối mặt với điều mình chưa biết
Tôi cũng từng gặp bài tối ưu mã mức thấp trong buổi phỏng vấn ở một công ty phần cứng sau khi tốt nghiệp đại học, lúc đầu hoàn toàn thấy xa lạ
Nếu học các khái niệm này và từng xử lý dạng bài như vậy thì ai cũng có thể giải được
Không phải là kém hơn mức trung bình, chỉ là đang có một bộ kiến thức khác thôi
Thực ra chuyện này không quá phức tạp
Chỉ cần đọc code đủ nhiều và hiểu được cấu trúc của nó
Sự khác biệt về năng lực thật sự nằm ở chỗ bạn có thể dựng được mô hình tổng thể của chương trình trong đầu hay không
Có cảm giác Anthropic tung cái này ra như một đòn DDoS nhắm vào các công ty AI khác
Tôi thử nhập prompt “làm sao giải bài này?” vào gemini CLI thì nó chạy suốt 20 phút vẫn chưa dừng
Chúng hay rơi vào vòng lặp kiểu “Tôi đang chuẩn bị phản hồi. Đã hoàn tất. Tôi sẽ xuất kết quả.”
Có lúc bị phát hiện loop rồi dừng lại, nhưng việc những tác vụ rất nhỏ cũng mất hơn 15 phút khiến tôi thấy đây có vẻ là vấn đề cấu trúc
Tôi có thử từ sau khi G3Pro ra mắt, và chất lượng rất tệ
Tôi đã thử nhiều AI agent trong cùng một điều kiện
Kết quả là không model nào vượt mục tiêu Anthropic đặt ra, nhưng gpt-5-2 là model nhanh và hiệu quả nhất
Nhìn tốc độ của nó thì biết đâu tiềm năng còn lớn hơn
Không biết có thể chia sẻ mã harness so sánh agent hay không
Có câu “nếu tối ưu xuống dưới 1487 chu kỳ thì hãy gửi email cho Anthropic”,
và tôi thấy kiểu tuyển dụng này khá thú vị
Cảm giác tốt hơn hẳn các bài Leetcode thông thường
Sau đó bạn vẫn sẽ phải phỏng vấn Leetcode như các ứng viên khác
Với người đang đi làm và nộp đơn nhiều công ty thì điều đó không thực tế
Leetcode còn có thể tái sử dụng, còn những bài tối ưu kiểu này thì khả năng tái sử dụng thấp
Đây thật sự là một bài toán rất vui
Nếu ai hứng thú với tối ưu hóa thì tôi rất khuyên nên thử
Tôi đã dành các buổi tối trong một tuần và hạ xuống được 1112 chu kỳ
Chủ yếu là làm thủ công, nhưng tôi cũng tò mò liệu các model agentic ngày nay có thể làm tốt hơn không
Tôi thấy bài này có cảm giác như demoscene và code golf
Việc profiling bằng công cụ tracing của Chrome cũng rất hay
Liên kết tới mã đề bài
Nhưng tôi tò mò đây là đang triển khai thuật toán gì
Nhìn lướt qua thì nó giống như suy luận random forest
Nhờ đó không phải tự tay làm viewer
Tôi đang học SIMD, PTX và các kỹ thuật tối ưu nên bài này là một cơ hội học tập tốt
Nhưng nếu là bài take-home thì có lẽ quá dài
Thực tế chắc tôi đã mất khoảng 2 tiếng chỉ để phác ý tưởng và đọc code
Ứng viên thật có thể đã mất từ 6 tiếng đến 2 ngày
Hiện tại với Opus tôi đã đạt 1137 chu kỳ chỉ trong 1 tiếng
Tôi áp dụng hash vector hóa theo pipeline, speculative execution, mã tĩnh theo từng stage, cùng prologue/epilogue cho mỗi bước
Giờ thì có cảm giác xuống dưới 900 cũng khả thi
Tôi nhận ra rằng chỉ cần nhìn bit 16 và 0 ở stage 4 là đã có thể tính song song tính chẵn lẻ của stage 5