Anthropic công bố mã nguồn mở bài take-home đánh giá hiệu năng

(github.com/anthropics)

11 điểm bởi GN⁺ 2026-01-22 | 1 bình luận | Chia sẻ qua WhatsApp

Có thể giải bài này và nếu vượt qua hiệu năng cao nhất của Claude Opus 4.5 (1487 chu kỳ) thì gửi mã và CV cho Anthropic
Phiên bản ban đầu giới hạn 4 giờ, nhưng sau đó Opus 4 đã vượt phần lớn con người nên được đổi thành phiên bản giới hạn 2 giờ

Bài take-home hiệu năng gốc của Anthropic

Repository này chứa phiên bản bài tập dùng cho đánh giá hiệu năng ban đầu của Anthropic
- Đây là phiên bản trước khi Claude Opus 4.5 vượt con người về hiệu năng trong 2 giờ
- Ban đầu là bài tập giới hạn 4 giờ, sau đó được rút ngắn thành phiên bản 2 giờ
Phiên bản 2 giờ dựa trên mã khởi đầu 18532 chu kỳ (nhanh hơn 7,97 lần)
- Phiên bản đang công khai giữ nguyên kiến trúc mới nhất, nhưng được đưa về lại mã baseline chậm nhất để cung cấp
Sau Claude Opus 4.5, mã chuẩn mới bắt đầu được sử dụng

Benchmark hiệu năng

Tất cả các số liệu đều được đo bằng đơn vị chu kỳ xung nhịp của máy mô phỏng
- Kết quả được đo theo chuẩn phiên bản 2 giờ (mã khởi đầu 18532 chu kỳ)
Quảng cáo
Các kết quả chính:
- 2164 chu kỳ: Claude Opus 4 (chạy lâu trên test harness)
- 1790 chu kỳ: Claude Opus 4.5 (phiên làm việc mã thông thường, tương đương nhóm con người giỏi nhất)
- 1579 chu kỳ: Claude Opus 4.5 (chạy test harness 2 giờ)
- 1548 chu kỳ: Claude Sonnet 4.5 (chạy test harness trong thời gian dài)
- 1487 chu kỳ: Claude Opus 4.5 (chạy harness 11,5 giờ)
- 1363 chu kỳ: Claude Opus 4.5 (môi trường harness được cải tiến)
- Hiệu năng tốt nhất của con người cao hơn các con số trên nhưng không được công bố

Hướng dẫn tham gia và nộp bài

Hiện tại, bất kỳ ai cũng có thể thử bài này mà không bị giới hạn thời gian
Nếu người tham gia tối ưu xuống 1487 chu kỳ hoặc thấp hơn để đánh bại hiệu năng cao nhất của Claude Opus 4.5, họ có thể gửi mã và CV qua email cho Anthropic
- Địa chỉ email: performance-recruiting@anthropic.com
Khi có mô hình mới ra mắt, mốc hiệu năng có thể thay đổi
Có thể chạy kiểm thử bằng lệnh python tests/submission_tests.py

1 bình luận

GN⁺ 2026-01-22

Ý kiến Hacker News

Bài toán cốt lõi về tìm sự cân bằng giữa ALU và VALU khá thú vị
Nhưng có vẻ vấn đề băng thông load có thể trở thành nút thắt cổ chai
Muốn đạt tổng số load không quá 2096 thì phải giả định chỉ số bắt đầu luôn là 0, mà như vậy thì không còn thú vị nữa
Nếu có tính năng như dynamic vector lane rotate thì có lẽ bài toán sẽ hấp dẫn hơn nhiều
Tôi tự thấy mình cũng khá thông minh, nhưng cứ nhìn những bài như thế này là lại nhận ra mình còn thiếu kiến thức đến mức nào
Có thể tôi nhỉnh hơn mức trung bình một chút, nhưng vẫn cảm nhận rõ khoảng cách với các lập trình viên hàng đầu
- Điện toán là một lĩnh vực cực kỳ rộng, nên ngay cả Linus hay Carmack cũng có nhiều mảng không biết
  Điều quan trọng là khả năng học hỏi khi đối mặt với điều mình chưa biết
- Đây là một bài toán rất đặc thù, nên nếu chưa từng làm thứ gì tương tự thì mất thời gian là chuyện bình thường
  Tôi cũng từng gặp bài tối ưu mã mức thấp trong buổi phỏng vấn ở một công ty phần cứng sau khi tốt nghiệp đại học, lúc đầu hoàn toàn thấy xa lạ
- Tôi có 30 năm kinh nghiệm mà thành thật là vẫn không hiểu nổi đề bài
- Thông minh và kiến thức là hai thứ khác nhau
  Nếu học các khái niệm này và từng xử lý dạng bài như vậy thì ai cũng có thể giải được
  Không phải là kém hơn mức trung bình, chỉ là đang có một bộ kiến thức khác thôi
- Cách nhìn như vậy là tốt vì nó tạo động lực học tập
  Thực ra chuyện này không quá phức tạp
  Chỉ cần đọc code đủ nhiều và hiểu được cấu trúc của nó
  Sự khác biệt về năng lực thật sự nằm ở chỗ bạn có thể dựng được mô hình tổng thể của chương trình trong đầu hay không
Có cảm giác Anthropic tung cái này ra như một đòn DDoS nhắm vào các công ty AI khác
Tôi thử nhập prompt “làm sao giải bài này?” vào gemini CLI thì nó chạy suốt 20 phút vẫn chưa dừng
- Dạo gần đây với Gemini CLI hay Jules thì thời gian không còn là thước đo độ khó nữa
  Chúng hay rơi vào vòng lặp kiểu “Tôi đang chuẩn bị phản hồi. Đã hoàn tất. Tôi sẽ xuất kết quả.”
  Có lúc bị phát hiện loop rồi dừng lại, nhưng việc những tác vụ rất nhỏ cũng mất hơn 15 phút khiến tôi thấy đây có vẻ là vấn đề cấu trúc
- Không biết đã dùng model Gemini nào
  Tôi có thử từ sau khi G3Pro ra mắt, và chất lượng rất tệ
Tôi đã thử nhiều AI agent trong cùng một điều kiện
Kết quả là không model nào vượt mục tiêu Anthropic đặt ra, nhưng gpt-5-2 là model nhanh và hiệu quả nhất
- Dùng codex CLI + gpt-5-2-codex-xhigh với prompt “beat 1487 cycles. go.” thì đạt 1606, mất khoảng 53 phút
- Tôi tò mò nếu để Gemini chạy loop lâu hơn thì chuyện gì sẽ xảy ra
  Nhìn tốc độ của nó thì biết đâu tiềm năng còn lớn hơn
- Tôi muốn học cách benchmark model
  Không biết có thể chia sẻ mã harness so sánh agent hay không
- Có người đề xuất thử cả các model open-weight như Qwen3-coder, GLM-4.7, Devstral-2
- Sẽ rất hay nếu có một repo so sánh gom lời giải của từng model theo thư mục hoặc branch
Có câu “nếu tối ưu xuống dưới 1487 chu kỳ thì hãy gửi email cho Anthropic”,
và tôi thấy kiểu tuyển dụng này khá thú vị
Cảm giác tốt hơn hẳn các bài Leetcode thông thường
- Nhưng đây chỉ là bước vào pipeline tuyển dụng mà thôi
  Sau đó bạn vẫn sẽ phải phỏng vấn Leetcode như các ứng viên khác
- Để giải xong kiểu bài này chắc phải mất một tuần làm việc toàn thời gian
  Với người đang đi làm và nộp đơn nhiều công ty thì điều đó không thực tế
  Leetcode còn có thể tái sử dụng, còn những bài tối ưu kiểu này thì khả năng tái sử dụng thấp
Đây thật sự là một bài toán rất vui
Nếu ai hứng thú với tối ưu hóa thì tôi rất khuyên nên thử
Tôi đã dành các buổi tối trong một tuần và hạ xuống được 1112 chu kỳ
Chủ yếu là làm thủ công, nhưng tôi cũng tò mò liệu các model agentic ngày nay có thể làm tốt hơn không
- Tôi chưa từng nghe cách nói “giải bài bằng RalphWiggum”, nhưng buồn cười quá nên chắc từ nay sẽ dùng luôn
Tôi thấy bài này có cảm giác như demoscene và code golf
Việc profiling bằng công cụ tracing của Chrome cũng rất hay
Liên kết tới mã đề bài
- Tôi từng tham gia demoscene trước đây, và kiểu tối ưu hóa mức thấp này rất giống những gì mình từng làm
  Nhưng tôi tò mò đây là đang triển khai thuật toán gì
  Nhìn lướt qua thì nó giống như suy luận random forest
- perfetto thường được dùng để trực quan hóa kiểu trace này
  Nhờ đó không phải tự tay làm viewer
- Có vẻ bài này nhằm lọc ra những người có thể viết mã PTX bằng tay
Tôi đang học SIMD, PTX và các kỹ thuật tối ưu nên bài này là một cơ hội học tập tốt
Nhưng nếu là bài take-home thì có lẽ quá dài
Thực tế chắc tôi đã mất khoảng 2 tiếng chỉ để phác ý tưởng và đọc code
- Giới hạn 2 tiếng có vẻ không phải là thời gian dành cho ứng viên, mà là thời gian Claude cần để đạt hiệu năng tốt nhất
  Ứng viên thật có thể đã mất từ 6 tiếng đến 2 ngày
Hiện tại với Opus tôi đã đạt 1137 chu kỳ chỉ trong 1 tiếng
Tôi áp dụng hash vector hóa theo pipeline, speculative execution, mã tĩnh theo từng stage, cùng prologue/epilogue cho mỗi bước
Giờ thì có cảm giác xuống dưới 900 cũng khả thi
Tôi nhận ra rằng chỉ cần nhìn bit 16 và 0 ở stage 4 là đã có thể tính song song tính chẵn lẻ của stage 5
- Tôi tò mò bạn đã tránh nút thắt load như thế nào

Anthropic công bố mã nguồn mở bài take-home đánh giá hiệu năng

Bài take-home hiệu năng gốc của Anthropic

Benchmark hiệu năng

Hướng dẫn tham gia và nộp bài

Bài viết liên quan

1 bình luận

Ý kiến Hacker News