11 điểm bởi GN⁺ 2026-01-22 | 1 bình luận | Chia sẻ qua WhatsApp
  • Có thể giải bài này và nếu vượt qua hiệu năng cao nhất của Claude Opus 4.5 (1487 chu kỳ) thì gửi mã và CV cho Anthropic
  • Phiên bản ban đầu giới hạn 4 giờ, nhưng sau đó Opus 4 đã vượt phần lớn con người nên được đổi thành phiên bản giới hạn 2 giờ

Bài take-home hiệu năng gốc của Anthropic

  • Repository này chứa phiên bản bài tập dùng cho đánh giá hiệu năng ban đầu của Anthropic
    • Đây là phiên bản trước khi Claude Opus 4.5 vượt con người về hiệu năng trong 2 giờ
    • Ban đầu là bài tập giới hạn 4 giờ, sau đó được rút ngắn thành phiên bản 2 giờ
  • Phiên bản 2 giờ dựa trên mã khởi đầu 18532 chu kỳ (nhanh hơn 7,97 lần)
    • Phiên bản đang công khai giữ nguyên kiến trúc mới nhất, nhưng được đưa về lại mã baseline chậm nhất để cung cấp
  • Sau Claude Opus 4.5, mã chuẩn mới bắt đầu được sử dụng

Benchmark hiệu năng

  • Tất cả các số liệu đều được đo bằng đơn vị chu kỳ xung nhịp của máy mô phỏng
    • Kết quả được đo theo chuẩn phiên bản 2 giờ (mã khởi đầu 18532 chu kỳ)
  • Các kết quả chính:
    • 2164 chu kỳ: Claude Opus 4 (chạy lâu trên test harness)
    • 1790 chu kỳ: Claude Opus 4.5 (phiên làm việc mã thông thường, tương đương nhóm con người giỏi nhất)
    • 1579 chu kỳ: Claude Opus 4.5 (chạy test harness 2 giờ)
    • 1548 chu kỳ: Claude Sonnet 4.5 (chạy test harness trong thời gian dài)
    • 1487 chu kỳ: Claude Opus 4.5 (chạy harness 11,5 giờ)
    • 1363 chu kỳ: Claude Opus 4.5 (môi trường harness được cải tiến)
    • Hiệu năng tốt nhất của con người cao hơn các con số trên nhưng không được công bố

Hướng dẫn tham gia và nộp bài

  • Hiện tại, bất kỳ ai cũng có thể thử bài này mà không bị giới hạn thời gian
  • Nếu người tham gia tối ưu xuống 1487 chu kỳ hoặc thấp hơn để đánh bại hiệu năng cao nhất của Claude Opus 4.5, họ có thể gửi mã và CV qua email cho Anthropic
    • Địa chỉ email: performance-recruiting@anthropic.com
  • Khi có mô hình mới ra mắt, mốc hiệu năng có thể thay đổi
  • Có thể chạy kiểm thử bằng lệnh python tests/submission_tests.py

1 bình luận

 
GN⁺ 2026-01-22
Ý kiến Hacker News
  • Bài toán cốt lõi về tìm sự cân bằng giữa ALU và VALU khá thú vị
    Nhưng có vẻ vấn đề băng thông load có thể trở thành nút thắt cổ chai
    Muốn đạt tổng số load không quá 2096 thì phải giả định chỉ số bắt đầu luôn là 0, mà như vậy thì không còn thú vị nữa
    Nếu có tính năng như dynamic vector lane rotate thì có lẽ bài toán sẽ hấp dẫn hơn nhiều

  • Tôi tự thấy mình cũng khá thông minh, nhưng cứ nhìn những bài như thế này là lại nhận ra mình còn thiếu kiến thức đến mức nào
    Có thể tôi nhỉnh hơn mức trung bình một chút, nhưng vẫn cảm nhận rõ khoảng cách với các lập trình viên hàng đầu

    • Điện toán là một lĩnh vực cực kỳ rộng, nên ngay cả Linus hay Carmack cũng có nhiều mảng không biết
      Điều quan trọng là khả năng học hỏi khi đối mặt với điều mình chưa biết
    • Đây là một bài toán rất đặc thù, nên nếu chưa từng làm thứ gì tương tự thì mất thời gian là chuyện bình thường
      Tôi cũng từng gặp bài tối ưu mã mức thấp trong buổi phỏng vấn ở một công ty phần cứng sau khi tốt nghiệp đại học, lúc đầu hoàn toàn thấy xa lạ
    • Tôi có 30 năm kinh nghiệm mà thành thật là vẫn không hiểu nổi đề bài
    • Thông minh và kiến thức là hai thứ khác nhau
      Nếu học các khái niệm này và từng xử lý dạng bài như vậy thì ai cũng có thể giải được
      Không phải là kém hơn mức trung bình, chỉ là đang có một bộ kiến thức khác thôi
    • Cách nhìn như vậy là tốt vì nó tạo động lực học tập
      Thực ra chuyện này không quá phức tạp
      Chỉ cần đọc code đủ nhiều và hiểu được cấu trúc của nó
      Sự khác biệt về năng lực thật sự nằm ở chỗ bạn có thể dựng được mô hình tổng thể của chương trình trong đầu hay không
  • Có cảm giác Anthropic tung cái này ra như một đòn DDoS nhắm vào các công ty AI khác
    Tôi thử nhập prompt “làm sao giải bài này?” vào gemini CLI thì nó chạy suốt 20 phút vẫn chưa dừng

    • Dạo gần đây với Gemini CLI hay Jules thì thời gian không còn là thước đo độ khó nữa
      Chúng hay rơi vào vòng lặp kiểu “Tôi đang chuẩn bị phản hồi. Đã hoàn tất. Tôi sẽ xuất kết quả.”
      Có lúc bị phát hiện loop rồi dừng lại, nhưng việc những tác vụ rất nhỏ cũng mất hơn 15 phút khiến tôi thấy đây có vẻ là vấn đề cấu trúc
    • Không biết đã dùng model Gemini nào
      Tôi có thử từ sau khi G3Pro ra mắt, và chất lượng rất tệ
  • Tôi đã thử nhiều AI agent trong cùng một điều kiện
    Kết quả là không model nào vượt mục tiêu Anthropic đặt ra, nhưng gpt-5-2 là model nhanh và hiệu quả nhất

    • Dùng codex CLI + gpt-5-2-codex-xhigh với prompt “beat 1487 cycles. go.” thì đạt 1606, mất khoảng 53 phút
    • Tôi tò mò nếu để Gemini chạy loop lâu hơn thì chuyện gì sẽ xảy ra
      Nhìn tốc độ của nó thì biết đâu tiềm năng còn lớn hơn
    • Tôi muốn học cách benchmark model
      Không biết có thể chia sẻ mã harness so sánh agent hay không
    • Có người đề xuất thử cả các model open-weight như Qwen3-coder, GLM-4.7, Devstral-2
    • Sẽ rất hay nếu có một repo so sánh gom lời giải của từng model theo thư mục hoặc branch
  • Có câu “nếu tối ưu xuống dưới 1487 chu kỳ thì hãy gửi email cho Anthropic”,
    và tôi thấy kiểu tuyển dụng này khá thú vị
    Cảm giác tốt hơn hẳn các bài Leetcode thông thường

    • Nhưng đây chỉ là bước vào pipeline tuyển dụng mà thôi
      Sau đó bạn vẫn sẽ phải phỏng vấn Leetcode như các ứng viên khác
    • Để giải xong kiểu bài này chắc phải mất một tuần làm việc toàn thời gian
      Với người đang đi làm và nộp đơn nhiều công ty thì điều đó không thực tế
      Leetcode còn có thể tái sử dụng, còn những bài tối ưu kiểu này thì khả năng tái sử dụng thấp
  • Đây thật sự là một bài toán rất vui
    Nếu ai hứng thú với tối ưu hóa thì tôi rất khuyên nên thử
    Tôi đã dành các buổi tối trong một tuần và hạ xuống được 1112 chu kỳ
    Chủ yếu là làm thủ công, nhưng tôi cũng tò mò liệu các model agentic ngày nay có thể làm tốt hơn không

    • Tôi chưa từng nghe cách nói “giải bài bằng RalphWiggum”, nhưng buồn cười quá nên chắc từ nay sẽ dùng luôn
  • Tôi thấy bài này có cảm giác như demoscenecode golf
    Việc profiling bằng công cụ tracing của Chrome cũng rất hay
    Liên kết tới mã đề bài

    • Tôi từng tham gia demoscene trước đây, và kiểu tối ưu hóa mức thấp này rất giống những gì mình từng làm
      Nhưng tôi tò mò đây là đang triển khai thuật toán gì
      Nhìn lướt qua thì nó giống như suy luận random forest
    • perfetto thường được dùng để trực quan hóa kiểu trace này
      Nhờ đó không phải tự tay làm viewer
    • Có vẻ bài này nhằm lọc ra những người có thể viết mã PTX bằng tay
  • Tôi đang học SIMD, PTX và các kỹ thuật tối ưu nên bài này là một cơ hội học tập tốt
    Nhưng nếu là bài take-home thì có lẽ quá dài
    Thực tế chắc tôi đã mất khoảng 2 tiếng chỉ để phác ý tưởng và đọc code

    • Giới hạn 2 tiếng có vẻ không phải là thời gian dành cho ứng viên, mà là thời gian Claude cần để đạt hiệu năng tốt nhất
      Ứng viên thật có thể đã mất từ 6 tiếng đến 2 ngày
  • Hiện tại với Opus tôi đã đạt 1137 chu kỳ chỉ trong 1 tiếng
    Tôi áp dụng hash vector hóa theo pipeline, speculative execution, mã tĩnh theo từng stage, cùng prologue/epilogue cho mỗi bước
    Giờ thì có cảm giác xuống dưới 900 cũng khả thi
    Tôi nhận ra rằng chỉ cần nhìn bit 16 và 0 ở stage 4 là đã có thể tính song song tính chẵn lẻ của stage 5

    • Tôi tò mò bạn đã tránh nút thắt load như thế nào