9 điểm bởi princox 2026-03-07 | 6 bình luận | Chia sẻ qua WhatsApp

Đây là một benchmark trong đó tác giả, một committer của Ruby, yêu cầu Claude Code triển khai mini Git bằng 13 ngôn ngữ và đo thời gian, chi phí cùng số dòng mã. Mỗi ngôn ngữ được chạy 20 lần, tổng cộng 600 lần, và mô hình sử dụng là Claude Opus 4.6.

Kết quả cho thấy Ruby ($0.36) → Python ($0.38) → JavaScript ($0.39) là nhanh và rẻ nhất, trong khi các ngôn ngữ kiểu tĩnh chậm hơn 1.42.6 lần và cũng tốn kém hơn. Khi thêm type checker, Python/mypy chậm hơn 1.61.7 lần, còn Ruby/Steep chậm hơn 2~3.2 lần. OCaml và Haskell, dù có ít dòng mã, vẫn xếp ở nhóm giữa đến dưới do tiêu thụ nhiều token thinking.

Tác giả nhấn mạnh rằng “sự khác biệt giữa 30 giây và 60 giây ảnh hưởng đến khả năng tập trung và luồng phát triển, và bản thân tốc độ phát triển cũng là một chiều của chất lượng”. Tuy vậy, ông cũng nói thêm rằng benchmark này có giới hạn là chỉ là một tác vụ đơn lẻ ở quy mô prototype; ở quy mô lớn, kiểu tĩnh có thể có lợi thế.

6 bình luận

 
savvykang 2026-03-08

Có vẻ đây là phép đo tổng hợp trong đó các biến ngoài đặc tính ngôn ngữ đã bị trộn lẫn vào. Trên GitHub có kết quả về thời gian tiêu tốn cho từng thí nghiệm nhưng không có nhật ký chạy. Ngay cả chỉ số đo lường phổ biến nhất là thời gian cho từng tác vụ chi tiết cũng khó xác nhận, và với đặc tính đầu ra của LLM thì có vẻ không thể tái hiện được.

Bản thân tác giả cũng thừa nhận trong phần hạn chế rằng đây là công việc mang tính một lần ở giai đoạn nguyên mẫu. Dù vậy, nhìn chung tôi cho rằng đây là một thí nghiệm thiếu minh bạch và không kiểm soát được biến số.

 
princox 2026-03-09

Sẽ thật tốt nếu có ai đó so sánh nhiều ngôn ngữ thông qua một thí nghiệm quy mô lớn,
nhưng đến mức thử nghiệm như vậy thì ngay cả ở cấp độ doanh nghiệp cũng không dễ thực hiện, huống chi khi là một thành viên cộng đồng làm thì khó mà có được một thí nghiệm chính xác.

Tôi đã tìm ở nhiều nơi nhưng cũng không dễ để tìm được thông tin đủ ổn.

Điều đó cũng là đương nhiên, vì liệu có ai sẵn sàng tự bỏ chi phí của mình ra để thiết kế bài bản và thử nghiệm xem ngôn ngữ nào tốt hơn hay không...

Tôi cũng nghĩ đây là một thí nghiệm có nhiều giới hạn, nhưng vẫn thấy đáng quý vì ít nhất cũng đã có một sự thử nghiệm như vậy..^^

 
happing94 2026-03-07

Lại là Ruby chết tiệt đó
Tác giả Ruby đã tự thử nghiệm rồi nên chắc sẽ nói Ruby là tốt thôi

 
spp00 2026-03-08

Nhưng do đặc tính của Ruby nên mức tiêu thụ token khó mà không thấp. Vì ngôn ngữ này phù hợp để viết code ngắn gọn, nên lượng token tiêu thụ cũng giảm tương ứng, chẳng hạn ở số lượng token đầu ra.

 
princox 2026-03-09

Haha, phải thừa nhận là người viết là committer của ngôn ngữ Ruby nên có thể hơi thiên vị một chút.

 
skageektp 2026-03-07

Nếu hỏi là bạn tin tưởng nhất vào implementation của ngôn ngữ nào… thì… lol