Tự động chấm điểm các cuộc thảo luận Hacker News 10 năm trước bằng LLM

(karpathy.bearblog.dev)

4 điểm bởi GN⁺ 2025-12-11 | 1 bình luận | Chia sẻ qua WhatsApp

Đây là một dự án dùng LLM để phân tích các bài đăng và bình luận trên Hacker News cách đây 10 năm nhằm đánh giá ‘khả năng dự báo’, tự động chấm điểm mức độ sâu sắc của các cuộc thảo luận trong quá khứ
Sử dụng ChatGPT 5.1 Thinking và Opus 4.5 để thu thập và phân tích trang nhất Hacker News trong tháng 12/2015 (tổng cộng 930 bài viết)
Dựa trên từng bài viết và chuỗi bình luận, hệ thống tự động tạo tóm tắt, kết quả thực tế, bình luận chính xác nhất/bình luận sai nhất, điểm độ thú vị v.v.
Kết quả được chuyển thành các trang HTML tĩnh và có thể xem tại karpathy.ai/hncapsule; trong ‘Hall of Fame’ có thể xem bảng xếp hạng những người bình luận sâu sắc nhất
Bài viết nhấn mạnh khả năng phân tích hồi cố quy mô lớn của LLM đối với dữ liệu quá khứ, cùng thông điệp rằng “LLM của tương lai đang dõi theo chúng ta”

Tổng quan dự án

Xây dựng một hệ thống phân tích hồi cố tự động bằng LLM cho trang nhất Hacker News tháng 12/2015
- 30 bài/ngày × 31 ngày = tổng cộng 930 bài
- Thu thập từng bài và chuỗi bình luận qua Algolia API, sau đó yêu cầu ChatGPT 5.1 Thinking phân tích
Kết quả phân tích được render thành các trang HTML tĩnh và đăng lên website
- Trang kết quả: https://karpathy.ai/hncapsule/
- Dữ liệu gốc (data.zip) cũng được cung cấp tại cùng địa chỉ

Cấu trúc prompt phân tích

Với mỗi bài viết, dùng một prompt gồm 6 phần
1. Tóm tắt bài viết và thảo luận
2. Những gì thực sự đã xảy ra sau đó
3. Chọn ra bình luận chính xác nhất và bình luận sai nhất
4. Các yếu tố thú vị khác
5. Danh sách điểm cuối cùng (Final grades) theo từng người bình luận
6. Điểm độ thú vị hồi cố của bài viết (0~10 điểm)
Định dạng ví dụ được quy định nghiêm ngặt để chương trình có thể tự động parse
Tích lũy điểm trung bình của từng tài khoản để xác định người dùng có khả năng dự báo cao nhất

Triển khai và chi phí

Được triển khai bằng Opus 4.5 trong khoảng 3 giờ; ngoài một vài lỗi nhỏ thì nhìn chung diễn ra suôn sẻ
Chi phí xử lý toàn bộ 930 yêu cầu LLM là khoảng 58 USD, thời gian xử lý khoảng 1 giờ
Kho GitHub: karpathy/hn-time-capsule
- Bất kỳ ai cũng có thể tái hiện hoặc chỉnh sửa kết quả

Các chuỗi thảo luận tiêu biểu

Ngày 3/12/2015: Swift mã nguồn mở
Ngày 6/12: Figma ra mắt
Ngày 11/12: Thông báo thành lập OpenAI
Ngày 16/12: Dự án Comma của geohot
Ngày 22/12: Vụ phóng SpaceX Orbcomm-2
Ngày 28/12: Tin đưa về các vấn đề của Theranos
Mỗi liên kết dẫn tới trang phân tích theo ngày tương ứng, cho phép so sánh thảo luận khi đó với kết quả thực tế

Hall of Fame

Những người bình luận sâu sắc nhất trên Hacker News trong tháng 12/2015 được sắp xếp theo điểm trung bình kiểu IMDb
Những người dùng đứng đầu: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
Phần cuối cũng gồm danh sách những người dùng điểm thấp bị xếp vào nhóm ‘nhiễu của HN (noise)’

Thông điệp mang tính triết học

Trích dẫn câu “Be good, future LLMs are watching”, bài viết nhấn mạnh rằng
một thời đại mà LLM tương lai có thể phân tích tỉ mỉ hoạt động của con người trong quá khứ đang đến gần
Gợi ý rằng hành vi trực tuyến hiện tại có thể được khôi phục hoàn toàn trong một tương lai nơi ‘trí tuệ trở nên quá rẻ’
Nêu ra khả năng hành vi con người sẽ trở thành đối tượng của việc ghi lại và tái dựng hoàn toàn, chứ không chỉ là một kiểu ‘giám sát vô hình’

Kết luận

Thí nghiệm này cho thấy LLM có thể được dùng như công cụ tái đánh giá dữ liệu quá khứ ở quy mô lớn
Đồng thời đưa ra một trường hợp ứng dụng mới: tự động chấm điểm mức độ sâu sắc của các cuộc thảo luận lịch sử, qua đó cho thấy khả năng AI tiến hóa thành nhà phân tích hồi cố đối với tri thức của con người

1 bình luận

GN⁺ 2025-12-11

Ý kiến trên Hacker News

Không ngờ bình luận tôi để lại năm 2015 lại được chú ý trở lại như thế này
Đang thấy hơi tự hào khi nhìn lại link bình luận cũ
Có vẻ vấn đề là đoạn mã không ẩn danh tên người dùng khi gửi thread đi để chấm điểm
Vì vậy, danh tiếng của một số người dùng cụ thể rất có thể sẽ tạo ra thiên lệch trong điểm số
Sẽ khá thú vị nếu thử nghiệm việc gán lại tên người dùng ngẫu nhiên hoặc dùng bút danh được tạo tự động để giảm thiên lệch
Ngoài ra, nếu dùng mô hình có trích dẫn nguồn như Gemini API thì có lẽ sẽ tăng độ tin cậy của việc đánh giá
Đọc lại các bình luận cũ thực sự rất thú vị
Tôi đã tự làm một hệ thống replay để xem các cuộc thảo luận ngày xưa đã diễn tiến ra sao
Chia sẻ vài link ví dụ trực quan hóa danh sách các bài được Karpathy đánh giá
- Swift is Open Source
- Launch of Figma
- Introducing OpenAI
- Self-driving car by iPhone hacker
- SpaceX Orbcomm-2 Mission
- At Theranos, Many Strategies and Snags
- Tôi cũng muốn thử phân tích cảm xúc theo từng khung giờ trong ngày
  Có vẻ khác biệt ý kiến giữa buổi sáng và buổi tối khá lớn, nên nếu xác nhận được bằng số liệu thì sẽ rất thú vị
- Trang này thực sự rất hay. Cảm ơn
Sẽ hay nếu có tiện ích mở rộng Chrome hiển thị điểm mức độ khớp với thực tế bên cạnh tên mỗi người dùng
Kiểu điểm cho biết ai đã đưa ra dự đoán đúng thật sự, hoặc ai đã sai
Xa hơn nữa, nếu gán trọng số theo tỷ lệ upvote mà người dùng dành cho các bình luận chính xác thì có lẽ bảng xếp hạng sẽ công bằng hơn
- Reddit Enhancement Suite gián tiếp cung cấp tính năng tương tự
  Tôi theo dõi những người dùng mà tôi thường upvote, rồi lấy đó làm tiêu chuẩn kiểu “người này đáng tin”
  Hoàn toàn mang tính chủ quan nhưng vẫn có tính minh bạch
- Nếu mở rộng hệ thống điểm kiểu này thì có khi còn tạo được điểm kiểu “người này không có niềm tin đạo đức”
  Những hệ thống như vậy cũng có thể khiến cộng đồng trở nên nhỏ hơn và gần gũi hơn
- Trước khi Elon mua Twitter, tôi nhớ ông ấy từng định làm hệ thống theo dõi độ tin cậy số của nhà báo (Pravda)
  Trên thực tế, chúng ta cũng sống bằng cách ghi nhớ độ đáng tin của bạn bè hay nhà báo
- Tôi cũng từng nghĩ đến ý tưởng tương tự trong cộng đồng chứng khoán
  Tức là xếp hạng độ chính xác của những người đưa ra dự đoán cổ phiếu trên WSB hay Twitter
  Chỉ có điều với bình luận thông thường thì định nghĩa “cái gì là dự đoán” khó hơn rất nhiều
- Định nghĩa về “bình luận chính xác” không rõ ràng
  Một câu như “ngày mai mặt trời mọc” có thể nhận điểm cao nhất, nhưng điều đó chẳng có ý nghĩa gì
Tôi đùa là “pcwalton, lên nào!”, nhưng thực ra việc đánh giá theo từng thread trông khá ngẫu nhiên
Thread này có khả năng dự đoán rất tốt, nhưng chỉ có 11 bình luận và bình luận của tôi chỉ là một dòng
Dù vậy, việc ý kiến của tôi về khả năng tiếp cận cổ phần startup lọt top vẫn khiến tôi thấy vui
- Tôi ngạc nhiên khi thấy bình luận của mình được đem đi chấm
  Cách hệ thống định nghĩa “dự đoán” khá chủ quan
  Thực ra tôi còn cố tránh đưa ra dự đoán, vậy mà hình như nó vẫn bị xem là dự đoán
Tôi bị đánh giá là tầm nhìn “trillion tamagotchi” đã không thành hiện thực, nên tôi khiêm tốn chấp nhận điểm thấp của mình
Điều tôi cảm nhận khi xem dự án này là rốt cuộc những ý kiến nhàm chán mới là chính xác nhất
Càng là bình luận giật gân và đầy chắc chắn thì theo thời gian càng dễ sai
Ví dụ như “giá pin lithium-ion giảm xuống $108/kWh” là kiểu dự báo đường cong chi phí ổn định nên rất đáng tin
Ngược lại, những tiêu đề như “LLM thất bại trong lĩnh vực sức khỏe tâm thần” lại phụ thuộc vào benchmark thay đổi rất nhanh
Rốt cuộc, sẽ thật tuyệt nếu có cách tìm ra trước những ý kiến “nhàm chán nhưng đúng”
- Có ý kiến cho rằng “nhàm chán nhưng đúng” là những dự đoán đã được phản ánh vào thế giới rồi nên khó chấm điểm
- Một câu đùa kiểu “năm 2035 thì 1+1=2” để châm biếm sự vô nghĩa của những dự đoán quá hiển nhiên
- “LLM và sức khỏe tâm thần” không phải là dự đoán mà là tin tức hiện tại
  Nhưng xét ở chỗ AI tiến bộ đều đặn cuối cùng có thể làm sụp đổ vai trò kinh tế của con người, thì biết đâu đó lại là một dự đoán đáng sợ mà chính xác
- Vì feed thuật toán hoạt động dựa trên mức độ tương tác, nên nội dung giật gân được thưởng
  Vì vậy những ý kiến nhàm chán và thận trọng rất dễ bị chìm nghỉm
- Khi đánh giá dự đoán thì phải phản ánh cả mức độ bất định tại thời điểm đó vào trọng số
  Giống như prediction market, cần một cách chấm điểm dựa trên việc dự đoán đó đã lệch bao xa so với xác suất khi ấy
Sau khi nhận cảnh báo Gmail đã đầy 90%, tôi đã làm một dự án phân tích email trong suốt cuối tuần
Tôi phân loại hơn 65 nghìn email, và hơn một nửa là rác
Ban đầu tôi định xóa những thư không cần thiết, nhưng dạo này tôi lại nghĩ rằng sẽ an toàn hơn nếu xóa các email cá nhân và có giá trị
và chỉ để lại cho Google những dữ liệu vô dụng như newsletter hay hóa đơn
Tôi thường xuyên dùng LLM để tóm tắt bình luận HN
Nhiều khi nó cho ra bản tóm tắt sâu sắc hơn cả nguyên văn, nên tôi thấy đây hoàn toàn là game changer
Tôi ngạc nhiên vì tác giả lại nghĩ rằng nó đã vượt qua kiểm tra chất lượng
Việc đánh giá của LLM trông phần lớn là vớ vẩn
Nếu xem review trên trang thật, có vẻ mô hình đánh giá không phải dựa trên “dự đoán có đúng không” mà là “nó có đồng ý không”
Rốt cuộc đây là một cấu trúc mà ý kiến thuận theo số đông sẽ nhận điểm cao
- Ví dụ, bình luận của tptacek về DF được chấm ‘A’,
  review của LLM nói rằng
  nó “mô tả rất tốt bản chất khắc nghiệt của trò chơi”
  Nhưng đó không phải là dự đoán tương lai mà chỉ là mô tả hiện trạng tại thời điểm đó
  Hơn nữa, trên thực tế ý nghĩa còn có thể là ngược lại
  Việc những trường hợp như vậy nằm trong top cho thấy tiêu chí chấm điểm đang rất tệ
- Tuy nhiên, ở phần thứ ba của mỗi review lại có mục bình luận “sâu sắc nhất” và “sai nhất” riêng
  Ví dụ với bài Kickstarter is Debt,
  dự đoán so sánh tương lai của Oculus và Pebble được đánh giá là đúng rất chính xác
  Những phần như vậy trông là phân tích khá chính xác và hữu ích
- Đánh giá của LLM nhìn chung thiếu chính xác và không nhất quán
  Nó bỏ qua chỉ dẫn, trộn ý kiến cá nhân vào, và cũng không được hiệu chỉnh
  Một hệ thống giám khảo LLM “tốt” nên hoạt động bằng cách cộng dồn nhiều phán định nhị phân đơn giản (đúng/sai)
  Dự án lần này thì xem cho vui khá ổn, nhưng tôi nghĩ không phù hợp để dùng như công cụ đánh giá thực tế

Tự động chấm điểm các cuộc thảo luận Hacker News 10 năm trước bằng LLM

Tổng quan dự án

Cấu trúc prompt phân tích

Triển khai và chi phí

Các chuỗi thảo luận tiêu biểu

Hall of Fame

Thông điệp mang tính triết học

Kết luận

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News