- Đây là một dự án dùng LLM để phân tích các bài đăng và bình luận trên Hacker News cách đây 10 năm nhằm đánh giá ‘khả năng dự báo’, tự động chấm điểm mức độ sâu sắc của các cuộc thảo luận trong quá khứ
- Sử dụng ChatGPT 5.1 Thinking và Opus 4.5 để thu thập và phân tích trang nhất Hacker News trong tháng 12/2015 (tổng cộng 930 bài viết)
- Dựa trên từng bài viết và chuỗi bình luận, hệ thống tự động tạo tóm tắt, kết quả thực tế, bình luận chính xác nhất/bình luận sai nhất, điểm độ thú vị v.v.
- Kết quả được chuyển thành các trang HTML tĩnh và có thể xem tại karpathy.ai/hncapsule; trong ‘Hall of Fame’ có thể xem bảng xếp hạng những người bình luận sâu sắc nhất
- Bài viết nhấn mạnh khả năng phân tích hồi cố quy mô lớn của LLM đối với dữ liệu quá khứ, cùng thông điệp rằng “LLM của tương lai đang dõi theo chúng ta”
Tổng quan dự án
- Xây dựng một hệ thống phân tích hồi cố tự động bằng LLM cho trang nhất Hacker News tháng 12/2015
- 30 bài/ngày × 31 ngày = tổng cộng 930 bài
- Thu thập từng bài và chuỗi bình luận qua Algolia API, sau đó yêu cầu ChatGPT 5.1 Thinking phân tích
- Kết quả phân tích được render thành các trang HTML tĩnh và đăng lên website
Cấu trúc prompt phân tích
- Với mỗi bài viết, dùng một prompt gồm 6 phần
- Tóm tắt bài viết và thảo luận
- Những gì thực sự đã xảy ra sau đó
- Chọn ra bình luận chính xác nhất và bình luận sai nhất
- Các yếu tố thú vị khác
- Danh sách điểm cuối cùng (Final grades) theo từng người bình luận
- Điểm độ thú vị hồi cố của bài viết (0~10 điểm)
- Định dạng ví dụ được quy định nghiêm ngặt để chương trình có thể tự động parse
- Tích lũy điểm trung bình của từng tài khoản để xác định người dùng có khả năng dự báo cao nhất
Triển khai và chi phí
- Được triển khai bằng Opus 4.5 trong khoảng 3 giờ; ngoài một vài lỗi nhỏ thì nhìn chung diễn ra suôn sẻ
- Chi phí xử lý toàn bộ 930 yêu cầu LLM là khoảng 58 USD, thời gian xử lý khoảng 1 giờ
- Kho GitHub: karpathy/hn-time-capsule
- Bất kỳ ai cũng có thể tái hiện hoặc chỉnh sửa kết quả
Các chuỗi thảo luận tiêu biểu
- Ngày 3/12/2015: Swift mã nguồn mở
- Ngày 6/12: Figma ra mắt
- Ngày 11/12: Thông báo thành lập OpenAI
- Ngày 16/12: Dự án Comma của geohot
- Ngày 22/12: Vụ phóng SpaceX Orbcomm-2
- Ngày 28/12: Tin đưa về các vấn đề của Theranos
- Mỗi liên kết dẫn tới trang phân tích theo ngày tương ứng, cho phép so sánh thảo luận khi đó với kết quả thực tế
Hall of Fame
- Những người bình luận sâu sắc nhất trên Hacker News trong tháng 12/2015 được sắp xếp theo điểm trung bình kiểu IMDb
- Những người dùng đứng đầu: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
- Phần cuối cũng gồm danh sách những người dùng điểm thấp bị xếp vào nhóm ‘nhiễu của HN (noise)’
Thông điệp mang tính triết học
- Trích dẫn câu “Be good, future LLMs are watching”, bài viết nhấn mạnh rằng
một thời đại mà LLM tương lai có thể phân tích tỉ mỉ hoạt động của con người trong quá khứ đang đến gần
- Gợi ý rằng hành vi trực tuyến hiện tại có thể được khôi phục hoàn toàn trong một tương lai nơi ‘trí tuệ trở nên quá rẻ’
- Nêu ra khả năng hành vi con người sẽ trở thành đối tượng của việc ghi lại và tái dựng hoàn toàn, chứ không chỉ là một kiểu ‘giám sát vô hình’
Kết luận
- Thí nghiệm này cho thấy LLM có thể được dùng như công cụ tái đánh giá dữ liệu quá khứ ở quy mô lớn
- Đồng thời đưa ra một trường hợp ứng dụng mới: tự động chấm điểm mức độ sâu sắc của các cuộc thảo luận lịch sử, qua đó cho thấy khả năng AI tiến hóa thành nhà phân tích hồi cố đối với tri thức của con người
1 bình luận
Ý kiến trên Hacker News
Không ngờ bình luận tôi để lại năm 2015 lại được chú ý trở lại như thế này
Đang thấy hơi tự hào khi nhìn lại link bình luận cũ
Có vẻ vấn đề là đoạn mã không ẩn danh tên người dùng khi gửi thread đi để chấm điểm
Vì vậy, danh tiếng của một số người dùng cụ thể rất có thể sẽ tạo ra thiên lệch trong điểm số
Sẽ khá thú vị nếu thử nghiệm việc gán lại tên người dùng ngẫu nhiên hoặc dùng bút danh được tạo tự động để giảm thiên lệch
Ngoài ra, nếu dùng mô hình có trích dẫn nguồn như Gemini API thì có lẽ sẽ tăng độ tin cậy của việc đánh giá
Đọc lại các bình luận cũ thực sự rất thú vị
Tôi đã tự làm một hệ thống replay để xem các cuộc thảo luận ngày xưa đã diễn tiến ra sao
Chia sẻ vài link ví dụ trực quan hóa danh sách các bài được Karpathy đánh giá
Có vẻ khác biệt ý kiến giữa buổi sáng và buổi tối khá lớn, nên nếu xác nhận được bằng số liệu thì sẽ rất thú vị
Sẽ hay nếu có tiện ích mở rộng Chrome hiển thị điểm mức độ khớp với thực tế bên cạnh tên mỗi người dùng
Kiểu điểm cho biết ai đã đưa ra dự đoán đúng thật sự, hoặc ai đã sai
Xa hơn nữa, nếu gán trọng số theo tỷ lệ upvote mà người dùng dành cho các bình luận chính xác thì có lẽ bảng xếp hạng sẽ công bằng hơn
Tôi theo dõi những người dùng mà tôi thường upvote, rồi lấy đó làm tiêu chuẩn kiểu “người này đáng tin”
Hoàn toàn mang tính chủ quan nhưng vẫn có tính minh bạch
Những hệ thống như vậy cũng có thể khiến cộng đồng trở nên nhỏ hơn và gần gũi hơn
Trên thực tế, chúng ta cũng sống bằng cách ghi nhớ độ đáng tin của bạn bè hay nhà báo
Tức là xếp hạng độ chính xác của những người đưa ra dự đoán cổ phiếu trên WSB hay Twitter
Chỉ có điều với bình luận thông thường thì định nghĩa “cái gì là dự đoán” khó hơn rất nhiều
Một câu như “ngày mai mặt trời mọc” có thể nhận điểm cao nhất, nhưng điều đó chẳng có ý nghĩa gì
Tôi đùa là “pcwalton, lên nào!”, nhưng thực ra việc đánh giá theo từng thread trông khá ngẫu nhiên
Thread này có khả năng dự đoán rất tốt, nhưng chỉ có 11 bình luận và bình luận của tôi chỉ là một dòng
Dù vậy, việc ý kiến của tôi về khả năng tiếp cận cổ phần startup lọt top vẫn khiến tôi thấy vui
Cách hệ thống định nghĩa “dự đoán” khá chủ quan
Thực ra tôi còn cố tránh đưa ra dự đoán, vậy mà hình như nó vẫn bị xem là dự đoán
Tôi bị đánh giá là tầm nhìn “trillion tamagotchi” đã không thành hiện thực, nên tôi khiêm tốn chấp nhận điểm thấp của mình
Điều tôi cảm nhận khi xem dự án này là rốt cuộc những ý kiến nhàm chán mới là chính xác nhất
Càng là bình luận giật gân và đầy chắc chắn thì theo thời gian càng dễ sai
Ví dụ như “giá pin lithium-ion giảm xuống $108/kWh” là kiểu dự báo đường cong chi phí ổn định nên rất đáng tin
Ngược lại, những tiêu đề như “LLM thất bại trong lĩnh vực sức khỏe tâm thần” lại phụ thuộc vào benchmark thay đổi rất nhanh
Rốt cuộc, sẽ thật tuyệt nếu có cách tìm ra trước những ý kiến “nhàm chán nhưng đúng”
Nhưng xét ở chỗ AI tiến bộ đều đặn cuối cùng có thể làm sụp đổ vai trò kinh tế của con người, thì biết đâu đó lại là một dự đoán đáng sợ mà chính xác
Vì vậy những ý kiến nhàm chán và thận trọng rất dễ bị chìm nghỉm
Giống như prediction market, cần một cách chấm điểm dựa trên việc dự đoán đó đã lệch bao xa so với xác suất khi ấy
Sau khi nhận cảnh báo Gmail đã đầy 90%, tôi đã làm một dự án phân tích email trong suốt cuối tuần
Tôi phân loại hơn 65 nghìn email, và hơn một nửa là rác
Ban đầu tôi định xóa những thư không cần thiết, nhưng dạo này tôi lại nghĩ rằng sẽ an toàn hơn nếu xóa các email cá nhân và có giá trị
và chỉ để lại cho Google những dữ liệu vô dụng như newsletter hay hóa đơn
Tôi thường xuyên dùng LLM để tóm tắt bình luận HN
Nhiều khi nó cho ra bản tóm tắt sâu sắc hơn cả nguyên văn, nên tôi thấy đây hoàn toàn là game changer
Tôi ngạc nhiên vì tác giả lại nghĩ rằng nó đã vượt qua kiểm tra chất lượng
Việc đánh giá của LLM trông phần lớn là vớ vẩn
Nếu xem review trên trang thật, có vẻ mô hình đánh giá không phải dựa trên “dự đoán có đúng không” mà là “nó có đồng ý không”
Rốt cuộc đây là một cấu trúc mà ý kiến thuận theo số đông sẽ nhận điểm cao
review của LLM nói rằng
nó “mô tả rất tốt bản chất khắc nghiệt của trò chơi”
Nhưng đó không phải là dự đoán tương lai mà chỉ là mô tả hiện trạng tại thời điểm đó
Hơn nữa, trên thực tế ý nghĩa còn có thể là ngược lại
Việc những trường hợp như vậy nằm trong top cho thấy tiêu chí chấm điểm đang rất tệ
Ví dụ với bài Kickstarter is Debt,
dự đoán so sánh tương lai của Oculus và Pebble được đánh giá là đúng rất chính xác
Những phần như vậy trông là phân tích khá chính xác và hữu ích
Nó bỏ qua chỉ dẫn, trộn ý kiến cá nhân vào, và cũng không được hiệu chỉnh
Một hệ thống giám khảo LLM “tốt” nên hoạt động bằng cách cộng dồn nhiều phán định nhị phân đơn giản (đúng/sai)
Dự án lần này thì xem cho vui khá ổn, nhưng tôi nghĩ không phù hợp để dùng như công cụ đánh giá thực tế