- 9 tháng trước, tác giả đánh giá rằng AI đã có thể thực hiện phân tích bảo mật mã nguồn tốt đến mức đủ để thực sự thay thế con người, nên đã thành lập một startup
- Ban đầu, khi chuyển từ GPT-4o sang Claude 3.5 sonnet, đã có cải thiện chất lượng rất lớn trong việc giải thích lỗ hổng bảo mật và đánh giá mức độ nghiêm trọng
- Nhưng sau đó, hầu hết các mô hình, bao gồm Claude 3.6 và 3.7, đều không cho thấy cải thiện thực chất nào trong benchmark nội bộ hay năng lực phát hiện lỗi
- Mức tăng hiệu năng chủ yếu đến từ những cải tiến kỹ thuật tổng quát, chứ không phải từ chính mô hình AI
- Các startup khác cũng có trải nghiệm tương tự, và phần lớn đều trải qua chu kỳ công bố mô hình mới → hiệu năng benchmark tốt → hiệu năng thực tế không đáng kể
- Tác giả cho rằng sự phát triển hiện tại của các mô hình AI vẫn chưa đạt đến mức có ý nghĩa về mặt hữu ích kinh tế hay năng lực khái quát hóa
Khoảng cách giữa benchmark AI và hiệu năng thực tế
- Mô hình AI đạt điểm cao trong các bài kiểm tra, nhưng hầu như không phản ánh vào năng lực làm việc thực tế
- Benchmark chủ yếu tập trung vào các vấn đề ngắn và tách biệt, nên không phù hợp với ứng dụng thực tế
- Ví dụ, mô hình Claude gặp khó trong việc duy trì trí nhớ dài hạn đến mức không thể hoàn thành game Pokémon
- Các benchmark như ‘Humanity’s Last Exam’ thoạt nhìn có vẻ quan trọng, nhưng không đánh giá đúng mức độ hữu ích thực tế
- Tác giả cho biết trong tương lai sẽ chỉ tin vào các benchmark dựa trên sử dụng thực tế như Claude Plays Pokemon khi đánh giá năng lực AI
Vấn đề về độ tin cậy của các viện nghiên cứu AI
- Các viện nghiên cứu AI đang ở trong một cuộc cạnh tranh mang tính văn minh, và một số nơi có động cơ thổi phồng hiệu năng hoặc chỉ công bố có chọn lọc các kết quả tốt
- Trên thực tế, các benchmark mà OpenAI, Anthropic và các bên khác sử dụng hầu hết đều dựa trên các tập kiểm tra đã công khai, nên có khả năng bị thao túng
- Ngoài các đánh giá nửa kín như ARC-AGI, gần như mọi kết quả đều có khả năng dựa trên các bộ dữ liệu đã được dùng để huấn luyện
- Cách diễn giải lạc quan nhất là vấn đề không nằm ở giới hạn kỹ thuật, mà ở hành vi gian lận của con người
Lý do mang tính cấu trúc khiến benchmark không phản ánh được mức độ hữu ích thực tế
- Các bài kiểm tra IQ ở người có tương quan với nhiều thành tựu thực tế khác nhau, nhưng benchmark AI thì không
- Phần lớn benchmark AI được cấu thành từ các câu đố độc lập hoặc các bài toán giải quyết vấn đề ngắn hạn
- AI rất yếu trong các yêu cầu của bài toán thực tế như ghi nhớ, nhận thức ngữ cảnh, theo dõi mục tiêu
- Benchmark thuận tiện cho phát triển và đánh giá, nhưng có mức liên quan thấp tới năng lực tổng thể trong thế giới thực
Mô hình AI có thể thông minh, nhưng hiệu năng bị giới hạn bởi vấn đề căn chỉnh (alignment)
- Công ty của tác giả sử dụng AI trong kiểm tra bảo mật mã nguồn thực tế, nhưng mô hình không hiểu rõ ngữ cảnh công việc
- Mô hình không thể làm theo chỉ dẫn chỉ báo cáo các vấn đề thực sự ảnh hưởng đến dịch vụ, và thường xuyên đưa ra các cảnh báo không cần thiết
- Điều này là do mô hình được huấn luyện để ưu tiên những phản hồi trông “có vẻ thông minh”
- Dùng cho hội thoại thì ổn, nhưng khi kết hợp vào hệ thống để sử dụng, lỗi sẽ tích lũy và dẫn đến vấn đề
- Những nỗ lực chỉ sửa các triệu chứng bề ngoài sẽ nguy hiểm về lâu dài, và cần giải quyết vấn đề căn chỉnh ở gốc rễ
Suy nghĩ kết lại và hàm ý xã hội
- So với kỳ vọng bị thổi phồng hiện nay, hiệu năng thực tế của AI còn thấp, và điều này phù hợp với ‘trải nghiệm sống’ của nhiều người dùng
- Trước khi các hệ thống AI chưa được căn chỉnh tác động lên toàn xã hội, cần có sự hiểu biết và thiết kế nền tảng hơn
- Quan trọng hơn benchmark chỉ dựa vào kết quả đơn thuần là đánh giá định tính phản ánh các kịch bản sử dụng thực tế
5 bình luận
Tôi đồng ý. Tôi đang dùng khá tốt mô hình claude 3.7 trên perplexity, nhưng gần đây cũng dùng gemini 2.5 và thực sự cảm nhận được hiệu năng của nó rất tốt.
Dạo này sao chỉ toàn đăng những tin kiểu như báo kinh tế vậy
Mình thấy quá tuyệt luôn mà...
Dạo này chắc phải đặt tiêu đề cỡ này thì mới câu được tương tác.
Ý kiến trên Hacker News
Mẹ tôi nói rằng Paul Newman từng gặp vấn đề với rượu. Khi hỏi ChatGPT, nó trả lời rằng Paul Newman không nổi tiếng vì có vấn đề với rượu
Trong kỳ USAMO gần đây, các mô hình SOTA đạt điểm trung bình 5%. Điều này cho thấy các mô hình AI thực ra không giải bài toán mà chỉ đang ghi nhớ các kết quả trong quá khứ
LLM có xu hướng muốn báo cáo ra điều gì đó nên thường phóng đại
Đọc phản ứng với bài viết này khá thú vị. Nó cho thấy phản ứng tập thể của chúng ta rất đa dạng và dựa nhiều vào giai thoại
Trải nghiệm cá nhân của tôi phù hợp với quan điểm của tác giả
Sự cải thiện trong kết quả benchmark và sự thiếu cải thiện trong công việc thực tế phản ánh đúng bản chất của LLM
Cuối tuần qua tôi đã dùng gemini 2.5, và nó rất xuất sắc
Ngay cả khi việc phát triển LLM dừng lại ngay bây giờ, chúng ta vẫn sẽ tiếp tục tìm ra các cách dùng mới trong 10 năm tới
Là người dùng LLM và các plugin hỗ trợ lập trình, tôi cảm thấy GPT/Claude đã tệ đi trong 12 tháng qua