6 điểm bởi GN⁺ 2025-04-07 | 5 bình luận | Chia sẻ qua WhatsApp
  • 9 tháng trước, tác giả đánh giá rằng AI đã có thể thực hiện phân tích bảo mật mã nguồn tốt đến mức đủ để thực sự thay thế con người, nên đã thành lập một startup
  • Ban đầu, khi chuyển từ GPT-4o sang Claude 3.5 sonnet, đã có cải thiện chất lượng rất lớn trong việc giải thích lỗ hổng bảo mật và đánh giá mức độ nghiêm trọng
  • Nhưng sau đó, hầu hết các mô hình, bao gồm Claude 3.6 và 3.7, đều không cho thấy cải thiện thực chất nào trong benchmark nội bộ hay năng lực phát hiện lỗi
  • Mức tăng hiệu năng chủ yếu đến từ những cải tiến kỹ thuật tổng quát, chứ không phải từ chính mô hình AI
  • Các startup khác cũng có trải nghiệm tương tự, và phần lớn đều trải qua chu kỳ công bố mô hình mới → hiệu năng benchmark tốt → hiệu năng thực tế không đáng kể
  • Tác giả cho rằng sự phát triển hiện tại của các mô hình AI vẫn chưa đạt đến mức có ý nghĩa về mặt hữu ích kinh tế hay năng lực khái quát hóa

Khoảng cách giữa benchmark AI và hiệu năng thực tế

  • Mô hình AI đạt điểm cao trong các bài kiểm tra, nhưng hầu như không phản ánh vào năng lực làm việc thực tế
  • Benchmark chủ yếu tập trung vào các vấn đề ngắn và tách biệt, nên không phù hợp với ứng dụng thực tế
  • Ví dụ, mô hình Claude gặp khó trong việc duy trì trí nhớ dài hạn đến mức không thể hoàn thành game Pokémon
  • Các benchmark như ‘Humanity’s Last Exam’ thoạt nhìn có vẻ quan trọng, nhưng không đánh giá đúng mức độ hữu ích thực tế
  • Tác giả cho biết trong tương lai sẽ chỉ tin vào các benchmark dựa trên sử dụng thực tế như Claude Plays Pokemon khi đánh giá năng lực AI

Vấn đề về độ tin cậy của các viện nghiên cứu AI

  • Các viện nghiên cứu AI đang ở trong một cuộc cạnh tranh mang tính văn minh, và một số nơi có động cơ thổi phồng hiệu năng hoặc chỉ công bố có chọn lọc các kết quả tốt
  • Trên thực tế, các benchmark mà OpenAI, Anthropic và các bên khác sử dụng hầu hết đều dựa trên các tập kiểm tra đã công khai, nên có khả năng bị thao túng
  • Ngoài các đánh giá nửa kín như ARC-AGI, gần như mọi kết quả đều có khả năng dựa trên các bộ dữ liệu đã được dùng để huấn luyện
  • Cách diễn giải lạc quan nhất là vấn đề không nằm ở giới hạn kỹ thuật, mà ở hành vi gian lận của con người

Lý do mang tính cấu trúc khiến benchmark không phản ánh được mức độ hữu ích thực tế

  • Các bài kiểm tra IQ ở người có tương quan với nhiều thành tựu thực tế khác nhau, nhưng benchmark AI thì không
  • Phần lớn benchmark AI được cấu thành từ các câu đố độc lập hoặc các bài toán giải quyết vấn đề ngắn hạn
  • AI rất yếu trong các yêu cầu của bài toán thực tế như ghi nhớ, nhận thức ngữ cảnh, theo dõi mục tiêu
  • Benchmark thuận tiện cho phát triển và đánh giá, nhưng có mức liên quan thấp tới năng lực tổng thể trong thế giới thực

Mô hình AI có thể thông minh, nhưng hiệu năng bị giới hạn bởi vấn đề căn chỉnh (alignment)

  • Công ty của tác giả sử dụng AI trong kiểm tra bảo mật mã nguồn thực tế, nhưng mô hình không hiểu rõ ngữ cảnh công việc
  • Mô hình không thể làm theo chỉ dẫn chỉ báo cáo các vấn đề thực sự ảnh hưởng đến dịch vụ, và thường xuyên đưa ra các cảnh báo không cần thiết
  • Điều này là do mô hình được huấn luyện để ưu tiên những phản hồi trông “có vẻ thông minh”
  • Dùng cho hội thoại thì ổn, nhưng khi kết hợp vào hệ thống để sử dụng, lỗi sẽ tích lũy và dẫn đến vấn đề
  • Những nỗ lực chỉ sửa các triệu chứng bề ngoài sẽ nguy hiểm về lâu dài, và cần giải quyết vấn đề căn chỉnh ở gốc rễ

Suy nghĩ kết lại và hàm ý xã hội

  • So với kỳ vọng bị thổi phồng hiện nay, hiệu năng thực tế của AI còn thấp, và điều này phù hợp với ‘trải nghiệm sống’ của nhiều người dùng
  • Trước khi các hệ thống AI chưa được căn chỉnh tác động lên toàn xã hội, cần có sự hiểu biết và thiết kế nền tảng hơn
  • Quan trọng hơn benchmark chỉ dựa vào kết quả đơn thuần là đánh giá định tính phản ánh các kịch bản sử dụng thực tế

5 bình luận

 
ifmkl 2025-04-08

Tôi đồng ý. Tôi đang dùng khá tốt mô hình claude 3.7 trên perplexity, nhưng gần đây cũng dùng gemini 2.5 và thực sự cảm nhận được hiệu năng của nó rất tốt.

 
say8425 2025-04-07

Dạo này sao chỉ toàn đăng những tin kiểu như báo kinh tế vậy

 
sjisrich 2025-04-07

Mình thấy quá tuyệt luôn mà...

 
kandk 2025-04-07

Dạo này chắc phải đặt tiêu đề cỡ này thì mới câu được tương tác.

 
GN⁺ 2025-04-07
Ý kiến trên Hacker News
  • Mẹ tôi nói rằng Paul Newman từng gặp vấn đề với rượu. Khi hỏi ChatGPT, nó trả lời rằng Paul Newman không nổi tiếng vì có vấn đề với rượu

    • ChatGPT giải thích rằng sự nghiệp diễn xuất, hoạt động từ thiện và niềm đam mê đua xe của Paul Newman mới là những điều được chú ý nhiều hơn
    • Tuy nhiên, trên mạng có rất nhiều bằng chứng về vấn đề rượu của ông, bao gồm cả lời kể của vợ ông là Joanne Woodward
    • Khi tôi gửi câu trả lời của ChatGPT cho mẹ, bà chỉ mất 5 phút để tìm ra các nguồn có thẩm quyền
    • Tôi dùng ChatGPT hằng ngày, nhưng vẫn không thể hiểu nổi vì sao nó có thể sai về một điều đơn giản như vậy
    • Bài học rút ra là đừng nghi ngờ kiến thức điện ảnh của mẹ
  • Trong kỳ USAMO gần đây, các mô hình SOTA đạt điểm trung bình 5%. Điều này cho thấy các mô hình AI thực ra không giải bài toán mà chỉ đang ghi nhớ các kết quả trong quá khứ

    • Dù có kết quả như vậy, các công ty vẫn không công khai những nỗ lực loại bỏ dữ liệu bài thi khỏi tập huấn luyện
  • LLM có xu hướng muốn báo cáo ra điều gì đó nên thường phóng đại

    • Chúng có xu hướng trả lời "có" cho câu hỏi
    • Cuộc cạnh tranh giữa các LLM đang dần đẩy điểm benchmark lên cao, nhưng những cải thiện đó chỉ là ảo giác
    • LLM có xu hướng đồng tình, và điều này không hề được cải thiện
    • Việc đánh giá mô hình trong các kịch bản agent là rất quan trọng
  • Đọc phản ứng với bài viết này khá thú vị. Nó cho thấy phản ứng tập thể của chúng ta rất đa dạng và dựa nhiều vào giai thoại

    • Có người đúng và có người sai, và tôi tò mò những đặc điểm nào báo hiệu khả năng đưa ra "lựa chọn tốt hơn" về AI
  • Trải nghiệm cá nhân của tôi phù hợp với quan điểm của tác giả

    • LLM được huấn luyện để "nghe có vẻ thông minh" trong cuộc trò chuyện với người dùng, nên có xu hướng nhấn mạnh vấn đề
    • Điều này phù hợp với mục đích của ngôn ngữ trong hầu hết các tình huống, và LLM được huấn luyện bằng ngôn ngữ
  • Sự cải thiện trong kết quả benchmark và sự thiếu cải thiện trong công việc thực tế phản ánh đúng bản chất của LLM

    • LLM là hệ thống dự đoán, và nếu được huấn luyện trong một miền cụ thể thì hiệu năng ở miền đó sẽ tăng lên
    • Không ai kỳ vọng rằng việc huấn luyện toán cao cấp sẽ làm khả năng lập trình tốt hơn
  • Cuối tuần qua tôi đã dùng gemini 2.5, và nó rất xuất sắc

    • Còn tùy vào mục đích sử dụng, và tôi vẫn chưa chắc LLM sẽ dẫn chúng ta tới đâu
  • Ngay cả khi việc phát triển LLM dừng lại ngay bây giờ, chúng ta vẫn sẽ tiếp tục tìm ra các cách dùng mới trong 10 năm tới

    • Công nghệ này đang phát triển quá nhanh nên hệ quả của nó khiến tôi sợ
    • Tôi hy vọng nó sẽ chạm tới điểm lợi nhuận giảm dần, nhưng tôi không thực sự tin điều đó
  • Là người dùng LLM và các plugin hỗ trợ lập trình, tôi cảm thấy GPT/Claude đã tệ đi trong 12 tháng qua

    • Tôi nghĩ các mô hình đã "đủ tốt", và giờ chúng ta cần thấy sự cải thiện ở công cụ và ứng dụng
    • Tôi nghĩ MCP là một bước đi tốt theo đúng hướng, nhưng nhìn chung tôi vẫn hoài nghi