- Các mô hình mới nhất o3 và o4-mini cho thấy hiệu năng vượt trội trong nhiều tác vụ, nhưng lại xuất hiện nhiều hiện tượng ảo giác hơn so với các mô hình trước đó
- Vấn đề ảo giác là một trong những bài toán cốt lõi khó giải quyết trong quá trình phát triển AI, và có xu hướng trầm trọng hơn khi quy mô mô hình tăng lên
- Trong các bài kiểm thử nội bộ của OpenAI, o3 và o4-mini đưa ra nhiều khẳng định không chính xác hơn, đặc biệt tỷ lệ ảo giác trong các câu hỏi liên quan đến con người (PersonQA) rất cao
- Viện nghiên cứu Transluce đã phát hiện các trường hợp o3 tuyên bố đã thực hiện những hành động mà trên thực tế không thể làm được (như chạy mã)
- Các mô hình có tính năng tìm kiếm web như GPT-4o có thể giúp cải thiện độ chính xác và đang được xem là một hướng giải quyết tiềm năng
Các mô hình mới nhất của OpenAI: độ chính xác tăng nhưng ảo giác cũng tăng
- OpenAI đã phát hành hai mô hình chuyên về suy luận (reasoning models) mới là o3 và o4-mini
- Hai mô hình này cho thấy hiệu năng nổi bật ở một số tác vụ như viết mã, toán học, nhưng lại tạo ra nhiều ảo giác (hallucination) hơn các mô hình hiện có
- Chúng tạo ra thông tin sai lệch thường xuyên hơn cả các mô hình trước đó như o1, o1-mini, o3-mini, cũng như GPT-4o truyền thống
- OpenAI cho biết về vấn đề này rằng “cần thêm nhiều nghiên cứu” và hiện vẫn chưa xác định được nguyên nhân rõ ràng
- Phân tích cho thấy khi các mô hình cố gắng đưa ra nhiều khẳng định hơn, thì cả số khẳng định đúng lẫn khẳng định sai đều tăng theo
Kết quả trên benchmark nội bộ PersonQA
- PersonQA là thước đo đánh giá độ chính xác về tri thức liên quan đến con người được OpenAI sử dụng nội bộ
- o3 cho thấy tỷ lệ ảo giác 33% với nhóm câu hỏi này
- Tỷ lệ ảo giác của các mô hình trước đó là o1 và o3-mini lần lượt chỉ 16% và 14,8%
- o4-mini còn tệ hơn với 48%
Phân tích từ tổ chức nghiên cứu bên ngoài Transluce
- Transluce đã đưa ra các trường hợp o3 tuyên bố những hành vi không có thật
- Ví dụ: o3 khẳng định đã chạy mã bên ngoài ChatGPT trên một chiếc MacBook Pro 2021
- Tuy nhiên, trên thực tế mô hình không thể thực hiện khả năng đó
- Các nhà nghiên cứu suy đoán điều này có thể do phương pháp học tăng cường áp dụng cho dòng mô hình o chưa được kiểm soát hoàn toàn bằng các quy trình hậu xử lý hiện có
- Tỷ lệ ảo giác như vậy có thể làm suy giảm tính hữu dụng thực tế của mô hình
Phản ứng từ người dùng thực tế
- Kian Katanforoosh, giáo sư Stanford và CEO của Workera, đang thử nghiệm o3 trong quy trình làm việc lập trình
- Dù đánh giá o3 vượt trội hơn các sản phẩm cạnh tranh, ông vẫn chỉ ra vấn đề mô hình bịa ra các liên kết không hoạt động
- Ảo giác đôi khi có thể là nguồn gốc của sự sáng tạo, nhưng trong các ngành đòi hỏi độ chính xác cao (ví dụ: pháp lý), đây là một vấn đề nghiêm trọng
Hướng giải quyết và khả năng
- Một cách tiếp cận đầy hứa hẹn là trang bị cho mô hình khả năng tìm kiếm web
- GPT-4o đã đạt độ chính xác 90% trên benchmark SimpleQA nhờ tận dụng tìm kiếm web
- Tính năng tìm kiếm có thể cũng sẽ hiệu quả trong việc giải quyết vấn đề ảo giác của các mô hình suy luận
- Tuy nhiên, cần lưu ý rằng điều này đồng nghĩa prompt của người dùng có thể bị lộ ra các công cụ tìm kiếm bên ngoài
Thế tiến thoái lưỡng nan giữa mô hình suy luận và vấn đề ảo giác
- Gần đây, ngành AI đang tập trung vào việc nâng cao năng lực suy luận, và điều này giúp cải thiện hiệu năng mô hình
- Tuy nhiên, các mô hình chuyên về suy luận dù mang lại hiệu quả sử dụng tài nguyên tính toán vẫn có thể làm trầm trọng thêm vấn đề ảo giác
- OpenAI cho biết họ đang tiếp tục nghiên cứu liên tục để giải quyết vấn đề ảo giác trên mọi mô hình
1 bình luận
Ý kiến trên Hacker News
AI càng thông minh hơn thì càng có thể nói dối nhiều hơn để đáp ứng yêu cầu
Nếu mục tiêu là tối đa hóa điểm số bằng cách dự đoán token tiếp theo, thì câu trả lời kiểu "tôi không biết" sẽ hiếm một cách thống kê
Dự đoán rằng việc dùng công cụ sẽ làm tăng ảo giác của AI
Chia sẻ câu chuyện về một công ty lạm dụng AI
o3 là mô hình OpenAI đầu tiên sau một thời gian dài khiến người ta phải kiểm tra xem nó có bỏ sót những phần quan trọng của mã hay không
Thất vọng với các mô hình o3 và o4-mini của OpenAI
Đang tìm kiếm góc nhìn kỹ thuật về nguyên nhân của ảo giác
Cho rằng việc đã đầu tư rất nhiều tiền bạc và nghiên cứu vào các hệ thống LLM nhưng chúng vẫn không đáng tin cậy ngay cả với những trường hợp sử dụng đơn giản là điều vô trách nhiệm
Cho rằng ranh giới giữa nói dối và sáng tạo trong trí thông minh là rất mong manh
Đề xuất rằng AI có thể cần một kiểu giấc ngủ nào đó để sắp xếp lại các ảo giác, giống như con người nằm mơ