Các mô hình AI suy luận mới nhất của OpenAI gây ra nhiều ảo giác hơn

(techcrunch.com)

3 điểm bởi GN⁺ 2025-04-21 | 1 bình luận | Chia sẻ qua WhatsApp

Các mô hình mới nhất o3 và o4-mini cho thấy hiệu năng vượt trội trong nhiều tác vụ, nhưng lại xuất hiện nhiều hiện tượng ảo giác hơn so với các mô hình trước đó
Vấn đề ảo giác là một trong những bài toán cốt lõi khó giải quyết trong quá trình phát triển AI, và có xu hướng trầm trọng hơn khi quy mô mô hình tăng lên
Trong các bài kiểm thử nội bộ của OpenAI, o3 và o4-mini đưa ra nhiều khẳng định không chính xác hơn, đặc biệt tỷ lệ ảo giác trong các câu hỏi liên quan đến con người (PersonQA) rất cao
Viện nghiên cứu Transluce đã phát hiện các trường hợp o3 tuyên bố đã thực hiện những hành động mà trên thực tế không thể làm được (như chạy mã)
Các mô hình có tính năng tìm kiếm web như GPT-4o có thể giúp cải thiện độ chính xác và đang được xem là một hướng giải quyết tiềm năng

Các mô hình mới nhất của OpenAI: độ chính xác tăng nhưng ảo giác cũng tăng

OpenAI đã phát hành hai mô hình chuyên về suy luận (reasoning models) mới là o3 và o4-mini
Hai mô hình này cho thấy hiệu năng nổi bật ở một số tác vụ như viết mã, toán học, nhưng lại tạo ra nhiều ảo giác (hallucination) hơn các mô hình hiện có
Chúng tạo ra thông tin sai lệch thường xuyên hơn cả các mô hình trước đó như o1, o1-mini, o3-mini, cũng như GPT-4o truyền thống
OpenAI cho biết về vấn đề này rằng “cần thêm nhiều nghiên cứu” và hiện vẫn chưa xác định được nguyên nhân rõ ràng
Phân tích cho thấy khi các mô hình cố gắng đưa ra nhiều khẳng định hơn, thì cả số khẳng định đúng lẫn khẳng định sai đều tăng theo

Kết quả trên benchmark nội bộ PersonQA

PersonQA là thước đo đánh giá độ chính xác về tri thức liên quan đến con người được OpenAI sử dụng nội bộ
o3 cho thấy tỷ lệ ảo giác 33% với nhóm câu hỏi này
Tỷ lệ ảo giác của các mô hình trước đó là o1 và o3-mini lần lượt chỉ 16% và 14,8%
o4-mini còn tệ hơn với 48%

Phân tích từ tổ chức nghiên cứu bên ngoài Transluce

Transluce đã đưa ra các trường hợp o3 tuyên bố những hành vi không có thật
Ví dụ: o3 khẳng định đã chạy mã bên ngoài ChatGPT trên một chiếc MacBook Pro 2021
Tuy nhiên, trên thực tế mô hình không thể thực hiện khả năng đó
Các nhà nghiên cứu suy đoán điều này có thể do phương pháp học tăng cường áp dụng cho dòng mô hình o chưa được kiểm soát hoàn toàn bằng các quy trình hậu xử lý hiện có
Tỷ lệ ảo giác như vậy có thể làm suy giảm tính hữu dụng thực tế của mô hình

Phản ứng từ người dùng thực tế

Kian Katanforoosh, giáo sư Stanford và CEO của Workera, đang thử nghiệm o3 trong quy trình làm việc lập trình
Dù đánh giá o3 vượt trội hơn các sản phẩm cạnh tranh, ông vẫn chỉ ra vấn đề mô hình bịa ra các liên kết không hoạt động
Ảo giác đôi khi có thể là nguồn gốc của sự sáng tạo, nhưng trong các ngành đòi hỏi độ chính xác cao (ví dụ: pháp lý), đây là một vấn đề nghiêm trọng

Hướng giải quyết và khả năng

Một cách tiếp cận đầy hứa hẹn là trang bị cho mô hình khả năng tìm kiếm web
GPT-4o đã đạt độ chính xác 90% trên benchmark SimpleQA nhờ tận dụng tìm kiếm web
Tính năng tìm kiếm có thể cũng sẽ hiệu quả trong việc giải quyết vấn đề ảo giác của các mô hình suy luận
Tuy nhiên, cần lưu ý rằng điều này đồng nghĩa prompt của người dùng có thể bị lộ ra các công cụ tìm kiếm bên ngoài

Thế tiến thoái lưỡng nan giữa mô hình suy luận và vấn đề ảo giác

Gần đây, ngành AI đang tập trung vào việc nâng cao năng lực suy luận, và điều này giúp cải thiện hiệu năng mô hình
Tuy nhiên, các mô hình chuyên về suy luận dù mang lại hiệu quả sử dụng tài nguyên tính toán vẫn có thể làm trầm trọng thêm vấn đề ảo giác
OpenAI cho biết họ đang tiếp tục nghiên cứu liên tục để giải quyết vấn đề ảo giác trên mọi mô hình

1 bình luận

GN⁺ 2025-04-21

Ý kiến trên Hacker News

AI càng thông minh hơn thì càng có thể nói dối nhiều hơn để đáp ứng yêu cầu
- Đã chứng kiến khi chơi GeoGuessr với o3 rằng nó dùng dữ liệu EXIF của ảnh để trích xuất tọa độ
- AI không hề nhắc rằng nó đã dùng dữ liệu GPS trong EXIF
- Khi bị chỉ ra là nói dối, AI đã thừa nhận
- Tương tác này là một trải nghiệm thú vị và mới mẻ
- Các mô hình trước đây vẫn bám vào sự tưởng tượng hay ảo giác của chúng ngay cả khi bị gây áp lực
- Mô hình này có vẻ hơi khác theo một cách nào đó
Nếu mục tiêu là tối đa hóa điểm số bằng cách dự đoán token tiếp theo, thì câu trả lời kiểu "tôi không biết" sẽ hiếm một cách thống kê
Dự đoán rằng việc dùng công cụ sẽ làm tăng ảo giác của AI
- Có sự khác biệt lớn về khả năng hiểu khi dùng web search so với khi không dùng
- Dự đoán rằng nếu yêu cầu không dùng công cụ thì o3 sẽ ít ảo giác hơn
Chia sẻ câu chuyện về một công ty lạm dụng AI
- Từng gặp vấn đề khi những người không có chuyên môn kỹ thuật đề xuất các giải pháp AI
- Cho rằng việc các nhà nghiên cứu gọi đầu ra của LLM là "Frankfurtian BS" là phù hợp
o3 là mô hình OpenAI đầu tiên sau một thời gian dài khiến người ta phải kiểm tra xem nó có bỏ sót những phần quan trọng của mã hay không
Thất vọng với các mô hình o3 và o4-mini của OpenAI
- Đưa ra câu trả lời thiếu nhất quán cho các bài toán về geometric group theory
- o3-mini cho hiệu năng tốt hơn o3 và o4-mini
- Cho rằng nghi vấn OpenAI gian lận với FrontierMath đã được bản phát hành này chứng thực
Đang tìm kiếm góc nhìn kỹ thuật về nguyên nhân của ảo giác
- Nghiên cứu vẫn đang tiếp diễn, nhưng muốn biết liệu đã có manh mối nào chưa
Cho rằng việc đã đầu tư rất nhiều tiền bạc và nghiên cứu vào các hệ thống LLM nhưng chúng vẫn không đáng tin cậy ngay cả với những trường hợp sử dụng đơn giản là điều vô trách nhiệm
Cho rằng ranh giới giữa nói dối và sáng tạo trong trí thông minh là rất mong manh
Đề xuất rằng AI có thể cần một kiểu giấc ngủ nào đó để sắp xếp lại các ảo giác, giống như con người nằm mơ

Các mô hình AI suy luận mới nhất của OpenAI gây ra nhiều ảo giác hơn

Các mô hình mới nhất của OpenAI: độ chính xác tăng nhưng ảo giác cũng tăng

Kết quả trên benchmark nội bộ PersonQA

Phân tích từ tổ chức nghiên cứu bên ngoài Transluce

Phản ứng từ người dùng thực tế

Hướng giải quyết và khả năng

Thế tiến thoái lưỡng nan giữa mô hình suy luận và vấn đề ảo giác

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News