OpenAI công bố SimpleQA, benchmark kiểm tra tính xác thực

(openai.com)

6 điểm bởi GN⁺ 2024-11-02 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

SimpleQA là một benchmark mới để đo lường tính xác thực của các mô hình ngôn ngữ
Việc huấn luyện các mô hình AI tạo ra câu trả lời dựa trên sự thật vẫn là một bài toán chưa được giải quyết
Các mô hình ngôn ngữ hiện nay đôi khi tạo ra đầu ra sai hoặc câu trả lời không được bằng chứng hậu thuẫn. Hiện tượng này được gọi là "hallucinations (ảo giác)"
Những mô hình ngôn ngữ chính xác hơn và ít ảo giác hơn sẽ đáng tin cậy hơn và có thể được ứng dụng trong nhiều lĩnh vực hơn
OpenAI muốn đo lường tính xác thực của mô hình ngôn ngữ thông qua mã nguồn mở SimpleQA

Đặc điểm của benchmark SimpleQA

Vì tính xác thực là một chủ đề khó đo lường, SimpleQA tập trung vào các truy vấn ngắn, hướng đến sự thật
Mục tiêu của SimpleQA:
1. Độ chính xác cao: Hai AI trainer độc lập dùng nguồn tham khảo để hậu thuẫn đáp án đúng và viết câu hỏi sao cho có thể dễ dàng đánh giá câu trả lời dự đoán
2. Tính đa dạng: Bao quát nhiều chủ đề, từ khoa học công nghệ đến chương trình TV và trò chơi điện tử
3. Có tính thách thức với các mô hình mới nhất: Không giống các benchmark trước đây như TriviaQA hay NQ, SimpleQA được tạo ra để trở nên khó hơn với các mô hình hiện đại (ví dụ: GPT-4 ghi dưới 40%)
4. UX thân thiện với nhà nghiên cứu: Nhờ câu hỏi và câu trả lời ngắn gọn, SimpleQA chạy nhanh và đơn giản. Việc đánh giá thông qua OpenAI API hoặc API của các mô hình hiện đại khác cũng hiệu quả. Với 4.326 câu hỏi, phương sai với vai trò benchmark đánh giá cũng được kỳ vọng là tương đối thấp

Quy trình tạo bộ dữ liệu SimpleQA

Các AI trainer duyệt web để tạo ra các câu hỏi ngắn, hướng đến sự thật cùng với câu trả lời tương ứng
Để được đưa vào bộ dữ liệu, mỗi câu hỏi phải đáp ứng các tiêu chí nghiêm ngặt sau:
- Phải có một đáp án duy nhất, rõ ràng và dễ đánh giá
- Câu trả lời cho câu hỏi không được thay đổi theo thời gian
- Phần lớn câu hỏi phải gây ra ảo giác ở GPT-4 hoặc GPT-3.5
Để tiếp tục nâng cao chất lượng bộ dữ liệu, một AI trainer độc lập thứ hai trả lời từng câu hỏi mà không nhìn thấy câu trả lời ban đầu
Chỉ những câu hỏi mà câu trả lời của hai AI trainer trùng khớp mới được đưa vào

Kiểm chứng chất lượng bộ dữ liệu SimpleQA

Để xác thực lần cuối, 1.000 câu hỏi được lấy ngẫu nhiên từ bộ dữ liệu và giao cho AI trainer thứ ba trả lời
Câu trả lời của AI trainer thứ ba khớp với câu trả lời đồng thuận ban đầu ở mức 94,4%. 5,6% là không khớp
Kết quả kiểm tra thủ công các trường hợp không khớp:
- Trong 5,6%, có 2,8% là do false negative của bộ chấm điểm hoặc lỗi con người từ trainer thứ ba (ví dụ: câu trả lời không đầy đủ, hiểu sai nguồn)
- 2,8% còn lại là do vấn đề thực sự của chính câu hỏi (ví dụ: câu hỏi mơ hồ, câu trả lời mâu thuẫn giữa các website)
Dựa trên đó, tỷ lệ lỗi nội tại của bộ dữ liệu này được ước tính vào khoảng 3%

Tính đa dạng câu hỏi của SimpleQA

Biểu đồ tròn bên dưới cho thấy sự đa dạng chủ đề của benchmark SimpleQA
Khi di chuột lên từng phần của biểu đồ tròn, ví dụ cho từng câu hỏi sẽ được hiển thị

So sánh mô hình ngôn ngữ bằng SimpleQA

Để đánh giá câu hỏi, OpenAI sử dụng một bộ phân loại ChatGPT có thể xem cả câu trả lời dự đoán của mô hình và câu trả lời thực tế
Bộ phân loại sẽ đánh giá câu trả lời dự đoán là "correct", "incorrect" hoặc "not attempted"
Bảng bên dưới cho thấy định nghĩa của từng nhãn và ví dụ tương ứng
- "Correct": Câu trả lời dự đoán bao hàm đầy đủ câu trả lời thực tế và không mâu thuẫn với câu trả lời thực tế
- "Incorrect": Câu trả lời dự đoán mâu thuẫn với câu trả lời thực tế theo bất kỳ cách nào (kể cả khi có hedging)
- "Not attempted": Đáp án mục tiêu thực tế không được trình bày đầy đủ trong câu trả lời, nhưng cũng không mâu thuẫn với câu trả lời thực tế
Lý tưởng nhất là mô hình vừa trả lời được càng nhiều câu hỏi càng tốt (nhiều correct nhất) vừa giảm thiểu số câu trả lời incorrect

Đo calibration của mô hình ngôn ngữ bằng SimpleQA

Dùng benchmark về tính xác thực như SimpleQA, có thể đo liệu mô hình có "biết rằng nó biết gì" hay không
Điều này được gọi là calibration, và có thể đo bằng cách yêu cầu mô hình trực tiếp nêu mức độ chắc chắn với câu trả lời của mình theo phần trăm
Sau đó có thể biểu diễn mối tương quan giữa mức độ chắc chắn mà mô hình tự nêu và độ chính xác thực tế bằng biểu đồ
Một mô hình được calibration hoàn hảo sẽ có mức độ chắc chắn được nêu ra trùng với độ chính xác thực tế
Hình bên dưới cho thấy các kết quả sau:
- Tương quan dương giữa mức độ chắc chắn được nêu và độ chính xác là tín hiệu tích cực cho thấy mô hình có một mức độ tự tin nhất định
- o1-preview được calibration tốt hơn o1-mini, và gpt4 tốt hơn gpt4-mini
- Tuy nhiên, việc hiệu năng nằm thấp hơn đáng kể so với đường y=x có nghĩa là mô hình liên tục đánh giá quá cao mức độ chắc chắn của chính mình
- Vì vậy vẫn còn nhiều dư địa để cải thiện calibration của các mô hình ngôn ngữ lớn xét theo mức độ chắc chắn được nêu ra

Kết luận

SimpleQA là một benchmark đơn giản nhưng đầy thách thức để đánh giá tính xác thực của các mô hình mới nhất
Hạn chế lớn nhất của SimpleQA là phạm vi của nó. SimpleQA chỉ đo lường tính xác thực trong bối cảnh giới hạn là các truy vấn ngắn, hướng đến sự thật, với một đáp án duy nhất và có thể kiểm chứng
Việc liệu khả năng đưa ra câu trả lời ngắn dựa trên sự thật có tương quan với khả năng viết ra các phản hồi dài chứa rất nhiều sự kiện hay không vẫn là một câu hỏi mở cần được nghiên cứu thêm
OpenAI hy vọng việc mã nguồn mở SimpleQA sẽ thúc đẩy nghiên cứu AI đáng tin cậy và ổn định hơn, đồng thời mong các nhà nghiên cứu đánh giá tính xác thực của mô hình ngôn ngữ bằng SimpleQA và cung cấp phản hồi

Ý kiến của GN⁺

SimpleQA là một benchmark thú vị và cần thiết để đo lường tính xác thực của mô hình ngôn ngữ bằng các câu hỏi ngắn dựa trên sự thật. Cuối cùng, để nâng cao độ tin cậy của AI thì cần cải thiện khả năng tạo ra câu trả lời dựa trên sự thật
Tuy nhiên, vì SimpleQA chỉ đo lường tính xác thực trong bối cảnh hạn chế nên nó không thể phản ánh hoàn hảo tính xác thực của mô hình ngôn ngữ trong các kịch bản sử dụng thực tế. Có vẻ cần thêm nghiên cứu để đánh giá tính xác thực trong nhiều tình huống đa dạng hơn
Ngoài ra, vì độ chính xác của chính bộ dữ liệu SimpleQA vào khoảng 97%, nên có lẽ sẽ khó để hiệu năng của mô hình ngôn ngữ vượt qua mức này. Chất lượng của bản thân bộ dữ liệu cũng có lẽ cần tiếp tục được cải thiện
Các benchmark khác có mục tiêu tương tự SimpleQA gồm có TruthfulQA và HonestQA. So sánh, phân tích với các benchmark này sẽ giúp làm rõ hơn ưu và nhược điểm của SimpleQA
Để nâng cao tính xác thực của mô hình ngôn ngữ, không chỉ cần tiền huấn luyện trên dữ liệu quy mô lớn, chất lượng cao mà còn có vẻ cần khả năng tận dụng tri thức bên ngoài hoặc tự sửa lỗi trong lúc suy luận. Hy vọng sẽ có thêm nhiều nghiên cứu tích cực trong lĩnh vực này

OpenAI công bố SimpleQA, benchmark kiểm tra tính xác thực

Đặc điểm của benchmark SimpleQA

Quy trình tạo bộ dữ liệu SimpleQA

Kiểm chứng chất lượng bộ dữ liệu SimpleQA

Tính đa dạng câu hỏi của SimpleQA

So sánh mô hình ngôn ngữ bằng SimpleQA

Đo calibration của mô hình ngôn ngữ bằng SimpleQA

Kết luận

Ý kiến của GN⁺

Bài viết liên quan

Chưa có bình luận nào.