- SimpleQA là một benchmark mới để đo lường tính xác thực của các mô hình ngôn ngữ
- Việc huấn luyện các mô hình AI tạo ra câu trả lời dựa trên sự thật vẫn là một bài toán chưa được giải quyết
- Các mô hình ngôn ngữ hiện nay đôi khi tạo ra đầu ra sai hoặc câu trả lời không được bằng chứng hậu thuẫn. Hiện tượng này được gọi là "hallucinations (ảo giác)"
- Những mô hình ngôn ngữ chính xác hơn và ít ảo giác hơn sẽ đáng tin cậy hơn và có thể được ứng dụng trong nhiều lĩnh vực hơn
- OpenAI muốn đo lường tính xác thực của mô hình ngôn ngữ thông qua mã nguồn mở SimpleQA
Đặc điểm của benchmark SimpleQA
- Vì tính xác thực là một chủ đề khó đo lường, SimpleQA tập trung vào các truy vấn ngắn, hướng đến sự thật
- Mục tiêu của SimpleQA:
- Độ chính xác cao: Hai AI trainer độc lập dùng nguồn tham khảo để hậu thuẫn đáp án đúng và viết câu hỏi sao cho có thể dễ dàng đánh giá câu trả lời dự đoán
- Tính đa dạng: Bao quát nhiều chủ đề, từ khoa học công nghệ đến chương trình TV và trò chơi điện tử
- Có tính thách thức với các mô hình mới nhất: Không giống các benchmark trước đây như TriviaQA hay NQ, SimpleQA được tạo ra để trở nên khó hơn với các mô hình hiện đại (ví dụ: GPT-4 ghi dưới 40%)
- UX thân thiện với nhà nghiên cứu: Nhờ câu hỏi và câu trả lời ngắn gọn, SimpleQA chạy nhanh và đơn giản. Việc đánh giá thông qua OpenAI API hoặc API của các mô hình hiện đại khác cũng hiệu quả. Với 4.326 câu hỏi, phương sai với vai trò benchmark đánh giá cũng được kỳ vọng là tương đối thấp
Quy trình tạo bộ dữ liệu SimpleQA
- Các AI trainer duyệt web để tạo ra các câu hỏi ngắn, hướng đến sự thật cùng với câu trả lời tương ứng
- Để được đưa vào bộ dữ liệu, mỗi câu hỏi phải đáp ứng các tiêu chí nghiêm ngặt sau:
- Phải có một đáp án duy nhất, rõ ràng và dễ đánh giá
- Câu trả lời cho câu hỏi không được thay đổi theo thời gian
- Phần lớn câu hỏi phải gây ra ảo giác ở GPT-4 hoặc GPT-3.5
- Để tiếp tục nâng cao chất lượng bộ dữ liệu, một AI trainer độc lập thứ hai trả lời từng câu hỏi mà không nhìn thấy câu trả lời ban đầu
- Chỉ những câu hỏi mà câu trả lời của hai AI trainer trùng khớp mới được đưa vào
Kiểm chứng chất lượng bộ dữ liệu SimpleQA
- Để xác thực lần cuối, 1.000 câu hỏi được lấy ngẫu nhiên từ bộ dữ liệu và giao cho AI trainer thứ ba trả lời
- Câu trả lời của AI trainer thứ ba khớp với câu trả lời đồng thuận ban đầu ở mức 94,4%. 5,6% là không khớp
- Kết quả kiểm tra thủ công các trường hợp không khớp:
- Trong 5,6%, có 2,8% là do false negative của bộ chấm điểm hoặc lỗi con người từ trainer thứ ba (ví dụ: câu trả lời không đầy đủ, hiểu sai nguồn)
- 2,8% còn lại là do vấn đề thực sự của chính câu hỏi (ví dụ: câu hỏi mơ hồ, câu trả lời mâu thuẫn giữa các website)
- Dựa trên đó, tỷ lệ lỗi nội tại của bộ dữ liệu này được ước tính vào khoảng 3%
Tính đa dạng câu hỏi của SimpleQA
- Biểu đồ tròn bên dưới cho thấy sự đa dạng chủ đề của benchmark SimpleQA
- Khi di chuột lên từng phần của biểu đồ tròn, ví dụ cho từng câu hỏi sẽ được hiển thị
So sánh mô hình ngôn ngữ bằng SimpleQA
- Để đánh giá câu hỏi, OpenAI sử dụng một bộ phân loại ChatGPT có thể xem cả câu trả lời dự đoán của mô hình và câu trả lời thực tế
- Bộ phân loại sẽ đánh giá câu trả lời dự đoán là "correct", "incorrect" hoặc "not attempted"
- Bảng bên dưới cho thấy định nghĩa của từng nhãn và ví dụ tương ứng
- "Correct": Câu trả lời dự đoán bao hàm đầy đủ câu trả lời thực tế và không mâu thuẫn với câu trả lời thực tế
- "Incorrect": Câu trả lời dự đoán mâu thuẫn với câu trả lời thực tế theo bất kỳ cách nào (kể cả khi có hedging)
- "Not attempted": Đáp án mục tiêu thực tế không được trình bày đầy đủ trong câu trả lời, nhưng cũng không mâu thuẫn với câu trả lời thực tế
- Lý tưởng nhất là mô hình vừa trả lời được càng nhiều câu hỏi càng tốt (nhiều
correct nhất) vừa giảm thiểu số câu trả lời incorrect
Đo calibration của mô hình ngôn ngữ bằng SimpleQA
- Dùng benchmark về tính xác thực như SimpleQA, có thể đo liệu mô hình có "biết rằng nó biết gì" hay không
- Điều này được gọi là calibration, và có thể đo bằng cách yêu cầu mô hình trực tiếp nêu mức độ chắc chắn với câu trả lời của mình theo phần trăm
- Sau đó có thể biểu diễn mối tương quan giữa mức độ chắc chắn mà mô hình tự nêu và độ chính xác thực tế bằng biểu đồ
- Một mô hình được calibration hoàn hảo sẽ có mức độ chắc chắn được nêu ra trùng với độ chính xác thực tế
- Hình bên dưới cho thấy các kết quả sau:
- Tương quan dương giữa mức độ chắc chắn được nêu và độ chính xác là tín hiệu tích cực cho thấy mô hình có một mức độ tự tin nhất định
- o1-preview được calibration tốt hơn o1-mini, và gpt4 tốt hơn gpt4-mini
- Tuy nhiên, việc hiệu năng nằm thấp hơn đáng kể so với đường y=x có nghĩa là mô hình liên tục đánh giá quá cao mức độ chắc chắn của chính mình
- Vì vậy vẫn còn nhiều dư địa để cải thiện calibration của các mô hình ngôn ngữ lớn xét theo mức độ chắc chắn được nêu ra
Kết luận
- SimpleQA là một benchmark đơn giản nhưng đầy thách thức để đánh giá tính xác thực của các mô hình mới nhất
- Hạn chế lớn nhất của SimpleQA là phạm vi của nó. SimpleQA chỉ đo lường tính xác thực trong bối cảnh giới hạn là các truy vấn ngắn, hướng đến sự thật, với một đáp án duy nhất và có thể kiểm chứng
- Việc liệu khả năng đưa ra câu trả lời ngắn dựa trên sự thật có tương quan với khả năng viết ra các phản hồi dài chứa rất nhiều sự kiện hay không vẫn là một câu hỏi mở cần được nghiên cứu thêm
- OpenAI hy vọng việc mã nguồn mở SimpleQA sẽ thúc đẩy nghiên cứu AI đáng tin cậy và ổn định hơn, đồng thời mong các nhà nghiên cứu đánh giá tính xác thực của mô hình ngôn ngữ bằng SimpleQA và cung cấp phản hồi
Ý kiến của GN⁺
- SimpleQA là một benchmark thú vị và cần thiết để đo lường tính xác thực của mô hình ngôn ngữ bằng các câu hỏi ngắn dựa trên sự thật. Cuối cùng, để nâng cao độ tin cậy của AI thì cần cải thiện khả năng tạo ra câu trả lời dựa trên sự thật
- Tuy nhiên, vì SimpleQA chỉ đo lường tính xác thực trong bối cảnh hạn chế nên nó không thể phản ánh hoàn hảo tính xác thực của mô hình ngôn ngữ trong các kịch bản sử dụng thực tế. Có vẻ cần thêm nghiên cứu để đánh giá tính xác thực trong nhiều tình huống đa dạng hơn
- Ngoài ra, vì độ chính xác của chính bộ dữ liệu SimpleQA vào khoảng 97%, nên có lẽ sẽ khó để hiệu năng của mô hình ngôn ngữ vượt qua mức này. Chất lượng của bản thân bộ dữ liệu cũng có lẽ cần tiếp tục được cải thiện
- Các benchmark khác có mục tiêu tương tự SimpleQA gồm có TruthfulQA và HonestQA. So sánh, phân tích với các benchmark này sẽ giúp làm rõ hơn ưu và nhược điểm của SimpleQA
- Để nâng cao tính xác thực của mô hình ngôn ngữ, không chỉ cần tiền huấn luyện trên dữ liệu quy mô lớn, chất lượng cao mà còn có vẻ cần khả năng tận dụng tri thức bên ngoài hoặc tự sửa lỗi trong lúc suy luận. Hy vọng sẽ có thêm nhiều nghiên cứu tích cực trong lĩnh vực này
Chưa có bình luận nào.