GPT-4.5 hay GPT-5 đang được thử nghiệm trên LMSYS?

(rentry.co)

3 điểm bởi GN⁺ 2024-04-30 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Bối cảnh

Mô hình gpt2-chatbot được LMSYS công bố gần đây cho thấy hiệu năng vượt xa mô hình GPT-2 vốn đã được biết đến trước đây
Rất khó tìm thấy thông tin về mô hình này cả trên trang LMSYS lẫn ở nơi khác
Trong kết quả API benchmark của LMSYS, riêng mô hình này lại bị loại trừ một cách khác thường

Tự nhận là "dựa trên GPT-4" và gọi mình là "ChatGPT"
Thể hiện những đặc điểm khác với các mô hình được huấn luyện bằng bộ dữ liệu OpenAI do tổ chức khác tạo ra
Có vẻ sử dụng tokenizer tiktoken của OpenAI
Phát hiện lỗ hổng prompt injection đặc trưng của OpenAI
Thể hiện đặc tính đầu ra khác với các mô hình của tổ chức khác

Khả năng cao thực chất đây là GPT-4.5 hoặc GPT-5. Chất lượng đầu ra được cải thiện mạnh, tương đương bước nhảy từ GPT-3.5 lên GPT-4
Cũng có khả năng LMSYS đã tự huấn luyện mô hình riêng hoặc dùng cách tiếp cận tương tự MoE, nhưng xét đến mối liên hệ với OpenAI thì khả năng này có vẻ thấp

Có vẻ OpenAI đang âm thầm benchmark mô hình GPT mới nhất của mình thông qua LMSYS
Nhằm thu được kết quả benchmark trong điều kiện thông thường, tránh các đánh giá tiêu cực do kỳ vọng quá mức, đồng thời giảm thiểu sự cảnh giác từ các đối thủ khác

Cũng có thể đây thực sự là mô hình dựa trên kiến trúc GPT-2. Theo các nghiên cứu gần đây, GPT-2 cho thấy hiệu năng tốt hơn các mô hình khác trong một số lĩnh vực nhất định
Việc tự xưng là GPT-4 có thể là vì mô hình tận dụng bộ dữ liệu được tạo bằng GPT-4
Cũng đáng chú ý là MBZUAI, một trong các nhà tài trợ của LMSYS, có liên quan đến nghiên cứu đó

Những suy đoán xoay quanh danh tính thật của gpt2-chatbot rất thú vị. Tôi đồng ý với quan điểm rằng khả năng cao đây là mô hình mới nhất của OpenAI
Mặt khác, cũng không thể loại trừ khả năng nó dựa trên kiến trúc GPT-2. Nếu nhìn vào các kết quả nghiên cứu gần đây, tiềm năng của GPT-2 vẫn có vẻ rất lớn
Suy đoán rằng OpenAI đang âm thầm benchmark thông qua LMSYS cũng khá thuyết phục. Đây là chiến lược có thể vừa tránh sự cảnh giác của đối thủ vừa thu được đánh giá khách quan
Có vẻ trong thời gian tới sẽ còn nhiều thí nghiệm và nghiên cứu khác nhằm làm rõ thực thể của gpt2-chatbot. Đây có thể sẽ là dịp để hình dung rõ hơn về tiến triển của lĩnh vực mô hình ngôn ngữ lớn
Ngay từ đầu, cái tên "gpt2-chatbot" bản thân nó cũng có thể nhằm tạo ấn tượng rằng đây là GPT-2. Cũng khó loại trừ khả năng OpenAI đã cố ý đặt tên như vậy