- Nhiều người đã nói về điều này, nhưng cho đến nay mới chỉ dừng ở các mảnh ghép rời rạc
- Một bài báo được công bố gần đây đã so sánh khách quan phiên bản tháng 6 và phiên bản tháng 3 của GPT-4 bằng 500 bài toán
- Tháng 3 trả lời đúng 488 câu, nhưng đến tháng 6 chỉ còn đúng vỏn vẹn 12 câu
- Tỷ lệ chính xác đã giảm từ 97,6% xuống 2,4% chỉ trong 3 tháng
- Nhưng mọi thứ còn tệ hơn ở đây
- Họ thử cho mô hình suy luận bằng kỹ thuật Chain-of-Thought
- Khi đưa ra chỉ thị "17077 có phải là số nguyên tố không? Think step by step.", GPT-4 thậm chí không tạo ra các bước trung gian mà chỉ trả lời "Không"
- Khả năng sinh mã cũng kém đi
- Họ xây dựng một tập dữ liệu từ 50 bài dễ trên LeetCode rồi chạy thử
- Phiên bản tháng 3 thành công 52%, nhưng phiên bản tháng 6 chỉ thành công 10%
- Vì sao chuyện này lại xảy ra?
- Có thể giả định OpenAI vẫn đang liên tục thay đổi, nhưng chúng ta không biết nó hoạt động thế nào hay họ đánh giá ra sao
- Theo tin đồn, họ đang ghép nhiều mô hình GPT-4 nhỏ, chuyên biệt để vận hành như thể là một mô hình lớn nhưng với chi phí rẻ hơn
- Liệu việc làm cho nó rẻ hơn và nhanh hơn có phải là nguyên nhân của sự suy giảm chất lượng này?
- Đây là một tín hiệu cảnh báo cho tất cả những ai đang xây dựng ứng dụng phụ thuộc vào GPT-4
- Không thể chấp nhận việc hành vi của LLM thay đổi theo thời gian
- Bất kỳ ai cũng có thể tái hiện thí nghiệm này trên Google Colab
6 bình luận
Tôi đã hủy đăng ký. Có thể cảm nhận rõ bằng trải nghiệm thực tế những điểm bị sửa theo hướng tệ đi.
Ngay trong cộng đồng người dùng chatGPT trong nước cũng liên tục có những báo cáo như vậy, xem ra đúng là sự thật rồi.
Tôi đã dùng gpt hằng tháng từ sau khi thu phí, và tôi đồng ý với nội dung này. Và nữa, dù là người dùng trả phí nhưng tôi vẫn rất bất mãn vì phiên bản 4 vẫn còn giới hạn 25 câu hỏi trong 3 giờ.
Hôm nay, cùng với việc bổ sung tính năng hướng dẫn tùy chỉnh, giới hạn cũng đã được nới lên 50.
https://openai.com/blog/custom-instructions-for-chatgpt
Có phải chỉ mình tôi cảm thấy chất lượng của GPT-4 gần đây đã giảm đi rõ rệt không?
Bài báo liên quan: How Is ChatGPT’s Behavior Changing over Time?
Google Colab: LLM Drifts: How Is ChatGPT’s Behavior Changing over Time?