GPT-4 đang trở nên tệ hơn theo thời gian

xguru · 2023-07-20T11:06:02+09:00

Nhiều người đã nói về điều này, nhưng cho đến nay mới chỉ dừng ở các mảnh ghép rời rạc Một bài báo được công bố gần đây đã so sánh khách quan phiên bản tháng 6 và phiên bản tháng 3 của GPT-4 bằng 500 bài toán Tháng 3 trả lời đúng 488 câu, nhưng đến tháng 6 chỉ còn đúng vỏn vẹn 12 câu Tỷ lệ chính xác đã giảm từ 97,6% xuống 2,4% chỉ trong 3 tháng Nhưng mọi thứ còn tệ hơn ở đây Họ thử cho mô hình suy luận bằng kỹ thuật Chain-of-Thought Khi đưa ra chỉ thị "17077 có phải là số nguyên tố không? Think step by step.", GPT-4 thậm chí không tạo ra các bước trung gian mà chỉ trả lời "Không" Khả năng sinh mã cũng kém đi Họ xây dựng một tập dữ liệu từ 50 bài dễ trên LeetCode rồi chạy thử Phiên bản tháng 3 thành công 52%, nhưng phiên bản tháng 6 chỉ thành công 10% Vì sao chuyện này lại xảy ra? Có thể giả định OpenAI vẫn đang liên tục thay đổi, nhưng chúng ta không biết nó hoạt động thế nào hay họ đánh giá ra sao Theo tin đồn, họ đang ghép nhiều mô hình GPT-4 nhỏ, chuyên biệt để vận hành như thể là một mô hình lớn nhưng với chi phí rẻ hơn Liệu việc làm cho nó rẻ hơn và nhanh hơn có phải là nguyên nhân của sự suy giảm chất lượng này? Đây là một tín hiệu cảnh báo cho tất cả những ai đang xây dựng ứng dụng phụ thuộc vào GPT-4 Không thể chấp nhận việc hành vi của LLM thay đổi theo thời gian Bất kỳ ai cũng có thể tái hiện thí nghiệm này trên Google Colab

(twitter.com/svpino)

17 điểm bởi xguru 2023-07-20 | 6 bình luận | Chia sẻ qua WhatsApp

Nhiều người đã nói về điều này, nhưng cho đến nay mới chỉ dừng ở các mảnh ghép rời rạc
Một bài báo được công bố gần đây đã so sánh khách quan phiên bản tháng 6 và phiên bản tháng 3 của GPT-4 bằng 500 bài toán
Tháng 3 trả lời đúng 488 câu, nhưng đến tháng 6 chỉ còn đúng vỏn vẹn 12 câu
- Tỷ lệ chính xác đã giảm từ 97,6% xuống 2,4% chỉ trong 3 tháng
Nhưng mọi thứ còn tệ hơn ở đây
Họ thử cho mô hình suy luận bằng kỹ thuật Chain-of-Thought
- Khi đưa ra chỉ thị "17077 có phải là số nguyên tố không? Think step by step.", GPT-4 thậm chí không tạo ra các bước trung gian mà chỉ trả lời "Không"
Khả năng sinh mã cũng kém đi
- Họ xây dựng một tập dữ liệu từ 50 bài dễ trên LeetCode rồi chạy thử
- Phiên bản tháng 3 thành công 52%, nhưng phiên bản tháng 6 chỉ thành công 10%
Quảng cáo
Vì sao chuyện này lại xảy ra?
- Có thể giả định OpenAI vẫn đang liên tục thay đổi, nhưng chúng ta không biết nó hoạt động thế nào hay họ đánh giá ra sao
- Theo tin đồn, họ đang ghép nhiều mô hình GPT-4 nhỏ, chuyên biệt để vận hành như thể là một mô hình lớn nhưng với chi phí rẻ hơn
- Liệu việc làm cho nó rẻ hơn và nhanh hơn có phải là nguyên nhân của sự suy giảm chất lượng này?
Đây là một tín hiệu cảnh báo cho tất cả những ai đang xây dựng ứng dụng phụ thuộc vào GPT-4
- Không thể chấp nhận việc hành vi của LLM thay đổi theo thời gian
Bất kỳ ai cũng có thể tái hiện thí nghiệm này trên Google Colab

6 bình luận

secret3056 2023-07-20

Tôi đã hủy đăng ký. Có thể cảm nhận rõ bằng trải nghiệm thực tế những điểm bị sửa theo hướng tệ đi.

delimoni 2023-07-20

Ngay trong cộng đồng người dùng chatGPT trong nước cũng liên tục có những báo cáo như vậy, xem ra đúng là sự thật rồi.

appcaster 2023-07-20

Tôi đã dùng gpt hằng tháng từ sau khi thu phí, và tôi đồng ý với nội dung này. Và nữa, dù là người dùng trả phí nhưng tôi vẫn rất bất mãn vì phiên bản 4 vẫn còn giới hạn 25 câu hỏi trong 3 giờ.

wedding 2023-07-21

Hôm nay, cùng với việc bổ sung tính năng hướng dẫn tùy chỉnh, giới hạn cũng đã được nới lên 50.

https://openai.com/blog/custom-instructions-for-chatgpt

xguru 2023-07-20

Có phải chỉ mình tôi cảm thấy chất lượng của GPT-4 gần đây đã giảm đi rõ rệt không?

xguru 2023-07-20

Bài báo liên quan: How Is ChatGPT’s Behavior Changing over Time?
Google Colab: LLM Drifts: How Is ChatGPT’s Behavior Changing over Time?

GPT-4 đang trở nên tệ hơn theo thời gian

Bài viết liên quan

6 bình luận