Đánh giá GPT-4.5 của Andrej Karpathy

xguru · 2025-02-28T10:00:02+09:00

Hôm nay OpenAI đã ra mắt GPT-4.5 Lý do đã chờ đợi suốt khoảng 2 năm kể từ khi GPT-4 ra mắt là vì bản phát hành lần này mang đến cơ hội đo lường định lượng mức cải thiện có thể đạt được khi chỉ đơn giản huấn luyện một mô hình lớn hơn Mỗi phiên bản ".5" tương ứng gần đúng với lượng tính toán tiền huấn luyện nhiều hơn 10 lần Quá trình phát triển của các mô hình GPT GPT-1 → gần như chưa thể tạo ra các câu có ý nghĩa GPT-2 → ở mức đồ chơi còn khá vụng về GPT-2.5 → thực tế đã bị bỏ qua và chuyển thẳng sang GPT-3 GPT-3 → cho thấy những tiến bộ đáng chú ý GPT-3.5 → tiến bộ đủ để phát hành thành sản phẩm thực tế và tạo ra làn sóng ChatGPT GPT-4 → tiếp tục được cải thiện, nhưng khó tìm ra một điểm "wow" thật sự rõ rệt Đặc biệt khi so sánh GPT-4 với GPT-3.5: Cách chọn từ sáng tạo hơn và hiểu tốt hơn các sắc thái trong prompt Phép so sánh tương tự (analogy) phù hợp hơn và khiếu hài hước cũng khá hơn một chút Khả năng hiểu ở các lĩnh vực tri thức hiếm cũng tốt hơn, và tần suất hallucination giảm nhẹ Nhìn chung là mọi thứ đều tốt hơn khoảng 20% Đây giống như mực nước dâng lên khiến mọi con thuyền cùng nổi Ấn tượng khi thử nghiệm GPT-4.5 GPT-4.5 đã trải qua lượng tiền huấn luyện nhiều hơn GPT-4 gấp 10 lần Và sau khi thử nghiệm, có thể thấy mẫu hình tăng 20% như trước lại lặp lại Mọi thứ đều nhỉnh hơn một chút Nhưng không có một "điểm đột phá đổi mới" rõ ràng nào có thể chỉ ra cụ thể Dù vậy, đây vẫn là một chỉ dấu thú vị và quan trọng để đo độ dốc của xu hướng cải thiện chung của mô hình GPT-4.5 vẫn chưa phải là mô hình "lý luận (reasoning)" GPT-4.5 chỉ áp dụng tiền huấn luyện, supervised fine-tuning (SFT), RLHF Vì vậy nó không cải thiện ở các bài toán cần suy luận logic như toán học, lập trình, v.v. Ở những lĩnh vực này, cần có học tăng cường (RL) và huấn luyện tư duy có hệ thống, và hiện tại mô hình OpenAI o1 cho hiệu năng tốt nhất Có khả năng cao OpenAI sẽ dựa trên GPT-4.5 để áp dụng học tăng cường và phát triển nó thành mô hình có thể "suy nghĩ" Qua đó họ sẽ cố gắng nâng cao năng lực toán học, logic và lập trình Điểm mạnh của GPT-4.5: EQ Nó được cải thiện trong các tác vụ mà tri thức về thế giới, tính sáng tạo, khả năng liên tưởng, khiếu hài hước và trí tuệ cảm xúc (EQ) quan trọng hơn suy luận logic Vì vậy sẽ tiến hành một thí nghiệm tương tác: "bình chọn so sánh GPT-4 và GPT-4.5" Chọn các prompt để đánh giá 5 kiểu khiếu hài hước Với mỗi prompt, so sánh phản hồi của GPT-4 và GPT-4.5 Tiến hành thí nghiệm bằng hình ảnh (prompt và phản hồi) + tính năng bình chọn trên X (Twitter) Sau 8 giờ sẽ công bố phản hồi thuộc về mô hình nào

(x.com)

3 điểm bởi xguru 2025-02-28 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Hôm nay OpenAI đã ra mắt GPT-4.5
Lý do đã chờ đợi suốt khoảng 2 năm kể từ khi GPT-4 ra mắt là vì bản phát hành lần này mang đến cơ hội đo lường định lượng mức cải thiện có thể đạt được khi chỉ đơn giản huấn luyện một mô hình lớn hơn
- Mỗi phiên bản ".5" tương ứng gần đúng với lượng tính toán tiền huấn luyện nhiều hơn 10 lần
Quá trình phát triển của các mô hình GPT
- GPT-1 → gần như chưa thể tạo ra các câu có ý nghĩa
- GPT-2 → ở mức đồ chơi còn khá vụng về
- GPT-2.5 → thực tế đã bị bỏ qua và chuyển thẳng sang GPT-3
- GPT-3 → cho thấy những tiến bộ đáng chú ý
- GPT-3.5 → tiến bộ đủ để phát hành thành sản phẩm thực tế và tạo ra làn sóng ChatGPT
- GPT-4 → tiếp tục được cải thiện, nhưng khó tìm ra một điểm "wow" thật sự rõ rệt
Đặc biệt khi so sánh GPT-4 với GPT-3.5:
- Cách chọn từ sáng tạo hơn và hiểu tốt hơn các sắc thái trong prompt
- Phép so sánh tương tự (analogy) phù hợp hơn và khiếu hài hước cũng khá hơn một chút
- Khả năng hiểu ở các lĩnh vực tri thức hiếm cũng tốt hơn, và tần suất hallucination giảm nhẹ
- Nhìn chung là mọi thứ đều tốt hơn khoảng 20%
- Đây giống như mực nước dâng lên khiến mọi con thuyền cùng nổi

Ấn tượng khi thử nghiệm GPT-4.5

GPT-4.5 đã trải qua lượng tiền huấn luyện nhiều hơn GPT-4 gấp 10 lần
Và sau khi thử nghiệm, có thể thấy mẫu hình tăng 20% như trước lại lặp lại
Mọi thứ đều nhỉnh hơn một chút
- Nhưng không có một "điểm đột phá đổi mới" rõ ràng nào có thể chỉ ra cụ thể
- Dù vậy, đây vẫn là một chỉ dấu thú vị và quan trọng để đo độ dốc của xu hướng cải thiện chung của mô hình

GPT-4.5 vẫn chưa phải là mô hình "lý luận (reasoning)"

GPT-4.5 chỉ áp dụng tiền huấn luyện, supervised fine-tuning (SFT), RLHF
Vì vậy nó không cải thiện ở các bài toán cần suy luận logic như toán học, lập trình, v.v.
Ở những lĩnh vực này, cần có học tăng cường (RL) và huấn luyện tư duy có hệ thống, và hiện tại mô hình OpenAI o1 cho hiệu năng tốt nhất
Có khả năng cao OpenAI sẽ dựa trên GPT-4.5 để áp dụng học tăng cường và phát triển nó thành mô hình có thể "suy nghĩ"
Qua đó họ sẽ cố gắng nâng cao năng lực toán học, logic và lập trình

Điểm mạnh của GPT-4.5: EQ

Nó được cải thiện trong các tác vụ mà tri thức về thế giới, tính sáng tạo, khả năng liên tưởng, khiếu hài hước và trí tuệ cảm xúc (EQ) quan trọng hơn suy luận logic

Vì vậy sẽ tiến hành một thí nghiệm tương tác: "bình chọn so sánh GPT-4 và GPT-4.5"

Chọn các prompt để đánh giá 5 kiểu khiếu hài hước
Với mỗi prompt, so sánh phản hồi của GPT-4 và GPT-4.5
Tiến hành thí nghiệm bằng hình ảnh (prompt và phản hồi) + tính năng bình chọn trên X (Twitter)
Sau 8 giờ sẽ công bố phản hồi thuộc về mô hình nào