Needle in a Needlestack: Đột phá bộ nhớ của GPT-4o! (mã NIAN) - Tom Burns
Giới thiệu benchmark mới
- Needle in a Needlestack là một benchmark mới dùng để đo khả năng các LLM (mô hình ngôn ngữ lớn) chú ý tới thông tin trong cửa sổ ngữ cảnh tốt đến đâu.
- NIAN tạo ra các prompt chứa hàng nghìn bài thơ limerick, rồi đặt câu hỏi về một bài limerick ở một vị trí cụ thể.
- Prompt ví dụ chứa khoảng 2500 bài limerick.
- Cho đến nay, chưa có LLM nào đạt kết quả thực sự tốt trên benchmark này.
Thử nghiệm của GPT-4 Turbo và Claude-3 Sonnet
- Các thử nghiệm của GPT-4 Turbo và Claude-3 Sonnet:
- gpt-4-turbo-2024-04-09
- claude-3-sonnet
Bước đột phá của GPT-4o
- GPT-4o đã tạo ra một bước đột phá lớn!
- Mô hình này cho thấy hiệu năng gần như hoàn hảo trên benchmark này.
- Thật tò mò khi nào OpenAI sẽ công bố cách họ đã làm cho GPT-4o tốt hơn rất nhiều so với GPT-4 Turbo.
Hiệu năng của các mô hình Mistral
- Các mô hình của Mistral rất dễ dùng. API rất nhanh và ổn định.
- Tuy nhiên, mô hình 8x22 mới của Mistral gặp rất nhiều khó khăn với benchmark này.
- Ngay cả ở phần đầu prompt, xác suất trả lời đúng câu hỏi cũng chỉ khoảng 50%.
- Mistral large có kết quả tốt hơn, nhưng vẫn chỉ đạt độ chính xác 70%.
- Lưu ý: số token được ước tính bằng tokenizer của OpenAI. Mistral dùng một tokenizer khác tạo ra nhiều hơn khoảng 25% token, nên số token trên biểu đồ thấp hơn số thực tế.
- open-mixtral-8x22b
- mistral-large-latest-2024-04-09
Hiệu năng với prompt ngắn
- Các mô hình cho kết quả tốt hơn nhiều với prompt ngắn.
- Ví dụ: so sánh hiệu năng của Mistral 7b với prompt 16k token và prompt 32k token.
- open-mistral-7b 16k tokens
- open-mistral-7b 32k tokens
Tầm quan trọng của việc lặp lại thông tin
- Việc lặp lại thông tin tạo ra khác biệt lớn trong bài kiểm tra này.
- GPT-3.5-turbo cải thiện hiệu năng một cách rõ rệt khi bài limerick được hỏi trong prompt được lặp lại 10 lần.
- limerick used once
- limerick used 10 times
Mã benchmark và thông tin bổ sung
Ý kiến của GN⁺
- Tiến bộ kỹ thuật: Thành quả của GPT-4o cho thấy bước tiến lớn trong việc cải thiện bộ nhớ và khả năng chú ý của LLM. Điều này mở ra khả năng thực hiện các tác vụ phức tạp hơn.
- Lựa chọn mô hình: Khi so sánh hiệu năng của nhiều mô hình, việc chọn mô hình phù hợp với tác vụ cụ thể là rất quan trọng. Ví dụ, có thể có lợi khi chọn mô hình cho kết quả tốt hơn với prompt ngắn.
- Tầm quan trọng của học lặp lại: Cần xem xét tác động của việc lặp lại thông tin tới hiệu năng của mô hình. Đây có thể là yếu tố quan trọng trong chuẩn bị dữ liệu và thiết kế prompt.
- Lợi ích của mã nguồn mở: Việc benchmark này là mã nguồn mở mang lại cơ hội để các nhà nghiên cứu và nhà phát triển tự do truy cập và cải thiện. Điều này có thể đóng góp cho sự phát triển của cộng đồng.
- Triển vọng tương lai: Sự phát triển của các mô hình như GPT-4o có thể mang lại đổi mới trong nhiều lĩnh vực ứng dụng AI. Tuy nhiên, khi áp dụng các công nghệ này, vẫn cần cân nhắc đạo đức và sử dụng có trách nhiệm.
2 bình luận
Tiến bộ công nghệ thật sự quá khủng khiếp.. hu hu
Ý kiến Hacker News
Tóm tắt các bình luận trên Hacker News
Lỗi khi so sánh tài liệu pháp lý
Dựa trên bộ dữ liệu limericks
Giới hạn của bài kiểm tra Needle in the Haystack
Hiệu năng của Gemini Pro 1.5
Cần bài kiểm tra "Synthesis from Haystack"
Chuyển đổi bố cục HTML bằng GPT
Khả năng chú ý được cải thiện của GPT-4o
Khó khăn trong việc đánh giá LLM
Nghi vấn về bộ dữ liệu huấn luyện