4 điểm bởi GN⁺ 2024-05-15 | 2 bình luận | Chia sẻ qua WhatsApp

Needle in a Needlestack: Đột phá bộ nhớ của GPT-4o! (mã NIAN) - Tom Burns

Giới thiệu benchmark mới

  • Needle in a Needlestack là một benchmark mới dùng để đo khả năng các LLM (mô hình ngôn ngữ lớn) chú ý tới thông tin trong cửa sổ ngữ cảnh tốt đến đâu.
  • NIAN tạo ra các prompt chứa hàng nghìn bài thơ limerick, rồi đặt câu hỏi về một bài limerick ở một vị trí cụ thể.
  • Prompt ví dụ chứa khoảng 2500 bài limerick.
  • Cho đến nay, chưa có LLM nào đạt kết quả thực sự tốt trên benchmark này.

Thử nghiệm của GPT-4 Turbo và Claude-3 Sonnet

  • Các thử nghiệm của GPT-4 TurboClaude-3 Sonnet:
    • gpt-4-turbo-2024-04-09
    • claude-3-sonnet

Bước đột phá của GPT-4o

  • GPT-4o đã tạo ra một bước đột phá lớn!
  • Mô hình này cho thấy hiệu năng gần như hoàn hảo trên benchmark này.
  • Thật tò mò khi nào OpenAI sẽ công bố cách họ đã làm cho GPT-4o tốt hơn rất nhiều so với GPT-4 Turbo.

Hiệu năng của các mô hình Mistral

  • Các mô hình của Mistral rất dễ dùng. API rất nhanh và ổn định.
  • Tuy nhiên, mô hình 8x22 mới của Mistral gặp rất nhiều khó khăn với benchmark này.
    • Ngay cả ở phần đầu prompt, xác suất trả lời đúng câu hỏi cũng chỉ khoảng 50%.
    • Mistral large có kết quả tốt hơn, nhưng vẫn chỉ đạt độ chính xác 70%.
  • Lưu ý: số token được ước tính bằng tokenizer của OpenAI. Mistral dùng một tokenizer khác tạo ra nhiều hơn khoảng 25% token, nên số token trên biểu đồ thấp hơn số thực tế.
    • open-mixtral-8x22b
    • mistral-large-latest-2024-04-09

Hiệu năng với prompt ngắn

  • Các mô hình cho kết quả tốt hơn nhiều với prompt ngắn.
  • Ví dụ: so sánh hiệu năng của Mistral 7b với prompt 16k token và prompt 32k token.
    • open-mistral-7b 16k tokens
    • open-mistral-7b 32k tokens

Tầm quan trọng của việc lặp lại thông tin

  • Việc lặp lại thông tin tạo ra khác biệt lớn trong bài kiểm tra này.
  • GPT-3.5-turbo cải thiện hiệu năng một cách rõ rệt khi bài limerick được hỏi trong prompt được lặp lại 10 lần.
    • limerick used once
    • limerick used 10 times

Mã benchmark và thông tin bổ sung

Ý kiến của GN⁺

  • Tiến bộ kỹ thuật: Thành quả của GPT-4o cho thấy bước tiến lớn trong việc cải thiện bộ nhớ và khả năng chú ý của LLM. Điều này mở ra khả năng thực hiện các tác vụ phức tạp hơn.
  • Lựa chọn mô hình: Khi so sánh hiệu năng của nhiều mô hình, việc chọn mô hình phù hợp với tác vụ cụ thể là rất quan trọng. Ví dụ, có thể có lợi khi chọn mô hình cho kết quả tốt hơn với prompt ngắn.
  • Tầm quan trọng của học lặp lại: Cần xem xét tác động của việc lặp lại thông tin tới hiệu năng của mô hình. Đây có thể là yếu tố quan trọng trong chuẩn bị dữ liệu và thiết kế prompt.
  • Lợi ích của mã nguồn mở: Việc benchmark này là mã nguồn mở mang lại cơ hội để các nhà nghiên cứu và nhà phát triển tự do truy cập và cải thiện. Điều này có thể đóng góp cho sự phát triển của cộng đồng.
  • Triển vọng tương lai: Sự phát triển của các mô hình như GPT-4o có thể mang lại đổi mới trong nhiều lĩnh vực ứng dụng AI. Tuy nhiên, khi áp dụng các công nghệ này, vẫn cần cân nhắc đạo đức và sử dụng có trách nhiệm.

2 bình luận

 
wedding 2024-05-18

Tiến bộ công nghệ thật sự quá khủng khiếp.. hu hu

 
GN⁺ 2024-05-15
Ý kiến Hacker News

Tóm tắt các bình luận trên Hacker News

  • Lỗi khi so sánh tài liệu pháp lý

    • Khi so sánh hai tài liệu pháp lý nhỏ, GPT-4 đã nhận nhầm rằng một số mục chỉ xuất hiện trong một tài liệu. Thực tế, nội dung là giống nhau.
    • Dù chỉ là một mẫu đơn lẻ, con số chính xác 90% vẫn đáng nghi. Khoảng 80k token.
  • Dựa trên bộ dữ liệu limericks

    • Nội dung dựa trên một bộ dữ liệu limericks được xuất bản vào năm 2021. Khả năng cao GPT-4o đã được huấn luyện bằng bộ dữ liệu này.
    • Nhóm NIAN nên dùng các mô hình khác để tạo limericks và kiểm tra xem chúng có thực sự không nằm trong bộ dữ liệu hay không.
  • Giới hạn của bài kiểm tra Needle in the Haystack

    • Bài kiểm tra này chỉ cho thấy một phần hạn chế năng lực xử lý ngữ cảnh dài thực tế của mô hình. Nó chủ yếu được dùng vì các mô hình đời đầu có kết quả kém ở bài kiểm tra này.
    • Các mô hình gần đây cho kết quả tốt ở bài kiểm tra này, nhưng sau mốc 32K token thì khả năng thực hiện tác vụ phức tạp giảm mạnh.
    • Bài kiểm tra RULER là một phương pháp đánh giá tốt hơn.
  • Hiệu năng của Gemini Pro 1.5

    • Gemini Pro 1.5 có thể xử lý toàn bộ Moby Dick và tất cả sách của Byung Chul-Han. Nó tìm ra câu trả lời cho các câu hỏi một cách chính xác.
  • Cần bài kiểm tra "Synthesis from Haystack"

    • Cần một cách kiểm tra không chỉ đo khả năng truy xuất đơn thuần mà còn đánh giá mức độ hiểu sâu, liên kết và trừu tượng hóa.
    • Khi con người đọc sách, họ hình thành trực giác tổng thể. Cần có cách định lượng điều đó.
  • Chuyển đổi bố cục HTML bằng GPT

    • Có thể dùng GPT để chuyển dữ liệu động thành bố cục HTML đẹp mắt theo thời gian thực. Điều này giúp tiết kiệm thời gian phát triển và vẫn có thể cập nhật HTML khi cấu trúc dữ liệu thay đổi.
    • Trong các thử nghiệm trước đây, GPT-4 Turbo đôi khi bỏ qua ngữ cảnh và chỉ dẫn.
  • Khả năng chú ý được cải thiện của GPT-4o

    • GPT-4o thể hiện khả năng chú ý tốt hơn trên toàn bộ cửa sổ đầu vào so với GPT-4 Turbo và Claude-3 Sonnet.
    • Bài kiểm tra "Needle In A Needlestack" là bước tiếp theo phù hợp. Nó đưa vào prompt hàng nghìn limerick và kèm câu hỏi về một limerick ở vị trí cụ thể.
  • Khó khăn trong việc đánh giá LLM

    • Có ý kiến cho rằng trên Internet công khai hầu như không ai thực sự đánh giá LLM một cách bài bản.
  • Nghi vấn về bộ dữ liệu huấn luyện

    • Có nghi vấn về việc làm sao biết chắc GPT-4o không được huấn luyện bằng bộ dữ liệu này.
    • Chỉ có ý nghĩa khi biết rằng dữ liệu kiểm tra không nằm trong dữ liệu huấn luyện.