1 điểm bởi GN⁺ 2023-08-06 | 1 bình luận | Chia sẻ qua WhatsApp
  • Bài viết về tính không xác định được quan sát thấy trong GPT-4, mô hình ngôn ngữ do OpenAI phát triển
  • GPT-4/GPT-3.5-turbo là không xác định ngay cả trong các mô hình decoder-only dày đặc, nơi temp=0 lẽ ra phải có nghĩa là hoàn toàn xác định
  • Ban đầu, tính không xác định được cho là một lỗi tiềm ẩn hoặc là hệ quả của tính không xác định trong các phép tính dấu phẩy động được tối ưu hóa
  • Giả thuyết mới của tác giả: tính không xác định của GPT-4 chủ yếu bắt nguồn từ việc kiến trúc Sparse Mixture of Experts (MoE) không thể áp đặt tính xác định theo từng chuỗi
  • Cách tiếp cận Sparse MoE gây ra tính không xác định ở mức chuỗi bằng cách định tuyến token trong các nhóm có kích thước cố định và duy trì sự cân bằng trong từng nhóm
  • Để kiểm tra giả thuyết này, tác giả yêu cầu GPT-4 viết một script và quan sát thấy rất nhiều kết quả hoàn thành khác nhau từ GPT-4, qua đó xác nhận rằng có một nguyên nhân khiến GPT-4 không xác định hơn nhiều so với các mô hình khác
  • Tác giả cũng suy đoán rằng GPT-3.5-turbo có thể cũng là một mô hình MoE do tốc độ, tính không xác định và việc loại bỏ logprobs
  • Hàm ý của các phát hiện này là rất quan trọng: nếu tính không xác định là một đặc tính nội tại của suy luận theo lô khi dùng Sparse MoE, thì thực tế này cần phải được thể hiện rõ ràng với bất kỳ ai làm việc với các mô hình như vậy
  • Khi kết luận, tác giả cho rằng tính không xác định trong các mô hình GPT của OpenAI thường được quy cho sự thiếu chính xác của các phép toán dấu phẩy động CUDA được tối ưu hóa nhưng vốn không xác định, trong khi nguyên nhân gốc rễ có thể là suy luận theo lô trong các mô hình Sparse MoE

1 bình luận

 
GN⁺ 2023-08-06
Ý kiến trên Hacker News
  • Tính không xác định của GPT-4 bắt nguồn từ mô hình Sparse Mixture of Experts (MoE) của nó.
  • Sự thiếu chính xác của số dấu phẩy động trong các hệ thống AI/ML nhìn chung là có tính xác định, và các kết quả khác biệt có thể đến từ trạng thái hoặc những nguồn entropy khác.
  • Bài báo cho rằng suy luận hiệu quả của GPT-4 có thể phụ thuộc vào việc trộn các token từ những đầu vào riêng biệt, điều này đưa tính không xác định vào và có thể ảnh hưởng đến chất lượng câu trả lời.
  • Chất lượng câu trả lời cũng có thể phụ thuộc vào số lượng yêu cầu đồng thời đang cạnh tranh để được gán cùng một "chuyên gia".
  • Điều này có thể giải thích sự suy giảm chất lượng được cảm nhận theo thời gian, khi số lượng người dùng đồng thời nhiều hơn có thể dẫn đến các kết quả kém đáng tin cậy hơn.
  • Việc sử dụng MoE trong GPT-3.5 có thể cho thấy làm được nhiều hơn với ít tài nguyên hơn, từ đó mang lại hy vọng cho phong trào mã nguồn mở.
  • Nếu các chuỗi trong cùng một batch có thể ảnh hưởng đến việc định tuyến của các chuỗi khác, thì khả năng xảy ra tấn công kênh kề sẽ xuất hiện.
  • Cách tiếp cận MoE đưa xác suất hoặc tính ngẫu nhiên vào hoạt động của mô hình bằng cách chọn các "chuyên gia" hoặc các phần khác nhau của mô hình cho những phần khác nhau của dữ liệu đầu vào.
  • Cùng một dữ liệu đầu vào khi được xử lý hai lần trong các ngữ cảnh hơi khác nhau có thể tham chiếu đến các tập chuyên gia hơi khác nhau, từ đó tạo ra đầu ra hơi khác nhau.
  • Dưới tải nặng, kết quả có thể thay đổi do các token cạnh tranh các vị trí còn trống trong bộ đệm chuyên gia.
  • Sự cạnh tranh trong bộ đệm chuyên gia này cũng có thể giải thích vì sao ChatGPT viết placeholder thay cho hàm khi được yêu cầu tạo mã dài.