2 điểm bởi GN⁺ 2024-01-23 | 1 bình luận | Chia sẻ qua WhatsApp

Nguyên nhân của thông báo lỗi ChatGPT 3.5

  • Các mô hình GPT của OpenAI xuất ra các "token" gồm nhiều ký tự thay vì từng ký tự riêng lẻ.
  • Cách xuất token này giúp cải thiện hiệu năng và độ chính xác của mô hình.
  • Có ba token là richTextPanel, sourceloadpath, và chúng có thể thay thế cho nhau.
  • Token loadpath được dùng làm tên tùy chọn trong các tệp cấu hình XML ở 80.4k tệp trên GitHub.
  • Việc token loadpath có một token độc lập có thể là do lỗi chính tả của "R a lative".
  • Sau khi tạo danh sách token, OpenAI có thể đã quyết định loại các tệp XML khỏi dữ liệu huấn luyện, khiến việc dùng token loadpath trong dữ liệu huấn luyện gần như không còn.
  • Kết quả là mô hình không được huấn luyện để hiểu cách dùng token useRalativeImagePath, và xuất ra token không hợp lệ.

Dùng để đầu độc dữ liệu?

  • Có thể thử chèn cụm này vào tài liệu để cản trở các nỗ lực dùng GPT-3.5 nhằm tóm tắt tài liệu.

Đọc thêm

  • Có một số bài viết hữu ích để nghiên cứu thêm về chủ đề này.

Ý kiến của GN⁺

  • Điều quan trọng nhất trong bài này là hiểu nguyên nhân khiến mô hình GPT xuất lỗi với một số token cụ thể.
  • Thông tin này giúp hiểu rõ hơn cách các mô hình trí tuệ nhân tạo hoạt động và những giới hạn của chúng.
  • Ngoài ra, bài viết cũng đưa ra một ví dụ thú vị về đầu độc dữ liệu hoặc cách khai thác điểm yếu của mô hình trí tuệ nhân tạo.

1 bình luận

 
GN⁺ 2024-01-23
Ý kiến Hacker News
  • Giải thích về glitch token

    • Nhiều khả năng hiện tượng này xảy ra do các từ hoặc token từng xuất hiện phổ biến trong tập dữ liệu gốc nhưng đã bị loại bỏ trước khi huấn luyện GPT-XX.
    • Vì vậy LLM hoàn toàn không biết ý nghĩa của các token đó, và kết quả có thể bị lỗi hoặc gây khó chịu.
    • Tên người dùng thường xuất hiện trên subreddit r/counting là một ví dụ tiêu biểu.
    • OpenAI đã sửa phần lớn các mô hình được host của họ (có thể bằng cách thay đổi phương thức token hóa), nhưng có vẻ như các glitch token mới đã được phát hiện.
  • Phương pháp xác minh ngôn ngữ trong Thế chiến II ở Hà Lan

    • Tại Hà Lan, người ta từng phân biệt ai có phải người Đức hay không bằng cách yêu cầu phát âm từ 'Scheveningen'.
    • Hiện nay có thể phân biệt đó có phải bot LLM hay không bằng cách bắt nó đọc ra glitch token trên Internet.
  • Giải thích về quá trình sinh token của LLM

    • Việc mô hình không hiểu token 'useRalativeImagePath' rồi xuất ra token không hợp lệ không phải là cách LLM tạo token.
    • Ở mỗi bước, nó xuất logit cho mọi token có thể có, chuyển chúng thành xác suất bằng hàm softmax, rồi lấy mẫu để quyết định token sẽ dùng.
    • Token hiếm có thể gây vấn đề trong quá trình gộp BPE của tokenizer, nhưng GPT-4 không gặp lỗi này và dùng cùng tokenizer với GPT-3.5, nên khả năng cao đây không phải nguyên nhân.
  • Phân tích các nguyên nhân tiềm ẩn của glitch token

    • Vector embedding được điều kiện hóa sai cho một token cụ thể có thể khiến mạng đi vào vùng mất ổn định về mặt số học.
    • Nếu xảy ra underflow hoặc NaN, toàn bộ đầu ra có thể bị vô hiệu hóa; nếu có các phép toán như batch normalization trộn giá trị giữa các phần tử trong batch, giá trị sai cũng có thể bị trả về cho phiên của người dùng khác.
  • Một góc nhìn khác về đầu ra của mô hình

    • Thông thường mô hình xuất ra cùng một tập từ vựng mà nó nhận đầu vào.
    • Khi gặp token 'useRalativeImagePath', mô hình có thể bắt đầu một vòng xoáy dẫn đến sinh ngẫu nhiên, hoặc cố gắng duy trì văn bản nhất quán.
    • Vì tập token có thể xuất ra là cố định, nên nếu các token có thể hiển thị trong giao diện không chỉ là một tập con của toàn bộ từ vựng thì về nguyên tắc chúng luôn phải 'hợp lệ'.
  • Tác động trong tương lai đối với dữ liệu huấn luyện LLM

    • Vì cụm này đã xuất hiện trong bài đăng và bình luận trên Hacker News, nên ở lần huấn luyện LLM tiếp theo, vấn đề này có thể sẽ không còn xảy ra nữa.
  • Chia sẻ trải nghiệm làm GPT-4 thất bại

    • Có người từng khiến ChatGPT dùng GPT-4 thất bại thông qua thử thách vẽ pixel trên Amstrad CPC.
    • Khi bị dồn ép thêm bởi các lời phàn nàn và đính chính, nó bắt đầu xuất hiện nhiều thông báo lỗi hơn hoặc có hiện tượng như bị reset.
    • Người đó đã bỏ cuộc vì không muốn gây sự cố cho máy chủ, nhưng điều này cho thấy thực sự có thể làm GPT-4 bị crash.
  • Suy ngẫm về chất lượng dữ liệu đầu vào

    • Đây là một ví dụ kinh điển của 'rác vào, rác ra'.
    • Điều này dẫn đến suy nghĩ rằng trong tương lai, những gì hiện tại chúng ta cho là quyết định tuyệt vời cũng có thể bị đánh giá là 'rác'.
    • Nếu chỉ được huấn luyện từ hồ sơ của con người, liệu siêu AI có thực sự có thể vượt trội hơn con người hay không.
    • Có ý kiến cho rằng các kỹ thuật huấn luyện đối kháng có thể giải quyết vấn đề này.
  • Đề xuất dùng cụm từ để phá việc tóm tắt của GPT-3.5

    • Có thể thử chèn một cụm từ cụ thể vào tài liệu để cản trở nỗ lực tóm tắt tài liệu bằng GPT-3.5.
  • Sự nhầm lẫn quanh các từ 'RTCatch' và 'redirectToRoute'

    • Có câu hỏi về tình huống mà 'RTCatch' và 'redirectToRoute' có thể bị hiểu nhầm là cùng một từ.
    • Có vẻ như hai thuật ngữ này đang được dùng để chỉ cùng một khái niệm, và có thể đã có lỗi gõ sai hoặc cách diễn đạt thiếu nhất quán.
    • Có người tò mò về 'RTCatch' và muốn biết thêm thông tin về nó.