1 điểm bởi GN⁺ 2024-10-27 | 1 bình luận | Chia sẻ qua WhatsApp

Phát hiện mức độ bất định của LLM

Bài viết này mô tả một kỹ thuật suy luận mới được phát triển trong Entropix, dự án mới của XJDR. Entropix cố gắng cải thiện suy luận của mô hình bằng cách lấy mẫu thông minh hơn vào những thời điểm bất định. Tuy nhiên, vì chưa có đánh giá ở quy mô lớn nên vẫn chưa rõ nó thực sự hữu ích đến mức nào.

Tổng quan về bất định

  • Lấy mẫu là quá trình chọn token từ phân phối các token khả dĩ (logits) mà LLM có thể chọn.
  • Mức độ tự tin của mô hình đối với dự đoán có thể được suy ra thông qua phân phối này.
  • Entropix sử dụng lấy mẫu thích ứng để giúp mô hình đưa ra quyết định tốt hơn khi không chắc chắn.

Ý nghĩa và tầm quan trọng của bất định

  • Sự bất định trong logits có thể xuất phát từ nhiều nguyên nhân khác nhau, và không phải nguyên nhân nào cũng là điều xấu.
  • Các nguyên nhân có thể gồm từ đồng nghĩa hoặc token tương đương, các nhánh rẽ, hoặc trường hợp AI không thực sự chắc chắn.
  • Entropix đề xuất rằng nên chọn token tiếp theo theo những cách khác nhau tùy theo mức độ bất định.

Entropy và varentropy

  • Entropix sử dụng hai chỉ số để đo mức độ bất định là entropyvarentropy.
  • Entropy đo mức độ khác biệt giữa các logits được dự đoán.
  • Varentropy biểu thị “hình dạng” của sự bất định; varentropy cao cho thấy một số giá trị khác biệt đáng kể so với các giá trị còn lại.

Giải thích toán học

  • Surprisal là khái niệm đo mức độ khó dự đoán của một sự kiện.
  • Entropy là kỳ vọng của surprisal trên mọi kết quả khả dĩ.
  • Varentropy được tính như phương sai của surprisal.

Lấy mẫu thích ứng dựa trên entropy và varentropy

Entropy thấp, varentropy thấp

  • Đây là trường hợp lý tưởng, khi mô hình tự tin không chỉ với lựa chọn đầu tiên mà còn với các lựa chọn khác.
  • Sử dụng lấy mẫu argmax tiêu chuẩn để chọn token có xác suất cao nhất.

Entropy thấp, varentropy cao

  • Đây là khi mô hình dự đoán một vài lựa chọn với xác suất rất cao.
  • Điều này có thể biểu thị một nhánh đầu ra mới, và có nhiều cách để triển khai việc phân nhánh.

Entropy cao, varentropy thấp

  • Đây là khi mô hình đang gặp điều mà nó không nhận ra, hoặc mọi lựa chọn đều có thể hoán đổi cho nhau.
  • Sử dụng token “think” để khuyến khích mô hình dùng thêm thời gian tính toán.

Entropy cao, varentropy cao

  • Đây là khi mô hình không có ưu tiên rõ ràng nhưng lại tự tin hơn với một số đầu ra nhất định.
  • Có thể chọn ngẫu nhiên, hoặc chèn phân nhánh hay token suy nghĩ.

Phân nhánh và token suy nghĩ

  • Dự đoán phân nhánh là cách lần theo một vài logits để xem chúng dẫn tới các token khác nhau như thế nào.
  • Token suy nghĩ là cách thực hiện thêm tính toán trong trạng thái bất định.

Attention entropy

  • Entropix dùng attention entropy để điều chỉnh nhiệt độ.
  • Attention entropyđộ đồng thuận attention có thể cung cấp thêm tín hiệu cho việc lấy mẫu.

Điều này có quan trọng không?

  • Các insight của Entropix dễ hiểu và không hoàn toàn mới.
  • Dù các đánh giá có thể không cho thấy lợi ích lớn, những kỹ thuật suy luận như vậy vẫn là một hướng dễ thử nghiệm.

Tóm tắt của GN⁺

  • Entropix đề xuất một cách tiếp cận mới để xử lý mức độ bất định của LLM.
  • Bằng cách dùng entropy và varentropy để đo mức độ tự tin của mô hình, nó có thể đưa ra quyết định tốt hơn thông qua lấy mẫu thích ứng.
  • Những kỹ thuật này mở ra khả năng để các hacker mã nguồn mở cải thiện năng lực suy luận của mô hình mà không cần ngân sách lớn.
  • Một dự án có chức năng tương tự được gợi ý là Transformers của Hugging Face.

1 bình luận

 
GN⁺ 2024-10-27
Ý kiến Hacker News
  • Charles Babbage từng cảm thấy bối rối trước câu hỏi liệu đầu vào sai có thể tạo ra đầu ra đúng hay không

  • Các kỹ thuật dựa trên lấy mẫu sử dụng phần cứng tiêu dùng là một cơ hội hiếm có để cải thiện các mô hình SOTA. Tuy nhiên, điều này sẽ không kéo dài, và cuối cùng sẽ cần các sampler có thể huấn luyện được

    • optillm là một dự án triển khai các kỹ thuật như vậy
    • Phần tính toán bổ sung của Entropics không mang lại kết quả tốt hơn so với giải mã CoT
  • Nhiều vấn đề của LLM phát sinh từ rò rỉ ngữ nghĩa hoặc thông tin không liên quan. Có thể vẫn còn dư địa để cải thiện cơ chế attention

    • Đã viết các bài blog liên quan: rò rỉ ngữ nghĩa, LLM và suy luận, máy Turing thời gian suy luận O(1)
  • GPT hiện đại xuất logit từ một bộ phân loại lớn trên từ vựng token. Điều này tồn tại trong không gian và có thể tính toán các đa tạp với các thuộc tính độ lồi bất thường

  • Cần có khả năng để mô hình phát hiện sự không chắc chắn trong các tình huống entropy cao và cảnh báo người dùng

  • Không chắc đã có kỹ thuật nào để đánh giá sự không chắc chắn của LLM hay chưa. Nghiên cứu gần đây sử dụng semantic entropy để định lượng một cách thống kê việc LLM có đang đoán mò hay không

  • Tò mò không biết đã có ai thử nghiệm đầu ra khi mô hình không được phép không chắc chắn hay chưa. Cách làm là sampler quay lui cho đến khi mọi token đều đạt mức chắc chắn trên ngưỡng

  • Có nghi vấn về việc tin tưởng LLM để thực hiện công việc với mức giám sát tối thiểu. Mọi thứ đều có thể là "ảo giác" hoặc phỏng đoán

  • Vấn đề của LLM không chỉ đơn thuần là "sự không chắc chắn" mà có nhiều chiều khác nhau. Có nhiều lý do như câu hỏi thiếu ý nghĩa, thiếu thông tin, không có đồng thuận giữa các chuyên gia, v.v.

  • Có vô số chiến lược lấy mẫu dành cho mô hình ngôn ngữ. Rất khó để chứng minh bằng thực nghiệm rằng một chiến lược lấy mẫu cụ thể vượt trội hơn top-k hoặc top-p sampling tiêu chuẩn