2 điểm bởi GN⁺ 2024-03-29 | 1 bình luận | Chia sẻ qua WhatsApp

Các nhà nghiên cứu MIT trình diễn kỹ thuật khám phá tri thức của mô hình ngôn ngữ lớn

  • Phát hiện rằng khi phản hồi prompt của người dùng, các mô hình ngôn ngữ lớn sử dụng một cơ chế đơn giản để truy xuất tri thức đã được lưu trữ.
  • Các nhà nghiên cứu đã tận dụng cơ chế đơn giản này để xác định những gì mô hình biết về nhiều chủ đề khác nhau, đồng thời có thể sửa thông tin được lưu trữ sai.

Độ phức tạp của mô hình ngôn ngữ lớn

  • Mô hình ngôn ngữ lớn đang được sử dụng trong nhiều lĩnh vực như hỗ trợ khách hàng, sinh mã và dịch ngôn ngữ, nhưng nguyên lý vận hành của chúng vẫn chưa được hiểu đầy đủ.
  • Các nhà nghiên cứu từ MIT và những tổ chức khác đã nghiên cứu cơ chế mà các mô hình học máy khổng lồ này dùng để truy xuất tri thức đã lưu trữ.

Cơ chế truy xuất tri thức đơn giản

  • Kết quả nghiên cứu cho thấy các mô hình ngôn ngữ lớn thường sử dụng một hàm tuyến tính đơn giản để khôi phục và giải mã các sự thật đã lưu trữ.
  • Mô hình sử dụng cùng một hàm giải mã cho các loại sự thật tương tự.
  • Hàm tuyến tính là một phương trình biểu diễn mối quan hệ theo đường thẳng giữa hai biến.

Khám phá những gì mô hình biết

  • Bằng cách xác định các hàm tuyến tính cho nhiều sự thật khác nhau, nhóm nghiên cứu đã khám phá những gì mô hình biết về các chủ đề mới và xác định tri thức đó được lưu ở đâu trong mô hình.
  • Khi sử dụng kỹ thuật đã phát triển cùng các hàm đơn giản được suy ra, họ phát hiện rằng ngay cả khi mô hình đưa ra câu trả lời sai, nó thường vẫn lưu trữ thông tin đúng.

Trực quan hóa tri thức của mô hình

  • Các nhà nghiên cứu dùng các hàm này để xác định mô hình thực sự tin điều gì là đúng về những chủ đề khác nhau.
  • Ví dụ, bắt đầu với prompt "Bill Bradley was a" rồi dùng các hàm giải mã cho "plays sports" và "attended university", họ kiểm tra liệu mô hình có biết rằng Bill Bradley là một cầu thủ bóng rổ và từng học tại Đại học Princeton hay không.
  • Bằng kỹ thuật khám phá này, họ tạo ra một lưới gọi là 'attribute lens' để trực quan hóa nơi thông tin về một quan hệ cụ thể được lưu trữ trong nhiều tầng của transformer.

Ý kiến của GN⁺

  • Nghiên cứu này nâng mức độ hiểu biết về cách các mô hình ngôn ngữ lớn lưu trữ và truy xuất tri thức thực tế lên thêm một bước.
  • Kết quả nghiên cứu gợi mở khả năng dùng việc chỉnh sửa tri thức để giảm xu hướng mô hình cung cấp thông tin sai và ngăn lỗi trong chatbot AI.
  • Nếu được áp dụng, công nghệ này có thể góp phần nâng cao độ tin cậy của AI và giúp cải thiện trải nghiệm người dùng.
  • Tuy nhiên, vì không phải mọi sự thật đều được mã hóa theo cách tuyến tính, nên vẫn cần thêm nghiên cứu để xác định liệu kỹ thuật này có thể áp dụng cho mọi kiểu truy xuất tri thức hay không.
  • Các dự án mã nguồn mở cung cấp chức năng tương tự bao gồm BERT của Google và dòng GPT của OpenAI; chúng cũng đang góp phần giúp hiểu rõ hơn nguyên lý hoạt động của mô hình ngôn ngữ lớn.
  • Khi áp dụng công nghệ mới, cần cân nhắc sự cân bằng giữa độ phức tạp của mô hình và khả năng diễn giải; lợi ích có thể đạt được khi chọn kỹ thuật này là cải thiện độ chính xác và độ tin cậy của mô hình.

1 bình luận

 
GN⁺ 2024-03-29
Ý kiến Hacker News
  • Công trình đáng kinh ngạc này làm nổi bật một số vấn đề lớn nhất hiện nay của lĩnh vực AI

    • Chúng ta thực sự chưa thử làm việc với các nơ-ron hay bộ quy tắc khác biệt đáng kể so với perceptron
    • Không có gì đáng ngạc nhiên khi cấu trúc perceptron, một hàm cộng đơn giản, lặp đi lặp lại trong mô hình
    • Điều này đặt ra câu hỏi liệu topology feedforward và bước nơ-ron đơn lẻ có thực sự là tốt nhất hay chỉ là thứ dễ huấn luyện và dễ chạy nhất trên GPU
    • Có những phương pháp huấn luyện và sơ đồ mã hóa độc đáo không được sử dụng chỉ vì các thư viện lớn không hỗ trợ
    • Cho đến khi chúng ta bắt đầu thấy những thay đổi thực sự trong bộ quy tắc nền tảng của mạng nơ-ron, chúng ta sẽ luôn vật lộn với các biến thể của perceptron
  • Cấu trúc của ngôn ngữ là thứ làm cho Word2Vec trở nên khả thi

    • Việc huấn luyện trên hàng terabyte văn bản do con người tạo ra, được mã hóa bằng Word2Vec + positional encoding, cho phép dự đoán encoding tiếp theo ở mức siêu nhân
    • Mô hình bag-of-words (phương pháp vào/ra) và cửa sổ ngữ cảnh giới hạn cần thiết để positional encoding hoạt động tạo ra sự lệch pha lớn với cấu trúc nhận thức bên trong
    • Có thể bằng cách đổ nhiều sức mạnh tính toán hơn rất nhiều vào GPT-4 và các mô hình tương tự, những dạng biểu diễn mới sẽ tiến hóa và con người sẽ phải khám phá ra chúng
    • MemGPT có thể cuối cùng sẽ trở thành AGI nhờ bộ nhớ dài hạn không giới hạn, nhưng khả năng cao hơn là nó sẽ giống nhân vật chính trong "Memento"
  • Giúp hiểu ý nghĩa của việc sự thật được lưu trữ như một hàm tuyến tính

    • LLM mã hóa sự thật vào một "không gian sự thật" N chiều, nhúng các sự thật thành point/hypersphere/Voronoi manifold trong không gian đó, và việc hồi tưởng sự thật là mạng nơ-ron tính toán/ghi nhớ khóa rồi thực hiện tra cứu key-value trong không gian này
    • Câu hỏi là làm thế nào để nhúng các KV-store như vậy vào các edge-propagation graphical model, và hiện có kỹ thuật thủ công nổi tiếng nào cho việc này hay không
    • Có một liên hệ thú vị với kỹ thuật ghi nhớ "memory palace", nơi não người nhúng sự thật vào các hàm tuyến tính để có thể truy xuất dễ dàng
  • Tò mò về loại hàm được dùng để mã hóa kiến thức lập trình

    • Suy ngẫm liệu có thể tải trực tiếp standard library hay các thư viện khác vào bộ não của LLM mà không cần huấn luyện tốn kém hoặc fine-tuning làm giảm hiệu năng hay không
    • Đây vẫn là một năng lực mang tính khoa học viễn tưởng, nhưng có vẻ đang ngày càng đến gần hơn
  • Nhận thấy sự tương đồng với vai trò của vector quan hệ trong Word2Vec

    • Thêm vector "của X" thường có thể cho ra đáp án đúng
    • Có thể transformer đang ánh xạ thực thể vào không gian embedding tốt hơn
  • LLM có vẻ là một cơ chế nén rất tốt

    • Thật đáng kinh ngạc khi có một bản sao Llama chạy cục bộ trên PC mà gần như có thể truy cập toàn bộ internet
  • Gợi nhớ đến ví dụ embedding "King - Man + Woman = Queen"

    • Điều này giải thích vì sao các hàm tuyến tính đơn giản hoạt động hiệu quả, vì embedding chứa các thuộc tính ngữ nghĩa
  • Khó hiểu làm sao một "tệp CSV/cơ sở dữ liệu/mô hình" với 7 tỷ "tham số" lại có thể cung cấp một LLM/GPT tương tác am hiểu gần như mọi chủ đề

    • 4-bit là một "phương pháp nén", và rốt cuộc mô hình vẫn nhìn thấy f32
    • Quantization là quá trình ánh xạ các số dấu phẩy động 32-bit, tức trọng số của mạng nơ-ron, sang biểu diễn bit nhỏ hơn rất nhiều như giá trị 4-bit
    • Dequantization xảy ra khi dùng mô hình, chuyển các trọng số quantized 4-bit thành các số dấu phẩy động mà phép tính của mô hình thực sự sử dụng
    • Câu hỏi về mối quan hệ giữa "tham số" và "số token duy nhất (kích thước từ vựng)" mà mô hình biết
    • LLAMa có kích thước từ vựng 32.000 và 65B tham số so với GPT-3
    • 6,5 tỷ tham số hoạt động như một hệ thống ánh xạ phức tạp quyết định cách phản hồi với đầu vào dựa trên các quan hệ đã học giữa các token trong dữ liệu huấn luyện
  • Thích việc bài báo này rất hay và đã tiến hành các thí nghiệm để kiểm chứng những ý tưởng này

    • Xét việc LLM tự nhiên học được các xu hướng thống kê đơn giản giữa các từ, có thể đặt câu hỏi về tính mới của chính ý tưởng đó
    • Điều còn hay hơn nhiều là nó cho thấy rõ ràng không phải mọi hành vi của LLM đều có thể được giải thích đơn giản như vậy
  • Khả năng có thể tách phần suy luận khỏi phần thông tin

    • Nếu đúng thì đây là một phát hiện rất đáng kinh ngạc