Trích xuất khái niệm từ GPT-4

(openai.com)

2 điểm bởi GN⁺ 2024-06-07 | 1 bình luận | Chia sẻ qua WhatsApp

OpenAI đã công bố một phương pháp có thể mở rộng để phân rã các biểu diễn của GPT‑4 thành 16 triệu đặc trưng nhằm hiểu rõ hơn bên trong mô hình ngôn ngữ
Công cụ cốt lõi là sparse autoencoder, một cách tiếp cận nhằm liên kết một số ít mẫu kích hoạt ảnh hưởng đến đầu ra với các khái niệm mà con người có thể hiểu được
Phương pháp mới cho thấy scaling dễ dự đoán hơn so với các kỹ thuật trước đây, và được dùng để huấn luyện nhiều autoencoder trên các kích hoạt của GPT‑2 small và GPT‑4
Các giới hạn cũng rất rõ ràng: nhiều đặc trưng vẫn còn khó diễn giải, và các kích hoạt GPT‑4 sau khi đi qua sparse autoencoder chỉ đạt mức hiệu năng tương đương một mô hình được huấn luyện với ít phép tính huấn luyện hơn khoảng 10 lần
Bài báo, mã nguồn và công cụ trực quan hóa đặc trưng được công bố tạo nền tảng cho nghiên cứu tiếp theo; trong ngắn hạn, OpenAI dự định kiểm chứng liệu chúng có hữu ích cho việc giám sát và điều hướng hành vi của mô hình ngôn ngữ hay không

Vì sao khó diễn giải bên trong mạng nơ-ron

Hiện vẫn chưa có một phương pháp đủ vững chắc để hiểu hoạt động thần kinh bên trong các mô hình ngôn ngữ
Những vật thể nhân tạo như ô tô có thể được thiết kế, đánh giá và sửa chữa dựa trên đặc tả linh kiện, nhưng mạng nơ-ron không phải tập hợp các bộ phận được thiết kế trực tiếp mà là sản phẩm của thuật toán học
Vì vậy, mạng nơ-ron không dễ được tách thành các bộ phận có thể nhận diện, khiến việc xử lý an toàn AI khó như cách ta suy luận về độ an toàn của ô tô
Để diễn giải mạng nơ-ron, trước tiên cần tìm ra các đơn vị cấu thành hữu ích có thể mô tả phép tính thần kinh

Cách tiếp cận bằng sparse autoencoder

Các kích hoạt bên trong mô hình ngôn ngữ bật lên theo những mẫu khó dự đoán và dường như biểu diễn nhiều khái niệm cùng lúc
Kích hoạt xuất hiện dày đặc, với nhiều phần tử cùng được kích hoạt ở mỗi đầu vào
Các khái niệm trong thế giới thực thường chỉ liên quan đến một phần nhỏ trong tổng thể ở những ngữ cảnh cụ thể, nên tính thưa là yếu tố quan trọng
Sparse autoencoder là phương pháp xác định một số ít đặc trưng quan trọng đối với việc tạo ra một đầu ra cụ thể
- Kỳ vọng là nó có cấu trúc tương tự số ít khái niệm con người giữ trong đầu khi suy luận về một tình huống
- Ngay cả khi không trực tiếp thưởng cho khả năng diễn giải, các đặc trưng vẫn cho thấy các mẫu kích hoạt thưa tự nhiên khớp với những khái niệm con người dễ hiểu
Các mô hình ngôn ngữ lớn biểu diễn rất nhiều khái niệm, nên để bao phủ đủ các khái niệm của mô hình frontier, autoencoder cũng phải rất lớn

Các đặc trưng quy mô lớn tìm thấy trong GPT‑4

OpenAI đã phát triển một phương pháp luận để mở rộng sparse autoencoder trên các mô hình AI frontier lên quy mô hàng chục triệu đặc trưng
Phương pháp này cho thấy lợi ích scaling tốt hơn các kỹ thuật trước đây, với đặc tính mở rộng mượt mà và dễ dự đoán
Nhóm nghiên cứu cũng giới thiệu một số thước đo mới để đánh giá chất lượng đặc trưng
Với công thức này, họ đã huấn luyện nhiều autoencoder khác nhau trên các kích hoạt của GPT‑2 small và GPT‑4
- Với GPT‑4, họ đã huấn luyện một autoencoder có 16 triệu đặc trưng
Khả năng diễn giải của đặc trưng được kiểm tra bằng cách trực quan hóa các tài liệu nơi một đặc trưng cụ thể được kích hoạt
- Ví dụ gồm các đặc trưng liên quan đến khiếm khuyết của con người, tăng giá, X và Y, log huấn luyện, câu hỏi tu từ, vành đại số, và dopamine
- Trong GPT‑4, cũng xác định được một đặc trưng liên quan đến “cách diễn đạt rằng sự vật, đặc biệt là con người, có flaw”
Có thể khám phá thêm nhiều đặc trưng trong công cụ trực quan hóa đặc trưng

Những giới hạn vẫn còn tồn tại

Dù có kỳ vọng rằng khả năng diễn giải có thể nâng cao độ tin cậy và khả năng điều hướng của mô hình, công việc hiện tại vẫn mới ở giai đoạn đầu
Nhiều đặc trưng được phát hiện vẫn rất khó diễn giải
- Có trường hợp kích hoạt mà không có mẫu rõ ràng
- Có trường hợp xuất hiện kích hoạt giả không liên quan đến khái niệm mà đặc trưng đó có vẻ đang mã hóa
- Hiện vẫn chưa có cách tốt để xác nhận tính đúng đắn của một diễn giải
Sparse autoencoder không nắm bắt được toàn bộ hành vi của mô hình gốc
- Khi cho các kích hoạt GPT‑4 đi qua sparse autoencoder, hiệu năng thu được tương đương một mô hình được huấn luyện với ít phép tính huấn luyện hơn khoảng 10 lần
- Để lập bản đồ đầy đủ các khái niệm của frontier LLM, có thể cần mở rộng lên hàng tỷ hoặc hàng nghìn tỷ đặc trưng
- Ngay cả với kỹ thuật scaling được cải thiện, quy mô đó vẫn là một thách thức
Sparse autoencoder có thể tìm đặc trưng tại một điểm trong mô hình, nhưng đó mới chỉ là một bước trong việc diễn giải toàn bộ mô hình
- Mô hình tính toán đặc trưng đó như thế nào
- Đặc trưng đó được sử dụng ra sao ở các phần tiếp theo của mô hình
- Cần nhiều nỗ lực hơn rất nhiều để hiểu hai vấn đề này

Tài liệu công khai và các bước tiếp theo

OpenAI đã công bố bài báo mô tả các thí nghiệm và phương pháp
Họ cung cấp trọn bộ autoencoder cho GPT‑2 small cùng mã nguồn để sử dụng chúng
Họ cũng công bố công cụ trực quan hóa đặc trưng để xem các đặc trưng GPT‑2 và GPT‑4 có thể tương ứng với điều gì
Trong ngắn hạn, OpenAI dự định thử nghiệm trên các mô hình frontier xem những đặc trưng đã phát hiện có thực sự hữu ích cho việc giám sát và điều hướng hành vi của mô hình ngôn ngữ hay không
Về dài hạn, mục tiêu là để khả năng diễn giải cung cấp những cách mới nhằm suy luận về độ an toàn và độ vững chắc của mô hình, đồng thời tăng mạnh niềm tin thông qua các đảm bảo về hành vi của các mô hình AI mạnh

1 bình luận

GN⁺ 2024-06-07

Ý kiến trên Hacker News

Một trong những ví dụ đầu tiên là Tính năng của GPT-4: phần kết của các cụm từ liên quan đến tăng giá, nhưng 2 trong 5 phản hồi dường như hoàn toàn không liên quan đến việc tăng giá
Ví dụ có câu nói giá dầu thô đã giảm, hoặc câu trong hóa đơn giặt là có nhắc đến giá hợp đồng
Có vẻ như tôi đang hiểu sai điều gì đó, nhưng chắc hẳn có rất nhiều ví dụ khả dĩ, nên tôi tò mò vì sao họ lại chọn đúng những ví dụ này
- Cần để ý rằng phần lớn ví dụ không có bộ đếm tô sáng màu xanh lá
  Phần tô sáng màu xanh lá xuất hiện trong câu như small losses. KEEPING SCORE: The Dow Jones industrial average rose..., còn các câu còn lại có vẻ nhằm đối chiếu để cho thấy neuron này phản ứng với một mẫu hình cụ thể đến mức nào
Thật sự rất hay, và có cảm giác như đang đi theo hướng tìm kiếm ngữ nghĩa sâu mà tôi đã chờ đợi
Tôi thích các ví dụ lọc tài liệu theo khái niệm “tăng giá”, hoặc tìm theo các khái niệm cấp cao hơn như “câu hỏi tu từ”
Tôi tò mò cách này sẽ ra sao nếu so với việc huấn luyện hoặc tinh chỉnh mô hình bằng ví dụ về câu hỏi tu từ để nó tìm trong tài liệu
Vì đây là cách chỉ xem kích hoạt của mạng nơ-ron thay vì đưa đầu vào rồi để nó sinh câu trả lời, nên có vẻ có thể nhanh hơn hoặc chính xác hơn
- Exa đang thử làm những thứ như vậy
  Tôi đã tìm được vài kết quả thú vị theo cách này, nhưng hiện vẫn chưa có cảm giác là đủ tốt
  https://exa.ai/search?c=all
Thú vị, và làm tôi nhớ đến công việc tương tự mà Anthropic đã làm với Claude 3 Sonnet
[0] https://transformer-circuits.pub/2024/scaling-monosemanticit...
- Trang web tạo cảm giác ám chỉ khá mạnh rằng sparse autoencoder là thứ OpenAI phát minh cho dự án này
  Việc không trích dẫn trên trang web mà giấu nguồn trong bài báo khá kỳ lạ
- Phương pháp thì giống nhau, và gần như OpenAI đã áp dụng nghiên cứu của Anthropic lên mô hình của mình
- Có lời nói rằng để huấn luyện thứ này cần tài nguyên tính toán gần như ngang với khi huấn luyện mô hình gốc
Thật thú vị khi những kết quả này xuất hiện chưa đầy 3 tuần sau “Mapping the Mind of a Large Language Model” của Anthropic
Những nỗ lực như thế này thật sự rất đáng mong đợi, và dù vẫn thường nghe người ta nói “chúng ta hoàn toàn không biết LLM hay deep learning hoạt động như thế nào”, nhìn vào các nghiên cứu kiểu này thì câu đó gần như là khái quát hóa quá mức
Tôi tò mò liệu họ có đưa ra hơi vội để phản ứng với công bố của Anthropic và việc Jan Leike rời OpenAI hay không
Liên kết bài báo cũng không dẫn đến Arxiv và độ sâu phân tích có vẻ nông hơn nhiều, nhưng cũng có thể là chuyện không liên quan
- Ngay trong bài có lặp lại những câu như “hiện tại chúng ta chưa biết phải diễn giải hoạt động thần kinh bên trong mô hình ngôn ngữ như thế nào”, “khác với phần lớn tác phẩm do con người tạo ra, chúng ta không hiểu rõ cách vận hành nội bộ của mạng nơ-ron”, “mạng chưa được hiểu rõ và không dễ phân rã thành các phần có thể nhận diện”
  Lý do mọi người nói hiện ta không biết vì sao mô hình tạo ra những đầu ra đó là, như bài viết nói rõ, vì thực tế là chúng ta vẫn chưa biết
- Họ đã có kế hoạch công bố bài báo vào thời điểm này, không liên quan đến các sự kiện khác được nhắc tới
  Tôi cho rằng nói rằng chúng ta vẫn hầu như chưa biết LLM hoạt động thế nào nhìn chung vẫn là đúng
  Sparse autoencoder có thể một ngày nào đó thay đổi điều đó, nhưng vẫn còn một chặng đường dài
- Tôi thấy nghiên cứu kiểu này ngược lại còn củng cố rằng mức độ hiểu biết về cơ chế nội bộ hiện vẫn còn rất ít
  Bài blog cũng nhiều lần nói rằng công việc này đang ở giai đoạn đầu và có nhiều giới hạn
- Tôi lười tìm nguồn, nhưng trên Twitter có người đã phát hiện commit đầu tiên là 6 tháng trước
  Có lẽ mọi người đều ở trong cùng bầu không khí tại San Francisco, và xu hướng này đã lan rộng trong toàn ngành từ trước
- Việc tiêu đề bài báo ngầm gợi ý rằng LLM có tâm trí không phải là tín hiệu hay cho lắm về phía các tác giả
  Những lời nói vô nghĩa về “an toàn” cũng vẫn tiếp diễn
  Sẽ tốt hơn nếu họ cho thấy công việc theo cách có thể tái lập, nhưng xét như quảng cáo thì cũng không tệ
Trong một ví dụ khác, có vẻ họ đã phân loại một tài liệu trông giống giải thích khoa học về giải phẫu sinh sản là nội dung tình dục
Liên kết khái niệm ở đây [cảnh báo nội dung]: https://openaipublic.blob.core.windows.net/sparse-autoencode...
DocID: 191632
Tôi tò mò phương pháp này khác hoặc cải thiện thế nào so với việc áp dụng những thứ như SHAP[0][1] cho mô hình
Câu mở đầu “hiện tại chúng ta chưa biết phải diễn giải hoạt động thần kinh bên trong mô hình ngôn ngữ như thế nào” có lẽ đơn giản là sai chăng
[0] https://github.com/shap/shap
[1] https://en.wikipedia.org/wiki/Shapley_value#In_machine_learn...
- Tôi nghĩ SHAP là một thứ khá riêng biệt
  Phân tích Shapley về bản chất là một phương pháp luận theo lý thuyết trò chơi, bất khả tri với mô hình, và chỉ xem từng phần riêng lẻ của đầu vào đóng góp bao nhiêu vào một dự đoán cụ thể, chứ không xử lý việc mô hình vận hành nội bộ ra sao để tạo ra đầu ra
  Chỉ cần có một hộp đen có thể gọi được là có thể tính giá trị Shapley hoặc giá trị xấp xỉ, nhưng nó không giải thích mô hình hoạt động bên trong như thế nào hoặc vì sao
Có thể giải thích dễ hiểu vì sao điều này quan trọng không? Không cần đến mức cho trẻ 5 tuổi, nhưng tôi muốn hiểu bằng ngôn ngữ cơ bản
- AI dựa trên LLM có rất nhiều “đặc trưng”, và chúng phần nào giống với “khái niệm”
  Ví dụ có thể bao gồm từ khái niệm dấu nháy đơn trong từ don't, cho đến mẫu rằng trong bối cảnh lịch sử Mỹ thời kỳ đầu, sau "George Wash" thường là "ington"
  Bên trong mạng nơ-ron của LLM, những thứ này được ánh xạ thành các đường dẫn giống như mạch phần mềm
  Vì chúng ta chưa hiểu rõ các đặc trưng này được tạo ra bên trong LLM như thế nào, mạch nào được kích hoạt khi xuất kết quả, và vì sao nó đi theo mạch đó, nên rất khó debug phần này và cũng khó cải thiện mô hình
  Khi LLM/AI phát triển đủ xa, hẳn chúng ta sẽ muốn nhận biết liệu nó có cố ý lừa dối chúng ta hay không, nhưng hiện tại chưa thể làm được
  Vì vậy, lĩnh vực cố gắng hiểu thực sự điều gì đang diễn ra trong mạng nơ-ron trong quá trình tạo và xuất ra các khái niệm được gọi là khả diễn giải
  OpenAI, DeepMind và Anthropic đã tìm ra các cách nhìn vào các mạch bên trong LLM và làm lộ ra một số đặc trưng
  Sau khi đặt câu hỏi cho mô hình, họ xem phần nào của mạch bên trong “bật lên”, rồi ở bước kiểm chứng, loại bỏ mạch đó để xem đặc trưng tương ứng có được dùng ít hơn trong câu trả lời hay không
  Các đồ thị và những từ được tô nổi bật là biểu diễn trực quan của các khái niệm mà ta có thể khá chắc chắn
  Chẳng hạn, khái niệm “AND” dùng để nối hai phần của câu sẽ tô nổi bật từ “AND”
  Nếu bạn quan tâm đến khả diễn giải, tôi cho rằng Neel Nanda là nguồn tài liệu tốt nhất
  Tuy nhiên, cách tiếp cận khác với phương pháp của OpenAI được nói trong bài này: https://www.neelnanda.io/mechanistic-interpretability
- Các khái niệm cấp cao được lưu trong các mô hình lớn, chẳng hạn mô hình khuếch tán hoặc transformer, thường khó tách rời nhau, và mô hình gần như là một hộp đen
  Có rất nhiều nghiên cứu nhằm nhìn vào bên trong để hiểu mô hình biết gì, và đây là một bước tiến nữa theo hướng đó
  Nó giúp việc tách các khái niệm trở nên dễ hơn
  Nhờ đó, ta có khả năng phân tích tri thức bên trong mô hình, cũng như thêm, xóa hoặc thay đổi mức độ quan trọng của một khái niệm cụ thể trong khi ít ảnh hưởng hơn đến các khái niệm không liên quan
  Tuy nhiên, độ chính xác có thể đạt được bằng kỹ thuật cụ thể này luôn là một dấu hỏi, và vì một số khái niệm quá gần nhau nên khó tách, nó sẽ không hoàn hảo
- Theo chính câu trả lời của ChatGPT, bài này nói về cách các nhà nghiên cứu dùng autoencoder thưa để xác định và diễn giải các đặc trưng cốt lõi trong những mô hình ngôn ngữ phức tạp như GPT-4, qua đó làm cho cơ chế vận hành bên trong dễ hiểu hơn
  Những tiến bộ như vậy giúp tăng độ an toàn và độ tin cậy của AI bằng cách chia quá trình ra quyết định của mô hình thành các phần đơn giản hơn mà con người có thể diễn giải
- Nhìn chung, đây là làm theo công việc mà Anthropic đã làm, nên về cơ bản không có gì mới
  Việc được thực hiện ở đây là tìm các mẫu bên trong GPT-4 tương ứng với những khái niệm cụ thể có thể nhận diện
  Công việc này có vẻ do đội an toàn phần lớn đã bị giải thể của OpenAI thực hiện, và cũng có tên của hai đồng lãnh đạo vừa rời đi là Ilya và Jan Leike
  Trên danh nghĩa, mục đích là an toàn, nhằm có thể tăng cường hoặc ức chế sự kích hoạt của một khái niệm cụ thể trong khi mô hình đang chạy
  Màn demo của Anthropic khiến mô hình bị ám ảnh với Golden Gate Bridge là một ví dụ: https://www.anthropic.com/news/golden-gate-claude
  Những công việc kiểu này không chỉ liên quan đến an toàn, mà còn có vẻ có khả năng ứng dụng về mặt chức năng vì có thể điều khiển mô hình theo một cách cụ thể
Có phải ý là việc công bố kèm một autoencoder được huấn luyện trên chính mạng nơ-ron đó để giải thích đầu ra của mạng nơ-ron có thể trở thành một thực hành tốt không?
Nếu mọi mô hình công khai trên Hugging Face đều có phụ kiện như vậy thì có vẻ sẽ hữu ích
- Encoder như vậy có lẽ sẽ phụ thuộc vào từng mô hình cụ thể
Cái này giống fMRI cho mạng nơ-ron phải không?
Tức là có thể xem vùng nào bật lên tùy theo chủ đề
Tôi cũng tò mò liệu có thể gắn thêm một mạng nơ-ron đánh giá để tự động đánh giá các vùng được bật lên hay không
Có vẻ cũng có thể làm được, giống như AI từng tái tạo lại thứ bệnh nhân đang nhìn chỉ từ ảnh quét fMRI
Một trong những chức năng được kỳ vọng từ các nghiên cứu như thế này là xác định các điểm nóng được dùng trong quá trình suy luận
Có lẽ có thể cache toàn bộ hoặc một phần những phần này như máy ảo để giảm thời gian phản hồi và giảm cả số chu kỳ tính toán cần thiết

Trích xuất khái niệm từ GPT-4

Vì sao khó diễn giải bên trong mạng nơ-ron

Cách tiếp cận bằng sparse autoencoder

Các đặc trưng quy mô lớn tìm thấy trong GPT‑4

Những giới hạn vẫn còn tồn tại

Tài liệu công khai và các bước tiếp theo

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News