Phân rã mô hình ngôn ngữ thành các thành phần có thể hiểu được

(anthropic.com)

1 điểm bởi GN⁺ 2023-10-09 | 1 bình luận | Chia sẻ qua WhatsApp

Anthropic đề cập đến một phương pháp tìm ra các đặc trưng (feature) dễ diễn giải hơn từng neuron riêng lẻ trong một mô hình ngôn ngữ Transformer nhỏ, qua đó chia bên trong mạng nơ-ron thành các đơn vị có thể hiểu được
Một neuron đơn lẻ có thể cùng kích hoạt trong những ngữ cảnh không liên quan như trích dẫn học thuật, hội thoại tiếng Anh, yêu cầu HTTP, văn bản tiếng Hàn, nên khó ánh xạ một cách ổn định với hành vi của mô hình
Nghiên cứu phân rã một lớp gồm 512 neuron thành hơn 4.000 đặc trưng, làm lộ riêng các thuộc tính như chuỗi DNA, văn phong pháp lý, yêu cầu HTTP, văn bản tiếng Hebrew, bảng thành phần dinh dưỡng
Trong đánh giá mù của con người và đánh giá khả năng diễn giải tự động dựa trên LLM, các đặc trưng dễ diễn giải hơn neuron; khi kích hoạt nhân tạo một đặc trưng cụ thể, hành vi mô hình cũng thay đổi theo cách có thể dự đoán
Nếu các đặc trưng đã học nhìn chung mang tính phổ quát giữa các mô hình khác nhau, bài toán mở rộng cách tiếp cận này lên các mô hình frontier lớn hơn sẽ gần với kỹ thuật hơn là khoa học

Vì sao khó diễn giải mạng nơ-ron

Mạng nơ-ron không được con người lập trình quy tắc trực tiếp mà được huấn luyện bằng dữ liệu, và trong quá trình huấn luyện, hàng triệu đến hàng chục tỷ tham số được cập nhật
Có thể truy vết các phép tính toán học của mạng đã huấn luyện
- Mỗi neuron thực hiện các phép toán số học đơn giản
- Tuy nhiên, lý do những phép toán đó dẫn đến hành vi quan sát được thì không rõ ràng
Sự mờ đục này khiến việc chẩn đoán các chế độ lỗi, xác định cách sửa lỗi, và chứng nhận độ an toàn của mô hình trở nên khó khăn

Neuron riêng lẻ không phải là đơn vị diễn giải ổn định

Khoa học thần kinh cũng xử lý vấn đề tương tự khi tìm hiểu nền tảng sinh học của hành vi con người, nhưng với mạng nơ-ron nhân tạo, việc thực nghiệm dễ hơn nhiều
- Có thể ghi lại đồng thời kích hoạt của tất cả neuron
- Có thể can thiệp bằng cách làm im lặng hoặc kích thích neuron
- Có thể kiểm thử phản ứng của mạng với các đầu vào khả dĩ
Tuy nhiên, neuron riêng lẻ không có mối quan hệ nhất quán với hành vi của mạng
- Một neuron đơn lẻ trong mô hình ngôn ngữ nhỏ kích hoạt trong nhiều ngữ cảnh không liên quan như trích dẫn học thuật, hội thoại tiếng Anh, yêu cầu HTTP, văn bản tiếng Hàn
- Một neuron đơn lẻ trong mô hình thị giác cổ điển phản ứng với cả mặt mèo lẫn phần đầu ô tô
Cùng một kích hoạt neuron có thể mang ý nghĩa khác nhau tùy ngữ cảnh

Cách tiếp cận phân rã mô hình bằng đặc trưng (feature)

Bài báo Towards Monosemanticity: Decomposing Language Models With Dictionary Learning đề cập đến việc tồn tại một đơn vị phân tích tốt hơn neuron riêng lẻ
Đơn vị này, đặc trưng (feature), tương ứng với một mẫu kích hoạt neuron, tức một tổ hợp tuyến tính
Anthropic đã xây dựng một công cụ để tìm các đặc trưng như vậy trong một mô hình Transformer nhỏ
Cách tiếp cận này là một con đường để chia mạng nơ-ron phức tạp thành các phần có thể hiểu được, dựa trên các công trình trước đó trong khoa học thần kinh, học máy và thống kê nhằm diễn giải các hệ thống nhiều chiều

Phân rã 512 neuron thành hơn 4.000 đặc trưng

Trong một mô hình ngôn ngữ Transformer, một lớp có 512 neuron được phân rã thành hơn 4.000 đặc trưng
Các đặc trưng được phân rã biểu diễn riêng rẽ những thuộc tính khác nhau
- Chuỗi DNA
- Ngôn ngữ pháp lý
- Yêu cầu HTTP
- Văn bản tiếng Hebrew
- Bảng thành phần dinh dưỡng
Phần lớn các thuộc tính mô hình như vậy không lộ ra nếu chỉ nhìn riêng kích hoạt của từng neuron

Kiểm chứng khả năng diễn giải

Người đánh giá mù chấm điểm khả năng diễn giải của đặc trưng và neuron
- Đặc trưng đạt điểm cao hơn neuron rất nhiều
Đồng thời, nghiên cứu cũng sử dụng đánh giá khả năng diễn giải tự động bằng LLM
- Một mô hình ngôn ngữ lớn tạo mô tả ngắn cho các đặc trưng của mô hình nhỏ
- Một mô hình khác chấm điểm xem chỉ dựa trên mô tả đó, nó dự đoán kích hoạt đặc trưng tốt đến đâu
- Trong đánh giá này, đặc trưng cũng đạt điểm cao hơn neuron
Kết quả là có thêm bằng chứng cho thấy kích hoạt của đặc trưng và tác động hạ nguồn lên hành vi mô hình có thể được diễn giải một cách nhất quán

Điều hướng mô hình bằng đặc trưng

Đặc trưng cũng cung cấp một phương tiện điều hướng mô hình theo mục tiêu
Khi kích hoạt nhân tạo một đặc trưng cụ thể, hành vi mô hình thay đổi theo cách có thể dự đoán
Vì vậy, đặc trưng có thể được xem không chỉ là đơn vị quan sát, mà còn là thành phần nội bộ ảnh hưởng đến hành vi mô hình

Tính phổ quát và điều chỉnh độ phân giải

Các đặc trưng đã học nhìn chung mang tính phổ quát giữa các mô hình khác nhau
- Những gì thu được khi nghiên cứu đặc trưng của một mô hình có thể khái quát sang mô hình khác
Bằng cách điều chỉnh số lượng đặc trưng cần học, có thể thay đổi độ phân giải khi quan sát mô hình
- Phân rã thành một tập đặc trưng nhỏ cho ta góc nhìn thô, dễ hiểu
- Phân rã thành một tập đặc trưng lớn làm lộ các thuộc tính mô hình tinh vi hơn ở góc nhìn chi tiết hơn
Phần giải thích liên quan được nối với thí nghiệm về thay đổi độ phân giải

An toàn AI và nhiệm vụ tiếp theo

Công trình này là kết quả đầu tư nghiên cứu khả năng diễn giải cơ học của Anthropic, và là một trong những hướng nghiên cứu dài hạn cho an toàn AI
Việc các neuron riêng lẻ không thể diễn giải là một trở ngại lớn đối với việc hiểu mô hình ngôn ngữ theo cơ chế
Phân rã các nhóm neuron thành các đặc trưng có thể diễn giải có thể giúp vượt qua trở ngại này
Về dài hạn, điều này có thể liên quan đến việc giám sát và điều hướng hành vi mô hình từ bên trong, nhằm nâng cao độ an toàn và độ tin cậy cần thiết cho việc doanh nghiệp và xã hội chấp nhận sử dụng
Nhiệm vụ tiếp theo là mở rộng phương pháp đã thành công ở mô hình nhỏ sang các mô hình frontier lớn và phức tạp hơn nhiều
- Lần đầu tiên, trở ngại lớn tiếp theo trong diễn giải các mô hình ngôn ngữ lớn được xem là gần với kỹ thuật hơn là khoa học
Có thể xem chi tiết trong Towards Monosemanticity: Decomposing Language Models With Dictionary Learning

1 bình luận

GN⁺ 2023-10-09

Ý kiến trên Hacker News

Tôi tình cờ thấy một bài viết hữu ích so sánh với một bài báo rất gần đây khác, có vẻ như về cơ bản củng cố một số phát hiện cốt lõi. Có lẽ đây là bài so sánh do tác giả của bài báo kia viết: https://www.lesswrong.com/posts/F4iogK5xdNd7jDNyw/comparing-...
Tình cờ là tôi gần như đang làm đúng việc này như một dự án phụ. Bắt đầu từ tò mò thuần túy, và dù không hoàn toàn giống, tôi đang tinh chỉnh một thuật toán nhận nhiều đầu ra được hiệu chỉnh cẩn thận của một LLM cụ thể rồi suy luận tập tham số có khả năng nằm phía sau chúng
Tôi đã dự đoán sẽ xuất hiện các cụm tham số tương tự như những gì quan sát được. Không chính thức thì tôi gọi vấn đề này là “đảo ngược LLM”, và tất nhiên nó không dễ giải. Nhưng cũng không hoàn toàn bất khả thi, và cho đến nay tôi đã tìm được các xấp xỉ khá ổn
Giả thuyết ở phần cuối bản thảo được liên kết rằng “một số đặc trưng thực ra là các đa tạp đặc trưng bậc cao, và dictionary learning có thể chỉ đang xấp xỉ chúng” cũng rất thú vị. Theo nghĩa là có thứ hành xử như một không gian liên tục, trơn tru nên ta có thể định nghĩa đa tạp tùy ý khi cần, thì điều đó đúng. Bỏ qua các tranh luận chặt chẽ, tôi nghĩ chuyện đó thực sự đang xảy ra và đây là khuôn khổ đúng để tiếp cận vấn đề này
Nhận ra đáng kinh ngạc ở đây là đối ứng khái niệm của hàm chuyển tiếp nối các đa tạp khác nhau trong không gian LLM này là gì. Khi nhìn thấy nó, đầu bạn sẽ như nổ tung không phải vì nó phức tạp, mà ngược lại vì nó đơn giản một cách khác thường
- Bạn có thể giải thích rõ hơn “hàm chuyển tiếp” ở đây chính xác nghĩa là gì không?
- Tôi tò mò bạn đã bắt đầu việc này theo cách tiếp cận nào. Tôi cũng muốn tìm hiểu thêm về cách LLM hoạt động
- Ý bạn là theo nghĩa phân cấp à? Hay tôi hoàn toàn bỏ lỡ ý chính?
Điều này trông như một bước tiến lớn trong nghiên cứu alignment. Vấn đề lớn cho đến nay là LLM chỉ là những khối số khó diễn giải, và chúng ta hầu như không biết bên trong đang diễn ra điều gì
Nếu kỹ thuật này mở rộng được lên quy mô lớn hơn, Anthropic coi như đã sửa đáng kể vấn đề đó. Có thể tìm ra các nhóm neuron khác nhau thực sự làm gì, rồi dùng điều đó để kiểm soát hành vi của LLM. Nó có thể giúp ngăn AI vô tình bị lệch alignment
- Với tôi, điều này nghe giống một manh mối tốt cho pruning hơn
- Tôi muốn phần “các đặc trưng đã học nhìn chung mang tính phổ quát giữa các mô hình khác nhau, nên những bài học rút ra từ việc nghiên cứu đặc trưng của một mô hình có thể khái quát sang mô hình khác” được nói kỹ hơn
  Ý là khi huấn luyện trên cùng dữ liệu huấn luyện thì họ tìm thấy cùng các bộ nhận diện đặc trưng? Hay là ý khác? Nó có cho biết điều gì đó, nhưng chính xác là gì thì hơi mơ hồ
Tôi tò mò điều gì sẽ xảy ra nếu đưa các thành phần được lập trình thủ công vào mạng nơ-ron. Những thành phần đơn giản như phát hiện trình tự DNA có vẻ có thể được đưa vào bằng cách tự đặt trọng số
Theo cách tương tự, cũng có thể cấp cho mạng nơ-ron các thành phần toán học. Trong quá trình huấn luyện, mạng sẽ phát hiện và tận dụng các thành phần được định nghĩa sẵn này, hay sẽ phớt lờ chúng và tự tạo cách riêng để phát hiện trình tự DNA?
- Nếu muốn tìm hiểu thêm, lịch sử và ứng dụng của ý tưởng này được gọi là feature engineering
  Tokenization cũng là một dạng của việc này, vì đó là biến đổi trước dữ liệu để mô hình không phải tự học các mẫu mà ta biết là quan trọng
- Có thể lập trình thủ công Transformer: https://srush.github.io/raspy/
  Tuy nhiên tôi không biết có thể tích hợp nó vào trong mô hình hay không. Tôi nghĩ những thứ này không đa nghĩa, nên chiếm nhiều “không gian” hơn hẳn so với neuron đã học, và cuối cùng có thể sẽ thiếu không gian
- Cũng có thể xem như thêm biến đổi đầu vào mang tính suy đoán vào một phần đầu vào của lớp nào đó, rồi để mạng quyết định có dùng biến đổi đó hay không. Nó giống lớp tích chập trong CNN, nhưng được điều chỉnh cho một miền cụ thể hơn nhiều
  Tuy nhiên tôi không rõ đã có bao nhiêu nghiên cứu về các lớp kỳ lạ kiểu này
- Với một số trường hợp sử dụng mà độ chính xác cực kỳ quan trọng, có thể chọn mã viết thủ công để tính toán. Như vậy ta có thể tin chắc vào hiệu quả của phương pháp do con người tạo ra hơn là giao tác vụ cụ thể đó cho LLM
  Tuy nhiên vẫn chưa rõ điều này sẽ được tích hợp trực tiếp vào mạng, hay trở thành một công cụ mà LLM có thể dùng. Thú vị là điều này cũng giống lựa chọn giữa việc tăng cường não người bằng thứ như Neuralink, hay chỉ đưa cho họ một cái máy tính
Hy vọng nghiên cứu kiểu này sẽ dẫn tới cách tạo ra các mô hình nhỏ hơn và hiệu quả hơn nhiều nhưng vẫn có thể tinh chỉnh chính xác và steerable
Nếu có thể thấy từng phần làm gì, về lý thuyết ta có thể tìm cách chỉ tạo tập đặc trưng mong muốn. Hoặc cũng có thể điều chỉnh các đặc trưng có dung lượng dư thừa
Khi nghiên cứu đặc trưng, có thể đi đến điểm chưng cất tri thức thành thứ gần giống một knowledge graph rất phong phú và được định nghĩa chi tiết
- Anthropic có lẽ đang đi dây trên nhiều chiều. Họ muốn an toàn AI, và có lẽ cũng muốn tránh việc ai cũng có mô hình mạnh
  Nhưng nếu kết quả nghiên cứu đó bị Meta hay nhiều nhóm Discord hấp thụ, các LLM lông lá như hiện nay sẽ biến thành đối thủ mạnh, và mọi người đều tiếp cận được sức mạnh đó. Tôi không quá chắc bên nào tốt hơn, nhưng hơi nghiêng về phía mô hình mở
  Dù sao thì những người bình thường như chúng ta cũng đã được phép dùng máy tính, CPU hiện đại, Internet và những thứ tương tự. Sẽ có những chuyện xấu như lừa đảo, thậm chí tệ hơn, nhưng tôi nghĩ vậy vẫn tốt hơn việc hạn chế những gì con người có thể làm
Một mô hình khổng lồ duy nhất không phải là cách bộ não vận hành. Cũng không phải cách sơ đồ tổ chức vận hành
Việc LLM thể hiện năng lực ở mức này với mật độ tính toán hiện tại là tín hiệu mạnh rằng bài toán tạo ra một lao động tri thức năng suất đã bước vào vùng tiềm năng vượt mức
Mảnh ghép còn thiếu không phải là sự phát triển của LLM, mà là quản lý LLM. Điểm mấu chốt là làm cho một sơ đồ tổ chức LLM nội bộ mang tính đối kháng báo cáo cho tôi, và xây dựng niềm tin bên trong nó
- Cách các hệ thống như vậy hoạt động có cảm giác cực kỳ kém hiệu quả
  Chúng ta không đánh giá lại mô hình vật lý thiên văn mỗi lần đọc sách nấu ăn
Tôi tò mò mỗi neuron trong não người đa nghĩa đến mức nào. Điều ta thực sự muốn, và có thể là thứ não người có, có vẻ là một mạng nơ-ron đơn nghĩa có lượng thông tin cao, tức một mạng dựa trên đặc trưng, dựa trên khái niệm, dựa trên các mẫu vĩ mô
Ngay cả nếu có neuron đa nghĩa, có lẽ chúng chia sẻ thông tin tương tự hoặc giống nhau trong đặc trưng mà chúng thuộc về để đạt hiệu quả không gian và hiệu quả tính toán. Ngược lại, trong các mô hình Transformer này, trông như đang chồng một triệu bộ não người lên cùng một mạng, rồi bằng cách nào đó lấy trung bình mọi đặc trưng trong tập huấn luyện thành các neuron riêng biệt. Khi đó tự nhiên sẽ thành một “bộ não” lớn hơn rất nhiều
Bài báo nói rằng neuron đơn nghĩa trong mạng không hoạt động tốt, nhưng trực giác của tôi là vì chúng quá “độ chính xác cao” và không mã hóa đủ thông tin ở cấp đặc trưng. Đặc trưng là chiều thấp, còn neuron đơn nghĩa chiều cao có thể chỉ mã hóa quá ít thông tin. Tuy nhiên đây là suy nghĩ trong lúc tôi còn thiếu hiểu biết về não người, nên có thể có nhiều điểm tương đồng mà tôi không biết hơn nhiều
Tôi nghĩ điều này thật sự rất tuyệt. Có vẻ như mọi LLM đều hội tụ quanh các đặc trưng chung này
Theo cách hiểu của một người không chuyên, mô hình đã huấn luyện mô tả chuyển tiếp từ một ký hiệu sang ký hiệu kế tiếp bằng xác suất giữa các nút. Đồ thị này có cấu trúc. Nếu không có cấu trúc thì ngay từ đầu đã không thể huấn luyện được
Tuy nhiên cấu trúc đó giống như trên một tờ giấy, định nghĩa của từng nút được phủ chồng nhiều lớp bằng các màu mực khác nhau. Nghiên cứu này và các bài báo cha mẹ/anh em trong bài LessWrong trông giống như việc nhặt ra các thành phần đồ thị có màu khác nhau từ nồi súp số thực dấu phẩy động đó

Phân rã mô hình ngôn ngữ thành các thành phần có thể hiểu được

Vì sao khó diễn giải mạng nơ-ron

Neuron riêng lẻ không phải là đơn vị diễn giải ổn định

Cách tiếp cận phân rã mô hình bằng đặc trưng (feature)

Phân rã 512 neuron thành hơn 4.000 đặc trưng

Kiểm chứng khả năng diễn giải

Điều hướng mô hình bằng đặc trưng

Tính phổ quát và điều chỉnh độ phân giải

An toàn AI và nhiệm vụ tiếp theo

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News