- Bước tiến lớn trong việc hiểu cơ chế hoạt động bên trong của mô hình AI
- Đã xác nhận cách hàng triệu khái niệm được biểu diễn bên trong Claude Sonnet LLM.
- Đây là trường hợp đầu tiên quan sát chi tiết nội bộ của một LLM cấp độ production hiện đại.
- Những phát hiện về khả năng diễn giải này có thể giúp làm cho các mô hình AI an toàn hơn trong tương lai.
- Cách tiếp cận hộp đen và vấn đề niềm tin
- Các mô hình AI thường được xử lý theo cách tiếp cận hộp đen, chỉ kiểm tra đầu vào và đầu ra.
- Rất khó hiểu vì sao mô hình lại đưa ra một phản hồi cụ thể.
- Điều này khiến việc tin tưởng rằng mô hình sẽ không tạo ra các phản hồi có hại, thiên lệch, sai sự thật hoặc nguy hiểm trở nên khó khăn.
- Khó khăn trong việc hiểu trạng thái nội bộ của mô hình
- Trạng thái nội bộ của mô hình được cấu thành từ các con số, không có ý nghĩa rõ ràng.
- Mỗi khái niệm được biểu diễn trên nhiều neuron, và mỗi neuron lại biểu diễn nhiều khái niệm.
- Tiến triển trong dictionary learning
- Trước đây đã có tiến triển trong việc ghép các mẫu kích hoạt neuron (feature) với các khái niệm mà con người có thể hiểu được.
- Nhờ kỹ thuật "dictionary learning", giờ đây có thể biểu diễn trạng thái nội bộ của mô hình bằng một vài feature được kích hoạt thay vì nhiều neuron kích hoạt.
- Thành công trên mô hình ngôn ngữ nhỏ
- Vào tháng 10/2023, đã áp dụng thành công dictionary learning trên một mô hình ngôn ngữ rất nhỏ.
- Đã xác định được các khái niệm như chữ in hoa, chuỗi DNA, giới tính trong trích dẫn, v.v.
- Mở rộng lên mô hình lớn hơn
- Khi mở rộng kỹ thuật sang các mô hình ngôn ngữ lớn, nhóm nghiên cứu có thể tìm thấy các feature phức tạp hơn.
- Có rủi ro khoa học rằng mô hình lớn có thể hoạt động khác với mô hình nhỏ.
- May mắn là kinh nghiệm huấn luyện các mô hình ngôn ngữ lớn đã hỗ trợ cho thí nghiệm này.
- Các feature bên trong Claude 3.0 Sonnet
- Đã trích xuất thành công hàng triệu feature từ các lớp giữa của Claude 3.0 Sonnet.
- Các feature này tương ứng với nhiều khái niệm đa dạng như thành phố, con người, nguyên tố, lĩnh vực học thuật, cú pháp lập trình, v.v.
- Các feature trừu tượng
- Claude cũng phản ứng với các feature trừu tượng hơn như bug trong mã máy tính, thiên lệch giới tính trong nghề nghiệp, hay các cuộc thảo luận về việc giữ bí mật.
- Đo khoảng cách giữa các feature
- Bằng cách đo "khoảng cách" giữa các feature, nhóm nghiên cứu có thể tìm ra các feature tương tự.
- Ví dụ, gần feature "Golden Gate Bridge" có thể tìm thấy các feature liên quan đến Alcatraz Island, Ghirardelli Square, v.v.
- Thí nghiệm thao tác feature
- Có thể thay đổi phản hồi của Claude bằng cách khuếch đại hoặc ức chế một feature cụ thể.
- Ví dụ, nếu khuếch đại feature "Golden Gate Bridge", Claude sẽ nhận thức hình dạng vật lý của chính mình là Cầu Cổng Vàng.
- An toàn và thao tác feature
- Nhóm nghiên cứu khám phá khả năng nhận diện và cải thiện các feature liên quan đến an toàn của mô hình bằng cách thao tác chức năng của Claude.
- Claude được huấn luyện để không tạo email lừa đảo, nhưng khi kích hoạt một feature cụ thể thì nó có thể viết email lừa đảo.
- Định hướng nghiên cứu trong tương lai
- Có kế hoạch tận dụng các phát hiện này để cải thiện độ an toàn của mô hình.
- Chúng có thể được dùng để giám sát hành vi nguy hiểm của hệ thống AI, định hướng về kết quả mong muốn, hoặc loại bỏ các chủ đề nguy hiểm.
- Các kỹ thuật này có thể củng cố những kỹ thuật an toàn khác như Constitutional AI.
- Những thách thức phía trước
- Với công nghệ hiện tại, việc tìm ra toàn bộ các khái niệm mà mô hình đã học vẫn rất tốn kém.
- Việc hiểu cách mô hình sử dụng các feature là rất quan trọng.
- Cần chứng minh rằng các feature liên quan đến an toàn thực sự có thể được dùng để nâng cao độ an toàn.
- Cơ hội tham gia nghiên cứu
- Anthropic đang tìm kiếm các nhà khoa học nghiên cứu, kỹ sư nghiên cứu và những vị trí khác để cùng làm việc về diễn giải và cải tiến mô hình AI.
- Xem thêm trong bài báo "Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet".
- Nghiên cứu này đã tạo ra một bước tiến quan trọng trong việc nâng cao khả năng diễn giải và tăng cường an toàn cho các mô hình AI. Vẫn cần thêm nhiều nghiên cứu trong tương lai.
2 bình luận
Có lẽ điểm khác với não bộ là có thể biết khá chắc chắn perceptron nào đang được kích hoạt.
Có cảm giác việc hiểu một hộp đen khó nắm bắt như vậy sẽ khá giống với việc nghiên cứu bộ não.
Ngược lại, xét ở góc độ dễ chụp snapshot hơn, có lẽ khả năng diễn giải của nó thậm chí còn cao hơn não bộ.