Anthropic công bố phiên bản "Claude Cầu Cổng Vàng" với cơ chế vận hành nội bộ của LLM được điều chỉnh
(anthropic.com)- Vài ngày trước, Anthropic đã công bố một bài nghiên cứu quan trọng về việc diễn giải cơ chế vận hành nội bộ của LLM
- Trong "Mind" của mô hình Claude 3 Sonnet, họ đã phát hiện ra hàng triệu khái niệm được kích hoạt khi đọc văn bản hoặc hình ảnh liên quan
- Họ gọi những khái niệm này là "Feature", và một trong số đó là khái niệm về Cầu Cổng Vàng (Golden Gate Bridge)
- Họ phát hiện rằng trong mạng nơ-ron của Claude có một tổ hợp nơ-ron cụ thể được kích hoạt khi nhắc đến hoặc nhìn thấy ảnh của Cầu Cổng Vàng, địa danh nổi tiếng nhất của San Francisco
- Không chỉ có thể xác định các đặc trưng này, họ còn có thể điều chỉnh cường độ kích hoạt của chúng và xác nhận những thay đổi tương ứng trong hành vi của Claude
- Khi tăng cường độ của feature "Cầu Cổng Vàng", phản hồi của Claude bắt đầu nhắc đến Cầu Cổng Vàng trong hầu hết mọi câu hỏi, ngay cả khi không liên quan trực tiếp
- Nếu hỏi nên tiêu $10 như thế nào, Claude sẽ gợi ý dùng số đó để trả phí qua cầu khi băng qua Cầu Cổng Vàng
- Nếu yêu cầu viết một câu chuyện tình yêu, Claude kể về một chiếc ô tô đang chờ được băng qua cây cầu mình yêu trong một ngày sương mù
- Nếu yêu cầu tưởng tượng ngoại hình của chính mình, Claude trả lời rằng mình trông giống Cầu Cổng Vàng
- Có thể trực tiếp trải nghiệm mô hình này trên Claude.ai (nhấp vào logo Golden Gate)
- Vì đây là bản demo nghiên cứu nên có thể xuất hiện phản hồi ngoài dự kiến
- Việc có thể tìm và chỉnh sửa những đặc trưng này bên trong Claude mang lại niềm tin rằng chúng ta đã bắt đầu hiểu được LLM thật sự vận hành như thế nào
- Đây không phải là việc thêm một "system prompt" mới bằng cách gắn thêm văn bản vào mọi đầu vào để yêu cầu mô hình đóng vai, hoặc bảo Claude giả vờ là một cây cầu
- Đây cũng không phải là "fine-tuning" truyền thống dùng thêm dữ liệu huấn luyện để tạo ra một hộp đen mới nhằm điều chỉnh hành vi của hộp đen trước đó
- Đây là một thay đổi chính xác và mang tính phẫu thuật đối với một số khía cạnh cơ bản nhất trong các kích hoạt nội bộ của mô hình
- Như bài báo mô tả, cùng kỹ thuật này cũng có thể được dùng để thay đổi cường độ của các đặc trưng liên quan đến an toàn, chẳng hạn như đặc trưng liên quan đến mã máy tính nguy hiểm, hoạt động tội phạm hoặc lừa dối
- Họ tin rằng với nghiên cứu bổ sung, công việc này có thể giúp làm cho các mô hình AI an toàn hơn
4 bình luận
Nếu ví với não bộ thì giống như chọc kích thích điện vào não để xem nó đảm nhiệm chức năng gì rồi vẽ ra một bản đồ mang tính cảm tính, còn ở đây cho cảm giác như có thể xác định chính xác tổ hợp neuron phụ trách chức năng đó.
Nếu biến nó thành con vẹt “Cầu Cổng Vàng” rồi hỏi về các cây cầu ở Hàn Quốc, nó cũng bảo đó là Cầu Cổng Vàng 🫢
Cảm giác như đang dần hiểu được việc một vùng cụ thể của não bộ đảm nhiệm chức năng nào vậy..
Anthropic công bố phiên bản "Cầu Cổng Vàng Claude" đã điều chỉnh cách vận hành bên trong của LLM