Thành tựu nghiên cứu mới của OpenAI: Phân rã biểu diễn nội bộ của GPT-4 thành các mẫu có thể diễn giải

(openai.com)

7 điểm bởi brainer 2024-06-07 | 2 bình luận | Chia sẻ qua WhatsApp

• OpenAI đang nỗ lực hiểu hoạt động thần kinh bên trong các mô hình ngôn ngữ bằng cách giới thiệu một phương pháp mở rộng mới để phân rã biểu diễn nội bộ của GPT-4 thành 16 triệu mẫu có thể diễn giải.

• Mạng nơ-ron không được thiết kế trực tiếp và thiếu các thành phần có thể nhận diện rõ ràng, nên rất khó để diễn giải, khiến việc suy luận về độ an toàn của AI trở nên khó khăn.

• Sử dụng sparse autoencoder để xác định các "đặc trưng" liên quan trong mạng nơ-ron, đại diện cho các khái niệm mà con người dễ hiểu.

• Nhóm nghiên cứu đã phát triển phương pháp luận tiên tiến để mở rộng sparse autoencoder lên hàng chục triệu đặc trưng trong các mô hình AI tối tân, đồng thời chứng minh khả năng mở rộng mượt mà và có thể dự đoán.

• Họ cho thấy khả năng diễn giải của các đặc trưng thông qua trực quan hóa thể hiện mức kích hoạt tài liệu đối với các đặc trưng cụ thể.

• Ví dụ về các đặc trưng có thể diễn giải bao gồm các cụm từ liên quan đến khiếm khuyết của con người, xu hướng tăng giá, cấu trúc câu dạng "X và Y", log huấn luyện machine learning, câu hỏi mang tính tu từ/cường điệu, vành đại số, cùng các thụ thể adenosine và dopamine.

• Nhóm nghiên cứu rất hào hứng về tiềm năng của khả năng diễn giải trong việc cải thiện độ tin cậy và khả năng căn chỉnh của mô hình, nhưng cũng thừa nhận những hạn chế như khó khăn trong việc diễn giải nhiều đặc trưng đã được phát hiện và nhu cầu về các phương pháp xác thực tốt hơn.

2 bình luận

brainer 2024-06-07

https://github.com/openai/sparse_autoencoder

brainer 2024-06-07

https://openaipublic.blob.core.windows.net/sparse-autoencoder/…

Thành tựu nghiên cứu mới của OpenAI: Phân rã biểu diễn nội bộ của GPT-4 thành các mẫu có thể diễn giải

Bài viết liên quan

2 bình luận