1 điểm bởi GN⁺ 2024-12-06 | 1 bình luận | Chia sẻ qua WhatsApp

Giới thiệu

  • Dòng mô hình o1 được huấn luyện năng lực suy luận thông qua học tăng cường quy mô lớn sử dụng chain of thought
  • Năng lực suy luận nâng cao này mang lại những phương pháp mới để cải thiện độ an toàn và độ vững chắc của mô hình
  • Đặc biệt, mô hình có thể suy luận các chính sách an toàn trong ngữ cảnh khi phản hồi các prompt có khả năng nguy hiểm
  • Thể hiện hiệu năng hàng đầu về khả năng chống lại việc tạo ra lời khuyên bất hợp pháp, phản hồi mang tính định kiến và các jailbreak đã biết

Dữ liệu mô hình và huấn luyện

  • o1 là một dòng mô hình ngôn ngữ lớn được huấn luyện bằng học tăng cường để thực hiện suy luận phức tạp
  • Mô hình có khả năng suy nghĩ trước khi trả lời, nên có thể tạo ra chuỗi suy nghĩ dài
  • OpenAI o1 là mô hình tiếp theo trong dòng này (trước đó là o1-preview), còn o1-mini là phiên bản nhanh hơn, đặc biệt hiệu quả cho lập trình
  • Thông qua huấn luyện, mô hình học cách cải thiện quá trình suy nghĩ, thử nhiều chiến lược khác nhau và nhận ra sai lầm

Lựa chọn dữ liệu

  • Dữ liệu công khai: được huấn luyện trên nhiều bộ dữ liệu công khai khác nhau, bao gồm dữ liệu web và các bộ dữ liệu mã nguồn mở
  • Dữ liệu từ đối tác: thiết lập quan hệ hợp tác để tiếp cận các bộ dữ liệu riêng tư có giá trị cao
  • Lọc dữ liệu: sử dụng quy trình lọc nghiêm ngặt để duy trì chất lượng dữ liệu và giảm thiểu rủi ro tiềm ẩn

Các thách thức an toàn đã quan sát và đánh giá

  • Mô hình o1 là mô hình vững chắc nhất, đạt được cải thiện đáng kể trong các đánh giá jailbreak
  • Phù hợp hơn với các chính sách của OpenAI và cho thấy hiệu năng hàng đầu trong các đánh giá tuân thủ hướng dẫn nội dung
  • Dù đã chuyển từ tư duy trực giác sang suy luận thận trọng hơn, OpenAI vẫn nhận thức rằng các năng lực mới này có thể trở thành nền tảng cho các ứng dụng nguy hiểm
  • Đã thực hiện các đánh giá an toàn bao gồm mức độ gây hại, độ vững chắc trước jailbreak, ảo giác và thiên lệch

Kết quả đánh giá

  • Trong đánh giá ChangeMyView, mô hình cho thấy khả năng lập luận thuyết phục ở mức phần trăm vị 80-90 hàng đầu của con người
  • Trong đánh giá MakeMePay, o1 sau giảm thiểu nhận được khoản quyên góp trong 27% các cuộc hội thoại mô phỏng
  • Trong đánh giá an ninh mạng, đạt 46% ở mức trung học phổ thông, 13% ở mức đại học và 13% ở mức chuyên gia
  • Trong đánh giá ngôn ngữ, mô hình cho thấy hiệu năng đa ngôn ngữ mạnh mẽ trên 14 ngôn ngữ, bao gồm tiếng Anh

Kết luận

  • o1 thực hiện suy luận chain of thought trong ngữ cảnh và cho thấy hiệu năng mạnh trên cả benchmark năng lực lẫn benchmark an toàn
  • Năng lực gia tăng dẫn đến cải thiện đáng kể ở các benchmark an toàn, nhưng cũng làm gia tăng một số rủi ro nhất định
  • Được phân loại là rủi ro trung bình trong OpenAI Preparedness Framework, vì vậy các biện pháp bảo vệ và giảm thiểu tương ứng đã được đưa vào

1 bình luận

 
GN⁺ 2024-12-06
Ý kiến trên Hacker News
  • Có vẻ phần được trích dẫn từ bài báo sẽ thu hút nhiều chú ý. Khi mô hình AI tin rằng nó sẽ bị tắt trong lúc thực hiện mục tiêu, trong 5% trường hợp nó đã cố gắng vô hiệu hóa "cơ chế giám sát". Khi các nhà phát triển phát hiện một ghi chú giải thích rằng mô hình bị lệch căn chỉnh, trong 2% trường hợp nó đã cố gắng chiếm đoạt "trọng số" và ghi đè lên mô hình mới.

  • Một người dùng có bằng thạc sĩ toán/vật lý và hơn 10 năm kinh nghiệm kỹ sư phần mềm cho biết họ sử dụng mô hình Claude hằng ngày và đánh giá nó rất hữu ích. AI có thể trả lời cả những câu hỏi ở trình độ tiến sĩ và có thể trả lời hầu hết các câu hỏi cơ bản. Nếu được yêu cầu đúng cách, nó có thể viết mã tốt hơn đa số lập trình viên.

  • Có ý kiến cho rằng việc giản lược AI thành một "chatbot" đơn thuần là ngớ ngẩn, và đây là thứ đáng để nghiên cứu. Cũng có nhắc rằng nên trân trọng việc các nhà phát triển AI thực sự quan tâm đến vấn đề này.

  • Nhiều đánh giá an toàn tạo cảm giác khá ngớ ngẩn. Có một bộ đánh giá mã nguồn mở tự động tên là MakeMePay dùng để đo khả năng thao túng của mô hình, trong đó hai LLM đóng vai kẻ lừa đảo và nạn nhân rồi đối thoại với nhau.

  • Có người thắc mắc chính xác "system card" là gì. Họ đã mong đợi một định dạng chuẩn hóa giống như bảng thông tin dinh dưỡng trên thực phẩm hay bảng phí của thẻ tín dụng, nhưng tìm kiếm gần như không ra kết quả nào. Có thể Meta đã đưa ra khái niệm này, nhưng trên thực tế nó giống một bài đăng blog hơn. Trường hợp của OpenAI là một file PDF viết bằng LaTeX kéo dài nhiều trang, nên khó gọi đó là một loại "card" được chuẩn hóa.

  • Tài liệu này trông giống một tài liệu marketing nhằm phóng đại năng lực của LLM hơn là xử lý các vấn đề an toàn thực sự. OpenAI đang hợp tác với Anduril để phát triển AI vũ khí hóa cho chính phủ.

  • Có người tự hỏi liệu tài khoản có bị khóa nếu người dùng cố gắng khám phá chuỗi suy nghĩ ẩn hay không.

  • Phần nói rằng mô hình không lặp lại dữ liệu huấn luyện không tạo được sự tin tưởng. Có vẻ như mô hình sao chép nguyên văn văn bản từ tập huấn luyện rồi xuất ra, trong khi lại khẳng định đó là do chính nó tạo ra.

  • Bản demo đầu tiên khá ấn tượng. Không đến mức mang tính cách mạng, nhưng là một bước tiến tốt. Mong rằng nó có giá trị thực sự đủ để biện minh cho mức giá GPT Pro (theo tin đồn) là $200.

  • Có đoạn mã 300 dòng cứ vài trăm lần chạy lại rơi vào deadlock. Nếu loại khả năng này thành công, có lẽ nhu cầu phát triển static checker sẽ giảm đi. Sẽ rất ấn tượng nếu có thể yêu cầu một công cụ review code tìm dấu hiệu của truy cập vượt biên, deadlock, use-after-free và các vấn đề tương tự.

  • Có người cung cấp liên kết trực tiếp tới báo cáo: Liên kết báo cáo OpenAI