- Công bố OpenAI o1, một mô hình ngôn ngữ lớn mới được huấn luyện để thực hiện suy luận phức tạp bằng học tăng cường
- o1 có thể tạo ra một chuỗi suy nghĩ nội bộ dài (chain of thought) trước khi phản hồi người dùng
- o1 đạt bách phân vị thứ 89 trong các bài toán lập trình thi đấu (Codeforces), tương đương một trong 500 học sinh đứng đầu nước Mỹ ở vòng loại Olympic Toán học Mỹ (AIME), và vượt độ chính xác ở mức tiến sĩ con người trong benchmark GPQA về các câu hỏi vật lý, sinh học và hóa học
- Dù việc biến mô hình này thành thứ dễ dùng như các mô hình hiện tại vẫn đang được tiếp tục, OpenAI đã ngay lập tức phát hành OpenAI o1-preview, phiên bản ban đầu của mô hình này, cho ChatGPT và các người dùng API đáng tin cậy
Đánh giá
- o1 cho thấy hiệu năng vượt trội đáng kể so với GPT-4o trong hầu hết các tác vụ tập trung vào suy luận
- Trong kỳ thi AIME 2024, GPT-4o chỉ giải được trung bình 12% số câu hỏi (1.8/15), trong khi o1 đạt trung bình 74% (11.1/15) với một mẫu đơn, 83% (12.5/15) khi lấy đồng thuận giữa 64 mẫu, và 93% (13.9/15) khi xếp hạng lại 1000 mẫu bằng hàm chấm điểm đã được huấn luyện
- Trên GPQA Diamond, o1 vượt hiệu năng của các chuyên gia con người trong việc kiểm tra kiến thức chuyên sâu về hóa học, vật lý và sinh học, trở thành mô hình đầu tiên làm được điều đó trên benchmark này
- Khi bật khả năng nhận thức thị giác, o1 đạt 78.2% trên MMMU, trở thành mô hình đầu tiên có thể cạnh tranh với các chuyên gia con người
- Vượt GPT-4o ở 54 trong số 57 danh mục con của MMLU
Chuỗi suy nghĩ (chain of thought)
- Giống như con người có thể suy nghĩ rất lâu trước khi trả lời một câu hỏi khó, o1 sử dụng chuỗi suy nghĩ khi cố gắng giải quyết vấn đề
- Thông qua học tăng cường, o1 học cách mài giũa chuỗi suy nghĩ và cải thiện chiến lược sử dụng nó
- Học cách nhận ra và sửa lỗi
- Học cách phân rã các bước khó thành những bước đơn giản hơn
- Học cách thử một cách tiếp cận khác khi cách hiện tại không hiệu quả
Lập trình
- Huấn luyện thêm để nâng cao kỹ năng lập trình, tạo ra một mô hình đạt 213 điểm và xếp ở bách phân vị thứ 49 tại Olympic Tin học Quốc tế (IOI) 2024
- Mô hình này tham gia IOI 2024 trong cùng điều kiện với thí sinh con người
- Có 10 giờ để giải 6 bài toán thuật toán đầy thử thách, và được phép nộp 50 lần cho mỗi bài
- Nếu được phép 10.000 lần nộp, hiệu năng của mô hình tăng lên đáng kể
- Đạt 362.14 điểm ngay cả khi không dùng chiến lược lựa chọn thời gian kiểm thử, vượt ngưỡng huy chương vàng
- Chứng minh năng lực viết code của mô hình này bằng cách mô phỏng các cuộc thi lập trình thi đấu tổ chức trên Codeforces
- GPT-4o đạt mức ELO 808, tương ứng bách phân vị thứ 11 trong số các đối thủ con người
- Mô hình này vượt xa cả GPT-4o và o1, đạt mức ELO 1807 và thể hiện tốt hơn 93% đối thủ
An toàn
- Suy luận theo chuỗi suy nghĩ mở ra những cơ hội mới cho căn chỉnh và an toàn
- Họ phát hiện rằng việc tích hợp các chính sách về hành vi mô hình vào chuỗi suy nghĩ của mô hình suy luận là một cách hiệu quả để dạy vững chắc các giá trị và nguyên tắc của con người
- Họ cũng tìm thấy bằng chứng cho thấy năng lực suy luận trực tiếp giúp tăng độ vững của mô hình bằng cách dạy mô hình các quy tắc an toàn và cách suy luận phù hợp với ngữ cảnh
- Họ tin rằng việc sử dụng chuỗi suy nghĩ mang lại tiến bộ đáng kể về an toàn và căn chỉnh, vì có thể quan sát mô hình suy nghĩ theo cách hợp lệ và việc mô hình suy luận về các quy tắc an toàn tỏ ra mạnh hơn trong các kịch bản ngoài phân phối
- Trước khi triển khai, họ đã tiến hành kiểm thử an toàn và tổ chức red team để nhấn mạnh các cải tiến
- Suy luận theo chuỗi suy nghĩ được cho là đã góp phần nâng cao năng lực trong mọi đánh giá
Kết luận
- o1 thúc đẩy đáng kể trình độ tiên phong của suy luận AI
- Có kế hoạch tiếp tục phát hành các phiên bản cải tiến của mô hình này qua từng vòng lặp
- Kỳ vọng o1 và các mô hình kế nhiệm sẽ mở ra nhiều trường hợp sử dụng AI mới trong khoa học, lập trình, toán học và các lĩnh vực liên quan
- Mong chờ người dùng và nhà phát triển API khám phá cách o1 có thể cải thiện công việc hằng ngày của họ
Ý kiến của GN⁺
- OpenAI o1 là một mô hình có năng lực suy luận và giải quyết vấn đề phức tạp rất mạnh, cho thấy hiệu năng vượt trên mức con người. Đặc biệt, trong các lĩnh vực toán học, khoa học và lập trình, mô hình này có trình độ cấp chuyên gia nên có vẻ sẽ rất hữu ích cho nghiên cứu và ứng dụng liên quan
- Điểm ấn tượng là việc sử dụng cách tiếp cận Chuỗi suy nghĩ (Chain of Thought) giúp có thể quan sát và hiểu quá trình tư duy của mô hình. Điều này sẽ rất hữu ích trong việc hiểu và kiểm soát hành vi của mô hình. Tuy vậy, việc quyết định không phơi bày nguyên trạng quá trình suy nghĩ được tạo ra cho người dùng vẫn là một điểm có thể gây tranh cãi
- Việc tích hợp các quy tắc chính sách vào quá trình suy nghĩ để tăng cường an toàn cho mô hình cũng là một điểm đáng chú ý. Tuy nhiên, dường như nó vẫn chưa hoàn hảo, nên vẫn cần giám sát và cải tiến liên tục
- o1 là một mô hình rất mạnh, nhưng không phải hoàn hảo tuyệt đối. Các hạn chế như thiên lệch hay vấn đề đạo đức vẫn còn tồn tại như ở các mô hình AI nói chung. Cần có nỗ lực liên tục để vượt qua những giới hạn này cùng với tiến bộ công nghệ
1 bình luận
Ý kiến trên Hacker News
Ý kiến thứ nhất
Ý kiến thứ hai
Ý kiến thứ ba
Ý kiến thứ tư
Ý kiến thứ năm
Ý kiến thứ sáu
Ý kiến thứ bảy
Ý kiến thứ tám
Ý kiến thứ chín
Ý kiến thứ mười