Ghi chú về o1 của OpenAI, mô hình chain-of-thought
(simonwillison.net)- OpenAI đã phát hành các mô hình preview mới là o1-preview và o1-mini (bản mini không phải preview), với tên mã trước đây là 'strawberry'
Được huấn luyện theo phương pháp Chain-of-Thought
- OpenAI giải thích rằng các mô hình này được thiết kế để "suy nghĩ" lâu hơn trước khi phản hồi
- Có thể xem các mô hình mới này là phần mở rộng chuyên biệt của kiểu prompt "suy nghĩ từng bước"
- Trong bài viết "Learning to Reason with LLMs" của OpenAI, công ty giải thích rằng các mô hình mới học cách cải thiện chuỗi suy nghĩ và tinh chỉnh chiến lược thông qua học tăng cường
- Điều này có nghĩa là mô hình có thể xử lý tốt hơn các prompt phức tạp đòi hỏi backtracking và "tư duy" vượt ra ngoài việc dự đoán token tiếp theo
Chi tiết mức thấp trong tài liệu API
- Với đầu vào hình ảnh, function calling hoặc các ứng dụng cần thời gian phản hồi nhanh và ổn định, GPT-4o và GPT-4o mini vẫn sẽ là lựa chọn phù hợp
- Nếu đang phát triển các ứng dụng cần suy luận sâu và có thể chấp nhận thời gian phản hồi dài hơn, mô hình o1 có thể là một lựa chọn tuyệt vời
- Quyền truy cập API cho các mô hình mới
o1-previewvào1-minihiện được giới hạn cho tài khoản cấp 5 - Không hỗ trợ system prompt - mô hình dùng API chat completions hiện có nhưng chỉ có thể gửi các message
uservàassistant - Cũng không hỗ trợ streaming, dùng tool, gọi hàng loạt hay đầu vào hình ảnh
- Tùy vào lượng suy luận cần thiết để giải quyết vấn đề, việc xử lý yêu cầu có thể mất từ vài giây đến vài phút
Token suy luận ẩn
- "Token suy luận" được giới thiệu: chúng không hiển thị trong phản hồi API nhưng vẫn bị tính phí và được tính là token đầu ra
- Với các prompt phù hợp cho mô hình mới, OpenAI đề xuất phân bổ ngân sách khoảng 25.000 token cho các token này
- Giới hạn token đầu ra được tăng mạnh lên 32.768 cho
o1-previewvà 65.536 choo1-mini - Mẹo cuối trong tài liệu API: khi cung cấp ngữ cảnh bổ sung trong retrieval-augmented generation (RAG), chỉ nên đưa vào những thông tin liên quan nhất để tránh việc mô hình làm phản hồi trở nên quá phức tạp
Token suy luận ẩn
- Token suy luận không hiển thị trong API - vẫn bị tính phí nhưng thực tế là gì thì không thể nhìn thấy
- OpenAI giải thích hai lý do chính cho điều này:
- An toàn và tuân thủ chính sách - nhằm tránh các trường hợp thông tin ở bước trung gian có thể chứa nội dung vi phạm chính sách
- Lợi thế cạnh tranh - nhằm ngăn các mô hình khác học từ công sức suy luận mà OpenAI đã đầu tư
- Có sự không hài lòng với quyết định chính sách này - khả năng diễn giải và tính minh bạch rất quan trọng, nên việc che giấu các chi tiết chính trong đánh giá prompt tạo cảm giác như một bước lùi
Ví dụ
- OpenAI đưa ra các ví dụ ban đầu như tạo script Bash, giải ô chữ và tính pH của dung dịch hóa chất
- Các ví dụ này cho thấy phiên bản mô hình trong giao diện ChatGPT có hiển thị chi tiết về chuỗi suy nghĩ, nhưng không hiển thị các token suy luận thô
- OpenAI có hai cookbook mới cho thấy cách dùng suy luận trong xác thực dữ liệu và tạo routine
- Trên Twitter, có câu hỏi liệu có ví dụ prompt nào thất bại với GPT-4o nhưng lại hoạt động với
o1-previewhay không-
"How many words are in your response to this prompt?" "There are seven words in this sentence."
-
Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”
-
- Nhà nghiên cứu OpenAI Jason Wei nhận xét rằng kết quả trên AIME và GPQA là rất tốt, nhưng điều đó không nhất thiết chuyển hóa thành trải nghiệm mà người dùng có thể cảm nhận được
Điểm mới của tất cả chuyện này
- Sẽ cần thời gian để cộng đồng đúc kết các best practice về thời điểm và cách áp dụng những mô hình này
- Tôi dự đoán mình vẫn sẽ chủ yếu dùng GPT-4o (và Claude 3.5 Sonnet), nhưng sẽ rất thú vị khi chứng kiến loại mô hình mới này cùng nhau mở rộng cách chúng ta hình dung những dạng bài toán mà LLM có thể giải quyết
- Nhiều khả năng các phòng nghiên cứu AI khác cũng sẽ bắt đầu tái tạo một phần các kết quả này bằng phiên bản riêng của những mô hình được huấn luyện đặc biệt để áp dụng kiểu suy luận Chain-of-Thought này
Ý kiến của GN⁺
- Các mô hình được huấn luyện theo phương pháp chain-of-thought có thể giúp vượt qua những giới hạn của các mô hình hiện tại khi giải các bài toán phức tạp. Đặc biệt, hiệu năng được kỳ vọng sẽ cải thiện ở những tác vụ cần suy luận từng bước và backtracking
- Tuy nhiên, việc ẩn token suy luận khỏi API là một điểm đáng lo ngại về khả năng diễn giải và tính minh bạch của mô hình. Từ góc nhìn người dùng, việc hiểu và kiểm chứng quá trình suy luận của mô hình có thể sẽ khó hơn
- Ở thời điểm hiện tại, vẫn chưa rõ các mô hình này phù hợp nhất với loại tác vụ nào, và chúng có những ưu nhược điểm gì so với các mô hình hiện có. Có vẻ cần một quá trình trong cộng đồng để khám phá các use case đa dạng và các best practice
- Các công ty AI khác như mô hình Claude của Anthropic hay các mô hình của Cohere cũng có khả năng sẽ áp dụng phương pháp huấn luyện chain-of-thought tương tự. Cạnh tranh trên thị trường mô hình suy luận được dự báo sẽ trở nên khốc liệt hơn
- Nhìn chung, thông báo lần này của OpenAI có ý nghĩa ở chỗ đã đưa ra một cách tiếp cận mới để cải thiện năng lực suy luận của LLM. Tuy vậy, vẫn có một vài điểm gây lo ngại như token suy luận ẩn, nên có lẽ sẽ cần thêm các cải tiến và bổ sung trong tương lai
2 bình luận
Có lỗi chính tả nhé :)
"Chai-of-Thought được học theo cách thức này" → "Chain-of-Thought được học theo cách thức này"
Ý kiến trên Hacker News
Các vấn đề của mô hình o1-preview
Trích dẫn từ nhà nghiên cứu OpenAI Jason Wei
Thử refactor mã Rust
Hai yếu tố chính
Khó khăn trong việc đánh giá prompt phức tạp
Vấn đề về chất lượng và chi phí của o1
So sánh GPT-4o và o1-preview
Khó khăn khi giải các bài toán cơ bản
Kiểm thử câu hỏi pháp lý
Vấn đề xử lý nội dung Markdown