Ghi chú về o1 của OpenAI, mô hình chain-of-thought

(simonwillison.net)

6 điểm bởi GN⁺ 2024-09-14 | 2 bình luận | Chia sẻ qua WhatsApp

OpenAI đã phát hành các mô hình preview mới là o1-preview và o1-mini (bản mini không phải preview), với tên mã trước đây là 'strawberry'

Được huấn luyện theo phương pháp Chain-of-Thought

OpenAI giải thích rằng các mô hình này được thiết kế để "suy nghĩ" lâu hơn trước khi phản hồi
Có thể xem các mô hình mới này là phần mở rộng chuyên biệt của kiểu prompt "suy nghĩ từng bước"
Trong bài viết "Learning to Reason with LLMs" của OpenAI, công ty giải thích rằng các mô hình mới học cách cải thiện chuỗi suy nghĩ và tinh chỉnh chiến lược thông qua học tăng cường
Điều này có nghĩa là mô hình có thể xử lý tốt hơn các prompt phức tạp đòi hỏi backtracking và "tư duy" vượt ra ngoài việc dự đoán token tiếp theo

Chi tiết mức thấp trong tài liệu API

Với đầu vào hình ảnh, function calling hoặc các ứng dụng cần thời gian phản hồi nhanh và ổn định, GPT-4o và GPT-4o mini vẫn sẽ là lựa chọn phù hợp
Nếu đang phát triển các ứng dụng cần suy luận sâu và có thể chấp nhận thời gian phản hồi dài hơn, mô hình o1 có thể là một lựa chọn tuyệt vời
Quyền truy cập API cho các mô hình mới o1-preview và o1-mini hiện được giới hạn cho tài khoản cấp 5
Không hỗ trợ system prompt - mô hình dùng API chat completions hiện có nhưng chỉ có thể gửi các message user và assistant
Cũng không hỗ trợ streaming, dùng tool, gọi hàng loạt hay đầu vào hình ảnh
Tùy vào lượng suy luận cần thiết để giải quyết vấn đề, việc xử lý yêu cầu có thể mất từ vài giây đến vài phút

Token suy luận ẩn

"Token suy luận" được giới thiệu: chúng không hiển thị trong phản hồi API nhưng vẫn bị tính phí và được tính là token đầu ra
Với các prompt phù hợp cho mô hình mới, OpenAI đề xuất phân bổ ngân sách khoảng 25.000 token cho các token này
Giới hạn token đầu ra được tăng mạnh lên 32.768 cho o1-preview và 65.536 cho o1-mini
Mẹo cuối trong tài liệu API: khi cung cấp ngữ cảnh bổ sung trong retrieval-augmented generation (RAG), chỉ nên đưa vào những thông tin liên quan nhất để tránh việc mô hình làm phản hồi trở nên quá phức tạp

Token suy luận ẩn

Token suy luận không hiển thị trong API - vẫn bị tính phí nhưng thực tế là gì thì không thể nhìn thấy
OpenAI giải thích hai lý do chính cho điều này:
1. An toàn và tuân thủ chính sách - nhằm tránh các trường hợp thông tin ở bước trung gian có thể chứa nội dung vi phạm chính sách
2. Lợi thế cạnh tranh - nhằm ngăn các mô hình khác học từ công sức suy luận mà OpenAI đã đầu tư
Có sự không hài lòng với quyết định chính sách này - khả năng diễn giải và tính minh bạch rất quan trọng, nên việc che giấu các chi tiết chính trong đánh giá prompt tạo cảm giác như một bước lùi

Ví dụ

OpenAI đưa ra các ví dụ ban đầu như tạo script Bash, giải ô chữ và tính pH của dung dịch hóa chất
Các ví dụ này cho thấy phiên bản mô hình trong giao diện ChatGPT có hiển thị chi tiết về chuỗi suy nghĩ, nhưng không hiển thị các token suy luận thô
OpenAI có hai cookbook mới cho thấy cách dùng suy luận trong xác thực dữ liệu và tạo routine
Trên Twitter, có câu hỏi liệu có ví dụ prompt nào thất bại với GPT-4o nhưng lại hoạt động với o1-preview hay không
- "How many words are in your response to this prompt?" "There are seven words in this sentence."
- Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”
Nhà nghiên cứu OpenAI Jason Wei nhận xét rằng kết quả trên AIME và GPQA là rất tốt, nhưng điều đó không nhất thiết chuyển hóa thành trải nghiệm mà người dùng có thể cảm nhận được

Điểm mới của tất cả chuyện này

Sẽ cần thời gian để cộng đồng đúc kết các best practice về thời điểm và cách áp dụng những mô hình này
Tôi dự đoán mình vẫn sẽ chủ yếu dùng GPT-4o (và Claude 3.5 Sonnet), nhưng sẽ rất thú vị khi chứng kiến loại mô hình mới này cùng nhau mở rộng cách chúng ta hình dung những dạng bài toán mà LLM có thể giải quyết
Nhiều khả năng các phòng nghiên cứu AI khác cũng sẽ bắt đầu tái tạo một phần các kết quả này bằng phiên bản riêng của những mô hình được huấn luyện đặc biệt để áp dụng kiểu suy luận Chain-of-Thought này

Ý kiến của GN⁺

Các mô hình được huấn luyện theo phương pháp chain-of-thought có thể giúp vượt qua những giới hạn của các mô hình hiện tại khi giải các bài toán phức tạp. Đặc biệt, hiệu năng được kỳ vọng sẽ cải thiện ở những tác vụ cần suy luận từng bước và backtracking
Tuy nhiên, việc ẩn token suy luận khỏi API là một điểm đáng lo ngại về khả năng diễn giải và tính minh bạch của mô hình. Từ góc nhìn người dùng, việc hiểu và kiểm chứng quá trình suy luận của mô hình có thể sẽ khó hơn
Ở thời điểm hiện tại, vẫn chưa rõ các mô hình này phù hợp nhất với loại tác vụ nào, và chúng có những ưu nhược điểm gì so với các mô hình hiện có. Có vẻ cần một quá trình trong cộng đồng để khám phá các use case đa dạng và các best practice
Các công ty AI khác như mô hình Claude của Anthropic hay các mô hình của Cohere cũng có khả năng sẽ áp dụng phương pháp huấn luyện chain-of-thought tương tự. Cạnh tranh trên thị trường mô hình suy luận được dự báo sẽ trở nên khốc liệt hơn
Nhìn chung, thông báo lần này của OpenAI có ý nghĩa ở chỗ đã đưa ra một cách tiếp cận mới để cải thiện năng lực suy luận của LLM. Tuy vậy, vẫn có một vài điểm gây lo ngại như token suy luận ẩn, nên có lẽ sẽ cần thêm các cải tiến và bổ sung trong tương lai

2 bình luận

naneg93 2024-09-14

Có lỗi chính tả nhé :)

"Chai-of-Thought được học theo cách thức này" → "Chain-of-Thought được học theo cách thức này"

GN⁺ 2024-09-14

Ý kiến trên Hacker News

Các vấn đề của mô hình o1-preview
- Bịa ra các thư viện và hàm không tồn tại
- Cung cấp thông tin sai về những sự thật không dễ tìm thấy trên web
- Không có cách nào để đánh giá tính xác thực của thông tin do mô hình tạo ra
Trích dẫn từ nhà nghiên cứu OpenAI Jason Wei
- Cho thấy hiệu năng mạnh trên AIME và GPQA nhưng người dùng không cảm nhận được rõ
- Đặt nghi vấn về ý kiến cho rằng cần tìm những prompt khó hơn
Thử refactor mã Rust
- o1-mini không thể cung cấp mã không có lỗi
- o1-preview cung cấp mã có thể biên dịch và vượt qua phần lớn các bài kiểm thử
- Thử thay đổi thư viện Rust để loại bỏ enum và chỉ dùng kiểu dữ liệu U8
Hai yếu tố chính
- Một LLM được huấn luyện để đọc và tạo prompt chain-of-thought tốt
- Mã runtime liên tục re-prompt mô hình
- OpenAI không giải thích rõ ràng sự khác biệt này
Khó khăn trong việc đánh giá prompt phức tạp
- Quá trình đánh giá prompt bị che giấu nên khó debug
- Với người dùng, chỉ kết quả mới quan trọng còn quá trình thì không
Vấn đề về chất lượng và chi phí của o1
- Chất lượng không cải thiện nhiều nhưng chi phí và độ trễ lại bị ảnh hưởng tiêu cực lớn
So sánh GPT-4o và o1-preview
- GPT-4o không thể đưa ra chiến lược cờ ca-rô tối ưu
- o1-preview đưa ra chiến lược tối ưu nhưng thất bại trên lưới không tiêu chuẩn
Khó khăn khi giải các bài toán cơ bản
- Thử giải bài toán cộng ba số rồi chia để thu được cùng một kết quả
- Các mô hình hiện tại vẫn khó giải được cả những bài toán cơ bản ở trường học
Kiểm thử câu hỏi pháp lý
- GPT-4o ngay lập tức đưa ra câu trả lời đúng
- o1-preview đưa ra câu trả lời sai và cần nhiều câu hỏi tiếp theo
Vấn đề xử lý nội dung Markdown
- Khi nội dung Markdown chứa biểu thức logic ký hiệu và ví dụ chứng minh thì bị xem là vi phạm điều khoản dịch vụ

Ghi chú về o1 của OpenAI, mô hình chain-of-thought

Được huấn luyện theo phương pháp Chain-of-Thought

Chi tiết mức thấp trong tài liệu API

Token suy luận ẩn

Token suy luận ẩn

Ví dụ

Điểm mới của tất cả chuyện này

Ý kiến của GN⁺

Bài viết liên quan

2 bình luận

Ý kiến trên Hacker News