Ghi chú của Simon Willison về o3-mini

xguru · 2025-02-02T10:07:02+09:00

Mô hình o3-mini của OpenAI vừa được công bố, và giống như các mô hình dòng o khác, nó hơi khó để đánh giá Giờ đây, bên cạnh GPT-4o, o1, o1 Pro hiện có, người dùng phải quyết định nên chọn mô hình nào tùy theo mục đích sử dụng Theo o3-mini System Card (PDF), trong một số chỉ số đánh giá, o3-mini vượt trội hơn GPT-4o và o1, nhưng không phải ở mọi hạng mục đều luôn đạt mức cao Mô hình này đặc biệt cho thấy hiệu năng tốt ở các chỉ số benchmark liên quan đến năng lực competitive programming như Codeforces ELO OpenAI dự định cho phép dùng o3-mini để tìm kiếm trên Internet rồi tóm tắt kết quả trong ChatGPT Vì mô hình o1 trước đây không dùng công cụ tìm kiếm web trong ChatGPT, nên tính hữu dụng của tính năng mới này đang được chú ý Ngoài ra, o3-mini không hỗ trợ tính năng thị giác (hình ảnh), nhưng mẫu mini tiếp theo có thể sẽ bao gồm thị giác Trong công cụ CLI do tôi viết là LLM 0.21, hỗ trợ o3-mini đã được bổ sung Có thể chỉ định high, medium, low bằng tùy chọn -o reasoning_effort Hiện tại, o3-mini chỉ khả dụng với người dùng từ Tier 3 trở lên Cần chi tối thiểu $100 cho API để thuộc tier này Chi phí của o3-mini là $1.10 cho mỗi 1 triệu token đầu vào $4.40 cho mỗi 1 triệu token đầu ra Rẻ hơn một nửa so với GPT-4o ($2.50/$10), và rẻ chưa tới 1/10 so với o1 ($15/$60) Tôi đã chạy script hn-summary.sh với o3-mini để tóm tắt bài đăng Hacker News (42890627) hn-summary.sh 42890627 -o o3-mini Đã dùng 18.936 token đầu vào và 2.905 token đầu ra, tổng chi phí khoảng 0,033612 đô la (3,3612 cent) Giới hạn token đầu ra tối đa của o3-mini là 100.000 Lớn hơn rất nhiều so với GPT-4o (16.000), DeepSeek R1 (8.000), Claude 3.5 (8.000) Token dùng cho suy luận nội bộ cũng bị tính trong giới hạn này, nên đầu ra thực tế có thể khó chạm mốc 100.000 Token đầu vào hỗ trợ tối đa 200.000, mở rộng hơn mức 128.000 của GPT-4o Có vẻ rất phù hợp để ứng dụng vào các tác vụ dịch văn bản dài Vì giá rẻ và có lợi thế trong xử lý đầu vào/đầu ra dài Bình luận của dịch giả chuyên nghiệp Tom Gally trên Hacker News khá thú vị Ông nhắc rằng cả DeepSeek R1 lẫn o3-mini đều cho thấy chất lượng giảm dần ở phần sau khi dịch văn bản dài Ban đầu R1 có vẻ cũng không tệ, nhưng o3-mini tạo ra kết quả gần hơn với phong cách viết được yêu cầu, với tiếng Anh mượt và tự nhiên hơn Tuy vậy, độ dài đầu ra là 5.855 ký tự với R1, 9.052 ký tự với o3-mini, còn bản được ông trực tiếp chỉnh sửa là 11.021 ký tự R1 đã lược bỏ một số đoạn ở phần sau, còn o3-mini dùng kiểu văn phong viết tắt khá lạ (dùng / thay cho and giữa các danh từ) Theo ông, trước đây ChatGPT, Claude, Gemini... không cho thấy vấn đề như vậy khi dịch cùng văn bản đó

(simonwillison.net)

14 điểm bởi xguru 2025-02-02 | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình o3-mini của OpenAI vừa được công bố, và giống như các mô hình dòng o khác, nó hơi khó để đánh giá
- Giờ đây, bên cạnh GPT-4o, o1, o1 Pro hiện có, người dùng phải quyết định nên chọn mô hình nào tùy theo mục đích sử dụng
Theo o3-mini System Card (PDF), trong một số chỉ số đánh giá, o3-mini vượt trội hơn GPT-4o và o1, nhưng không phải ở mọi hạng mục đều luôn đạt mức cao
- Mô hình này đặc biệt cho thấy hiệu năng tốt ở các chỉ số benchmark liên quan đến năng lực competitive programming như Codeforces ELO
OpenAI dự định cho phép dùng o3-mini để tìm kiếm trên Internet rồi tóm tắt kết quả trong ChatGPT
- Vì mô hình o1 trước đây không dùng công cụ tìm kiếm web trong ChatGPT, nên tính hữu dụng của tính năng mới này đang được chú ý
Ngoài ra, o3-mini không hỗ trợ tính năng thị giác (hình ảnh), nhưng mẫu mini tiếp theo có thể sẽ bao gồm thị giác
Trong công cụ CLI do tôi viết là LLM 0.21, hỗ trợ o3-mini đã được bổ sung
- Có thể chỉ định high, medium, low bằng tùy chọn -o reasoning_effort
Hiện tại, o3-mini chỉ khả dụng với người dùng từ Tier 3 trở lên
- Cần chi tối thiểu $100 cho API để thuộc tier này
Chi phí của o3-mini là
- $1.10 cho mỗi 1 triệu token đầu vào
- $4.40 cho mỗi 1 triệu token đầu ra
- Rẻ hơn một nửa so với GPT-4o ($2.50/$10), và rẻ chưa tới 1/10 so với o1 ($15/$60)
Tôi đã chạy script hn-summary.sh với o3-mini để tóm tắt bài đăng Hacker News (42890627)
- hn-summary.sh 42890627 -o o3-mini
- Đã dùng 18.936 token đầu vào và 2.905 token đầu ra, tổng chi phí khoảng 0,033612 đô la (3,3612 cent)
Giới hạn token đầu ra tối đa của o3-mini là 100.000
- Lớn hơn rất nhiều so với GPT-4o (16.000), DeepSeek R1 (8.000), Claude 3.5 (8.000)
- Token dùng cho suy luận nội bộ cũng bị tính trong giới hạn này, nên đầu ra thực tế có thể khó chạm mốc 100.000
Token đầu vào hỗ trợ tối đa 200.000, mở rộng hơn mức 128.000 của GPT-4o
Có vẻ rất phù hợp để ứng dụng vào các tác vụ dịch văn bản dài
- Vì giá rẻ và có lợi thế trong xử lý đầu vào/đầu ra dài
Bình luận của dịch giả chuyên nghiệp Tom Gally trên Hacker News khá thú vị
- Ông nhắc rằng cả DeepSeek R1 lẫn o3-mini đều cho thấy chất lượng giảm dần ở phần sau khi dịch văn bản dài
- Ban đầu R1 có vẻ cũng không tệ, nhưng o3-mini tạo ra kết quả gần hơn với phong cách viết được yêu cầu, với tiếng Anh mượt và tự nhiên hơn
- Tuy vậy, độ dài đầu ra là 5.855 ký tự với R1, 9.052 ký tự với o3-mini, còn bản được ông trực tiếp chỉnh sửa là 11.021 ký tự
- R1 đã lược bỏ một số đoạn ở phần sau, còn o3-mini dùng kiểu văn phong viết tắt khá lạ (dùng / thay cho and giữa các danh từ)
- Theo ông, trước đây ChatGPT, Claude, Gemini... không cho thấy vấn đề như vậy khi dịch cùng văn bản đó

1 bình luận

xguru 2025-02-02

Bản phát hành OpenAI o3-Mini

Ghi chú của Simon Willison về o3-mini

Bài viết liên quan

1 bình luận