14 điểm bởi xguru 2025-02-02 | 1 bình luận | Chia sẻ qua WhatsApp
  • Mô hình o3-mini của OpenAI vừa được công bố, và giống như các mô hình dòng o khác, nó hơi khó để đánh giá
    • Giờ đây, bên cạnh GPT-4o, o1, o1 Pro hiện có, người dùng phải quyết định nên chọn mô hình nào tùy theo mục đích sử dụng
  • Theo o3-mini System Card (PDF), trong một số chỉ số đánh giá, o3-mini vượt trội hơn GPT-4o và o1, nhưng không phải ở mọi hạng mục đều luôn đạt mức cao
    • Mô hình này đặc biệt cho thấy hiệu năng tốt ở các chỉ số benchmark liên quan đến năng lực competitive programming như Codeforces ELO
  • OpenAI dự định cho phép dùng o3-mini để tìm kiếm trên Internet rồi tóm tắt kết quả trong ChatGPT
    • Vì mô hình o1 trước đây không dùng công cụ tìm kiếm web trong ChatGPT, nên tính hữu dụng của tính năng mới này đang được chú ý
  • Ngoài ra, o3-mini không hỗ trợ tính năng thị giác (hình ảnh), nhưng mẫu mini tiếp theo có thể sẽ bao gồm thị giác
  • Trong công cụ CLI do tôi viết là LLM 0.21, hỗ trợ o3-mini đã được bổ sung
    • Có thể chỉ định high, medium, low bằng tùy chọn -o reasoning_effort
  • Hiện tại, o3-mini chỉ khả dụng với người dùng từ Tier 3 trở lên
    • Cần chi tối thiểu $100 cho API để thuộc tier này
  • Chi phí của o3-mini là
    • $1.10 cho mỗi 1 triệu token đầu vào
    • $4.40 cho mỗi 1 triệu token đầu ra
    • Rẻ hơn một nửa so với GPT-4o ($2.50/$10), và rẻ chưa tới 1/10 so với o1 ($15/$60)
  • Tôi đã chạy script hn-summary.sh với o3-mini để tóm tắt bài đăng Hacker News (42890627)
    • hn-summary.sh 42890627 -o o3-mini
    • Đã dùng 18.936 token đầu vào và 2.905 token đầu ra, tổng chi phí khoảng 0,033612 đô la (3,3612 cent)
  • Giới hạn token đầu ra tối đa của o3-mini là 100.000
    • Lớn hơn rất nhiều so với GPT-4o (16.000), DeepSeek R1 (8.000), Claude 3.5 (8.000)
    • Token dùng cho suy luận nội bộ cũng bị tính trong giới hạn này, nên đầu ra thực tế có thể khó chạm mốc 100.000
  • Token đầu vào hỗ trợ tối đa 200.000, mở rộng hơn mức 128.000 của GPT-4o
  • Có vẻ rất phù hợp để ứng dụng vào các tác vụ dịch văn bản dài
    • Vì giá rẻ và có lợi thế trong xử lý đầu vào/đầu ra dài
  • Bình luận của dịch giả chuyên nghiệp Tom Gally trên Hacker News khá thú vị
    • Ông nhắc rằng cả DeepSeek R1 lẫn o3-mini đều cho thấy chất lượng giảm dần ở phần sau khi dịch văn bản dài
    • Ban đầu R1 có vẻ cũng không tệ, nhưng o3-mini tạo ra kết quả gần hơn với phong cách viết được yêu cầu, với tiếng Anh mượt và tự nhiên hơn
    • Tuy vậy, độ dài đầu ra là 5.855 ký tự với R1, 9.052 ký tự với o3-mini, còn bản được ông trực tiếp chỉnh sửa là 11.021 ký tự
    • R1 đã lược bỏ một số đoạn ở phần sau, còn o3-mini dùng kiểu văn phong viết tắt khá lạ (dùng / thay cho and giữa các danh từ)
    • Theo ông, trước đây ChatGPT, Claude, Gemini... không cho thấy vấn đề như vậy khi dịch cùng văn bản đó