OpenAI ra mắt GPT-4.1

(openai.com)

3 điểm bởi GN⁺ 2025-04-15 | 1 bình luận | Chia sẻ qua WhatsApp

Ra mắt 3 mô hình: GPT-4.1, GPT-4.1 mini, GPT-4.1 nano
Cung cấp hiệu năng được cải thiện toàn diện so với GPT-4o, đặc biệt nổi bật ở lập trình, làm theo chỉ dẫn, hiểu ngữ cảnh dài
Cả ba mô hình đều hỗ trợ cửa sổ ngữ cảnh tối đa 1 triệu token, phù hợp cho phân tích codebase lớn và tài liệu phức tạp
Mang lại hiệu năng vượt trội cùng với giảm độ trễ và giảm chi phí
Các cải thiện hiệu năng chính
- Khả năng lập trình: đạt 54.6% trên SWE-bench Verified, tăng +21.4 điểm phần trăm so với GPT-4o
- Làm theo chỉ dẫn: điểm MultiChallenge 38.3%, tăng +10.5 điểm phần trăm so với GPT-4o
- Hiểu ngữ cảnh dài đa phương thức: đạt 72.0% trên Video-MME(long, no subtitles), cao hơn GPT-4o +6.7 điểm phần trăm
Đặc điểm của dòng mô hình GPT-4.1
- GPT-4.1 mini: kết quả đánh giá trí tuệ vượt GPT-4o, độ trễ bằng một nửa, chi phí giảm 83%
- GPT-4.1 nano: chi phí thấp nhất và độ trễ thấp nhất, vẫn duy trì hiệu năng cao
GPT-4.5 Preview dự kiến ngừng vào ngày 14 tháng 7 năm 2025, khuyến nghị chuyển sang dòng GPT-4.1
Thị giác máy tính (hiểu hình ảnh và đa phương thức)
- GPT-4.1 mini vượt GPT-4o trên các benchmark dựa trên hình ảnh
- Độ chính xác cao trên MMMU, MathVista, CharXiv
- Video-MME (câu hỏi về video 30~60 phút không có phụ đề): độ chính xác 72.0%
Quảng cáo
Chính sách giá
- Tất cả mô hình đều đã được công bố và có thể sử dụng
- GPT-4.1 rẻ hơn GPT-4o trung bình 26%
- GPT-4.1 nano là mô hình có chi phí thấp nhất
- Giảm giá 75% cho đầu vào được cache, không có phụ phí cho ngữ cảnh dài
Giá theo từng mô hình
- GPT-4.1: đầu vào $2.00 cho mỗi 1 triệu token, đầu ra $8.00, chi phí trung bình khoảng $1.84
- GPT-4.1 mini: đầu vào $0.40, đầu ra $1.60, trung bình $0.42
- GPT-4.1 nano: đầu vào $0.10, đầu ra $0.40, trung bình $0.12
- Mở rộng ưu đãi cache prompt từ 50% lên tối đa 75%
- Yêu cầu ngữ cảnh dài không tính thêm phí, chỉ tính theo lượng token sử dụng

1 bình luận

GN⁺ 2025-04-15

Ý kiến Hacker News

Người dùng ChatGPT bày tỏ sự bối rối trước việc phải chọn giữa nhiều mô hình khác nhau
- 4o có thể tìm kiếm web, dùng Canvas, đánh giá Python phía máy chủ, tạo ảnh nhưng không có chuỗi suy luận
- o3-mini có thể tìm kiếm web, CoT, Canvas nhưng không thể tạo ảnh
- o1 có CoT nhưng không có Canvas, tìm kiếm web hay tạo ảnh
- Deep Research mạnh nhưng chỉ dùng được 10 lần mỗi tháng nên hầu như không sử dụng
- 4.5 vượt trội trong viết sáng tạo nhưng có giới hạn số lượt yêu cầu và không rõ có hỗ trợ các tính năng khác hay không
- Thắc mắc vì sao 4o "with scheduled tasks" lại là một mô hình thay vì một công cụ
So sánh SWE-bench Verified, Aider Polyglot, chi phí, token đầu ra mỗi giây, mốc cắt kiến thức theo tháng/năm
- So sánh hiệu năng và chi phí của Claude, Gemini, GPT-4.1, DeepSeek R1, Grok 3 Beta
- Khó so sánh trực tiếp vì có thể bao gồm môi trường kiểm thử và mức độ suy luận khác nhau
OAI đã phát hành hướng dẫn prompt cho GPT 4.1
- Việc tạo tính bền bỉ cho mô hình giúp cải thiện hiệu năng
- Khuyến nghị dùng XML hoặc arxiv 2406.13121 (định dạng GDM) thay cho JSON
- Prompt nên được đặt ở đầu và cuối
Theo công bố của OpenAI, GPT-4.1 đưa ra đề xuất tốt hơn trong 55% trường hợp trong cuộc đối đầu tạo code review với Claude Sonnet 3.7
- GPT-4.1 vượt trội về độ chính xác và tính bao quát
Trong TED Talk gần đây, Sam nói rằng mô hình đến rồi đi nhưng họ muốn trở thành nền tảng tốt nhất
- Điều này tạo cảm giác là một thay đổi lớn
Chia sẻ trải nghiệm dùng GPT-4.1 với codebase phức tạp
- Cảm giác như mô hình agent đầu tiên của OpenAI
- Vẫn cần cải thiện thêm và việc gọi công cụ thường xuyên thất bại
- Khả năng xử lý độ phức tạp kém hơn Claude
- Nếu yêu cầu không quá phức tạp thì mô hình bám khá sát yêu cầu
Nêu lên nhu cầu cần benchmark về hiệu năng của các mô hình có giới hạn token tối đa dài
- Đã trải nghiệm chất lượng suy giảm sau mốc 200k ở mô hình Gemini
- Đặt câu hỏi liệu việc tăng giới hạn token tối đa có thực sự hữu ích hay không
Các phòng thí nghiệm AI lớn đang đồng thời tham gia nhiều cuộc chiến thị trường
- Đang cạnh tranh trên nhiều mặt trận như tăng trưởng người dùng, workload doanh nghiệp, nghiên cứu tiên tiến, lời hứa về suy luận và ứng phó với mối đe dọa DeepSeek
Kết quả GPT-4.1 tóm tắt một chủ đề Hacker News có 164 bình luận
- Được đánh giá là tuân thủ chỉ dẫn tốt
- Cung cấp tổng chi phí token và so sánh với các mô hình khác

OpenAI ra mắt GPT-4.1

Bài viết liên quan

1 bình luận

Ý kiến Hacker News