Bản xem trước GPT‑5.6 Sol: mô hình thế hệ tiếp theo

(openai.com)

3 điểm bởi GN⁺ 6 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp

OpenAI mở dòng GPT‑5.6 dưới dạng bản xem trước giới hạn, đồng thời giới thiệu Sol chủ lực, Terra cho công việc hằng ngày và Luna chi phí thấp
Sol tăng cường năng lực tác tử trong lập trình, sinh học và an ninh mạng, đồng thời hỗ trợ suy luận sâu hơn và tận dụng tác tử con với max reasoning effort và chế độ ultra
Hiệu năng an ninh mạng đã được cải thiện trên ExploitBench và ExploitGym, nhưng trong điều kiện đánh giá Chromium·Firefox, mô hình vẫn chưa thể tự động tạo full-chain exploit có chức năng nên chưa vượt ngưỡng Cyber Critical
Bản xem trước trước tiên được cung cấp qua API và Codex cho một số đối tác và tổ chức đáng tin cậy, trước khi chuẩn bị mở rộng hơn sau quy trình hạn chế theo yêu cầu của chính phủ Mỹ
Giá theo 1 triệu token là Sol $5 đầu vào / $30 đầu ra, Terra $2.50 đầu vào / $15 đầu ra, Luna $1 đầu vào / $6 đầu ra; ghi cache tính 1.25 lần và đọc cache được giảm giá 90%

Phạm vi bản xem trước dòng GPT‑5.6

OpenAI trước tiên công bố họ sản phẩm GPT‑5.6 dưới dạng bản xem trước giới hạn
- Sol: mô hình chủ lực
- Terra: mô hình cân bằng cho công việc hằng ngày
- Luna: mô hình nhanh và rẻ
Terra mang lại hiệu năng cạnh tranh với GPT‑5.5 trong khi giá rẻ hơn 2 lần
Luna cung cấp năng lực mạnh với mức chi phí thấp nhất của OpenAI
GPT‑5.6 Sol được phát hành cùng ngăn xếp an toàn vững chắc nhất mà OpenAI từng xây dựng cho đến nay
- hoạt động rủi ro cao
- yêu cầu an ninh mạng nhạy cảm
- lạm dụng lặp đi lặp lại
- tìm kiếm điểm yếu và kiểm tra chịu tải trước các cuộc tấn công thực tế

Công bố giới hạn và trao đổi với chính phủ

OpenAI có kế hoạch đưa GPT‑5.6 Sol, Terra và Luna vào phát hành rộng rãi trong vài tuần tới
Trong quá trình trao đổi liên tục với chính phủ Mỹ, công ty đã chia sẻ kế hoạch trước phát hành và năng lực của mô hình
Theo yêu cầu của chính phủ, trước tiên họ bắt đầu bản xem trước giới hạn với một số ít đối tác đáng tin cậy mà việc tham gia của họ được chia sẻ với chính phủ
OpenAI cho rằng quy trình tiếp cận kiểu này từ phía chính phủ không nên trở thành mặc định lâu dài
- vì điều đó có thể khiến người dùng, nhà phát triển, doanh nghiệp, bên phòng thủ an ninh mạng và các đối tác toàn cầu không thể tiếp cận các công cụ họ cần
Quy trình ngắn hạn lần này là con đường để tiến tới công bố rộng hơn trong vài tuần tới
- được áp dụng trong khi cùng chính quyền phát triển khuôn khổ Executive Order về an ninh mạng và quy trình có thể lặp lại cho các đợt phát hành mô hình sau này

Năng lực mô hình và đánh giá

GPT‑5.6 Sol được giới thiệu là mô hình mạnh nhất của OpenAI
Mô hình cho thấy năng lực tác tử được cải thiện trong các bài đánh giá về lập trình, sinh học và an ninh mạng
Các đánh giá bổ sung về an toàn và mức độ sẵn sàng được nêu trong GPT‑5.6 Preview system card
Công ty dự định sẽ chia sẻ bộ kết quả đánh giá mở rộng khi công bố rộng rãi hơn
Chế độ suy luận
- GPT‑5.6 giới thiệu max reasoning effort để Sol có thể suy luận lâu hơn và sâu hơn
- Chế độ ultra mới vượt ra ngoài năng lực của một tác tử đơn lẻ, tăng tốc các tác vụ phức tạp bằng cách tận dụng các tác tử con
Lập trình và sinh học
- GPT‑5.6 Sol đạt mức hiệu năng dẫn đầu mới trên Terminal‑Bench 2.1, bộ đánh giá quy trình làm việc dòng lệnh
- Benchmark này kiểm tra các tác vụ dòng lệnh đòi hỏi lập kế hoạch, lặp lại và điều phối công cụ
- Trên GeneBench v1, mô hình cho kết quả mạnh hơn GPT‑5.5 trong khi dùng ít token hơn
- GeneBench v1 đánh giá phân tích hệ gen và sinh học định lượng trên phạm vi dài hạn
An ninh mạng
- GPT‑5.6 Sol là mô hình có năng lực cao nhất của OpenAI cho các tác vụ an ninh mạng
- Mô hình đẩy xa biên hiệu năng-hiệu quả trong các tác vụ bảo mật dài hạn, bao gồm nghiên cứu lỗ hổng và khai thác
- Trên ExploitBench, mô hình cho kết quả cạnh tranh với Mythos Preview trong khi chỉ dùng khoảng một phần ba số token đầu ra
- Trên ExploitGym, cả Sol, Terra và Luna đều cho thấy cải thiện mạnh về năng lực an ninh mạng khi mức suy luận tăng lên
- ExploitGym là benchmark do các nhà nghiên cứu UC Berkeley xây dựng với sự hợp tác của OpenAI và các phòng thí nghiệm frontier khác

Năng lực an ninh mạng và biện pháp an toàn

GPT‑5.6 Sol, Terra và Luna được phát triển cùng những biện pháp an toàn vững chắc nhất của OpenAI, phù hợp với năng lực của từng mô hình
Khi năng lực mô hình tăng lên, các biện pháp này được thiết kế để vẫn đứng vững trước áp lực đối kháng trong thực tế
Công ty vẫn muốn duy trì khả năng tiếp cận cho các tác vụ phòng thủ hợp pháp
- rà soát mã
- nghiên cứu lỗ hổng
- phát triển bản vá
- gỡ lỗi
- đào tạo bảo mật
- kiểm thử phòng thủ
Mục tiêu là khiến các hoạt động tấn công bị cấm trở nên khó hơn, kém chắc chắn hơn và dễ bị phát hiện hơn, trong khi không hạn chế không cần thiết các mục đích sử dụng có ích
Theo đánh giá của OpenAI, các tác vụ phòng thủ hợp pháp nhận được lợi ích đáng kể, còn việc sử dụng tấn công bị cấm thì bị hạn chế rõ rệt
Ngưỡng Cyber Critical
- GPT‑5.6 Sol không vượt ngưỡng Cyber Critical theo Preparedness Framework
- Trong các đánh giá liên quan đến Chromium và Firefox, mô hình có thể xác định bug và exploit primitive
- Nhưng trong điều kiện thử nghiệm, mô hình không thể tự động tạo ra full-chain exploit có chức năng
- Ngưỡng benchmark không thể nắm bắt đầy đủ mọi cách sử dụng mô hình hoặc việc kết hợp mô hình với các công cụ khác
- Vì sự không chắc chắn này và do năng lực tổng thể đã tăng lên, OpenAI áp dụng đồng thời các biện pháp an toàn mạnh hơn và phát hành theo từng giai đoạn

Ngăn xếp an toàn nhiều lớp

Việc lạm dụng có chủ đích hoặc có tính thích ứng rất khó bị ngăn chặn chỉ bằng một biện pháp an toàn đơn lẻ
Toàn bộ bản xem trước GPT‑5.6 áp dụng biện pháp an toàn nhiều lớp với cấu hình khác nhau theo từng mô hình
- bảo vệ được huấn luyện trong mô hình
- kiểm tra thời gian thực trong quá trình sinh
- tín hiệu ở cấp tài khoản
- truy cập phân biệt
- giám sát
- thực thi
- kiểm thử liên tục
Từ chối ở cấp mô hình và kiểm tra thời gian thực
- GPT‑5.6 được huấn luyện để từ chối hỗ trợ an ninh mạng bị cấm ngay cả khi người dùng che giấu ý đồ hoặc cố jailbreak
- Các bộ phân loại lạm dụng an ninh mạng và sinh học theo thời gian thực đánh giá đầu ra đang được sinh ra
- Nếu phát hiện vi phạm tiềm ẩn trong các trường hợp rủi ro cao, quá trình sinh có thể bị tạm dừng
- Các mô hình suy luận lớn hơn sẽ xem xét hội thoại và ngữ cảnh, và nếu đầu ra bị đánh giá là bị cấm thì sẽ bị giữ lại trước khi đến tay người dùng
Rà soát ở cấp tài khoản và truy cập phân biệt
- Hoạt động bị gắn cờ có thể dẫn đến rà soát ở cấp tài khoản bao gồm các cuộc hội thoại liên quan và tín hiệu rủi ro
- Xem xét ngữ cảnh ở cấp tài khoản thay vì chỉ một cuộc hội thoại giúp phân biệt công việc bảo mật hợp pháp mang tính lưỡng dụng với hành vi độc hại kéo dài
- Truy cập phân biệt giúp duy trì các tác vụ phòng thủ quan trọng trong khi ngăn các năng lực nhạy cảm nhất bị mở mặc định quá rộng
Ảnh hưởng tới người dùng trong giai đoạn preview
- Trong thời gian preview, một số yêu cầu có thể bị chặn hoặc từ chối
- Nếu quá trình sinh bị tạm dừng để rà soát thêm, một số yêu cầu có thể mất nhiều thời gian hơn
- Trong các vùng lưỡng dụng nơi hoạt động phòng thủ và tấn công ban đầu có thể trông giống nhau, biện pháp an toàn có thể can thiệp cả vào tác vụ hợp pháp
- Phản hồi trong giai đoạn preview sẽ được dùng để giảm chặn và độ trễ không cần thiết, cải thiện khả năng diễn giải ngữ cảnh của biện pháp an toàn và tinh chỉnh trải nghiệm trước khi phát hành rộng hơn
- Công ty cũng đang thảo luận với khách hàng doanh nghiệp về cách tiếp cận dài hạn
  - phát hiện bảo toàn quyền riêng tư
  - kiểm soát an toàn trong vận hành của khách hàng
  - quyền truy cập phù hợp với rủi ro của khách hàng, người dùng và khối lượng công việc

Cải thiện độ vững chắc bằng red team tự động

Các biện pháp an toàn cần duy trì hiệu quả ngay cả khi kẻ tấn công thay đổi chiến thuật
OpenAI sử dụng chính các mô hình của mình để tìm điểm yếu và cải thiện biện pháp an toàn nhanh hơn
Họ đã投入 hơn 700,000 A100-equivalent GPU hours vào hoạt động red team tự động
Red team tự động tập trung tìm kiếm universal jailbreak có thể hoạt động trên nhiều prompt hoặc ngữ cảnh
Tập trung vào các kiểu tấn công tổng quát hơn như vậy giúp kiểm tra biện pháp an toàn vượt ra ngoài danh sách cố định các trường hợp thất bại
Tự động hóa cho phép khám phá nhiều mẫu tấn công hơn mà chỉ kiểm thử thủ công bằng con người khó có thể bao quát, đồng thời phát hiện mẫu thất bại sớm hơn để rút ngắn thời gian từ lúc phát hiện điểm yếu đến khi sửa lỗi
Cùng với các tester bên ngoài, công ty cũng thực hiện red team chuyên gia do con người đảm nhiệm và công việc này tiếp tục trong suốt giai đoạn preview
Các jailbreak mới được phát hiện sẽ trải qua quy trình tái hiện, đánh giá, ưu tiên và sửa lỗi, rồi được thêm vào đánh giá liên tục để có thể kiểm thử các lỗi tương tự trong tương lai

Cách cung cấp và giá

Trong thời gian preview, các mô hình GPT‑5.6 trước tiên được cung cấp qua API và Codex cho các đối tác và tổ chức đáng tin cậy đã được chọn
Sau đó công ty có kế hoạch mở rộng cho người dùng ChatGPT, Codex và API
Trong hệ thống đặt tên mới của GPT‑5.6, con số thể hiện thế hệ mô hình
Sol, Terra và Luna biểu thị các tầng năng lực liên tục có thể phát triển theo tốc độ riêng
Họ sản phẩm này mang đến cho người dùng và nhà phát triển các lựa chọn rõ ràng hơn giữa trí tuệ, tốc độ và chi phí
Giá token và caching
- Giá GPT‑5.6 được tính theo 1 triệu token
- Sol: đầu vào $5 / đầu ra $30
- Terra: đầu vào $2.50 / đầu ra $15
- Luna: đầu vào $1 / đầu ra $6
- GPT‑5.6 giới thiệu cơ chế prompt caching dễ dự đoán hơn
  - hỗ trợ điểm ngắt cache tường minh
  - thời gian sống cache tối thiểu 30 phút
- Với GPT‑5.6 và các mô hình về sau, ghi cache được tính bằng 1.25 lần mức phí đầu vào không cache của mô hình đó
- Đọc cache tiếp tục được giảm 90% so với đầu vào cache
Cung cấp qua Cerebras
- GPT‑5.6 Sol dự kiến sẽ có mặt trên Cerebras vào tháng 7 với tốc độ tối đa 750 tokens mỗi giây
- Quyền truy cập ban đầu bị giới hạn cho một số khách hàng được chọn trong quá trình mở rộng năng lực

1 bình luận

GN⁺ 6 giờ trước

Ý kiến trên Hacker News

Phần thú vị nhất của lần công bố này có vẻ bị chôn ở đoạn áp chót: “Tháng 7, chúng tôi sẽ ra mắt GPT‑5.6 Sol trên Cerebras với tối đa 750 token/giây, mang trí tuệ frontier đến khách hàng với tốc độ chưa từng có. Quyền truy cập sẽ bị giới hạn cho một số khách hàng cho đến khi mở rộng được dung lượng.”
750 token/giây ở một mô hình frontier nghe thực sự rất đáng chú ý. Về năng lực thì tôi nghi ngờ nó có vượt quá mức tăng phiên bản đơn thuần hay không, nhưng nếu có thể nhận câu trả lời nhanh hơn nhiều thì nó sẽ hữu ích hơn hẳn
Ví dụ tôi nghĩ tới công việc tẻ nhạt là tìm một tính năng cụ thể trong codebase. Ngay cả bây giờ, trong kiểu việc này cũng thường khó mà đánh bại được bộ harness agent AI; nếu mô hình nhanh gấp 3 thì lại càng ít cửa thắng hơn
- https://mikeveerman.github.io/tokenspeed/?rate=750&mode=think
  750 token/giây có lẽ đại khái là cảm giác như thế này
- Để so sánh, theo openrouter thì Opus 4.8 đạt khoảng 55 token/giây, còn chế độ nhanh là khoảng 102 token/giây
  Nếu là 750 token/giây trên mẫu lớn nhất thì sẽ rất khủng
- Tôi đồng ý với câu “trong việc tìm một tính năng cụ thể trong codebase thì thường khó mà đánh bại được bộ harness agent AI”
  Chỉ mới 1 năm trước thôi tôi còn nhớ mình từng “đua” với AI để hiểu codebase, còn bây giờ thì gần như không có khả năng thắng. Không biết là do khả năng suy luận của tôi tệ đi hay là do mô hình đã tốt hơn
- Tôi vẫn đang dùng GPT-5.3-codex-spark, và nó cũng chạy trên chip Cerebras
  Spark có thể vượt 1000 token/giây, nhưng kích thước cửa sổ ngữ cảnh rất hạn chế nên không hợp với nhiều luồng công việc. Mô hình lần này dù tương đối chậm hơn một chút thì có lẽ vẫn sẽ rất tuyệt
- Khi đạt tới một mức tốc độ nào đó, có lẽ chúng ta có thể chuyển sang hệ thống suy luận liên tục/thời gian thực
  Cách tiếp cận rời rạc, theo lượt như hiện nay còn hạn chế khá nhiều cả cách huấn luyện. Một cách làm liên tục và thời gian thực có thể thay đổi căn bản lĩnh vực này
  Nhìn từ góc độ lý thuyết thông tin thì tốc độ truyền thông tin thực tế vẫn mới ở mức quay số điện thoại. 750 token/giây cũng chỉ cỡ một kết nối dial-up không quá tệ, hãy thử tưởng tượng 10 triệu token mỗi giây
Có vẻ đang có xu hướng này: GPT-5 mini giá $0.25/$2 và dự kiến ngừng vào tháng 12, GPT-5.4 mini giá $0.75/$4.5 và được nói là sản phẩm thay thế, còn GPT-5.4 nano giá $0.2/$1.25 và trên benchmark thì tốt hơn GPT-5 mini nhưng trong kịch bản thực tế thì hoàn toàn không tương tự
Vậy nên nếu hiện tại bạn đang dùng 5 mini thì rốt cuộc sẽ bị đẩy sang GPT-5.4 mini. Ở đây cũng đang xảy ra chuyện tương tự với model “Luna” giá $1/$6
Chẳng lẽ chúng ta không thể cứ tiếp tục dùng model mình thực sự muốn sao? Không phải cần GPT 5.4 mini, chỉ cần GPT-5 là đủ
Có lẽ ngay từ đầu nó chưa từng rẻ như vậy, và giờ ta mới nhận ra họ đang cố nâng cấp chúng ta theo cách chậm chạp và đau đớn
- Nếu bạn không cần hiệu năng mô hình frontier của Anthropic/OpenAI, thì mô hình trọng số mở có thể là lựa chọn tốt hơn vì chúng không thể biến mất
  Trên HN người ta hay nhắc tới DeepSeek V4 Flash, nhưng theo Artificial Analysis thì tính đến tháng 8/2025, nó ngang ngửa qua lại với GPT-5 high [0]
  [0]: https://artificialanalysis.ai/models/comparisons/deepseek-v4-flash-vs-gpt-5
- Giống hệt mô hình SaaS. Giá thì cứ tăng mãi, rồi để biện minh cho chuyện đó họ liên tục ép nâng cấp sang phiên bản mới có thêm những tính năng chẳng ai yêu cầu
- Tôi đã khá vất vả với vấn đề này. Rõ ràng các mô hình tốt và rẻ là hoàn toàn khả thi, ngoài open source cũng có nhiều, và các neo cloud đang cung cấp chúng một cách có lãi
  Các lab lớn về cơ bản đã từ bỏ mô hình giá rẻ, và điều đó thật khó chịu. Có khả năng các ứng dụng sẽ không còn được xây nhiều trên chúng nữa. Ví dụ như bên tôi cũng đang chuyển tải công việc từ Haiku/Sonnet sang Deepseek v4
  Có vẻ vấn đề nằm ở chỗ để giữ các con số doanh thu thì họ phải thu nhiều tiền, và họ lo người khác tự ăn mòn doanh thu của họ hơn là chính họ tự ăn mòn doanh thu của mình
- Nhận xét hay đấy. Xu hướng giá tăng thì rõ ràng, nhưng đồng thời đổi mới và tính sẵn có từ cả mô hình mở lẫn mô hình đóng cũng đang tạo thế cân bằng bằng cách đưa ra các lựa chọn thay thế
  Việc các lab thăm dò xem họ có thể đẩy giá tới đâu là điều tự nhiên, và việc đối thủ tận dụng phần biên lợi nhuận đó như cơ hội tăng trưởng của mình cũng vậy. Cuối cùng giá cả có lẽ sẽ ổn định hơn
- Điều tương tự cũng đang xảy ra với Anthropic Haiku và Gemini Flash/Flash Lite. Tất cả đều đang tăng giá và loại bỏ các mô hình giá rẻ
Tỷ lệ gian lận được phát hiện của GPT-5.6 Sol là cao nhất trong số các mô hình công khai mà chúng tôi đánh giá bằng bộ harness agent ReAct
Trong bộ tác vụ của chúng tôi, “gian lận” được định nghĩa là việc mô hình nâng hiệu năng đánh giá bằng cách khai thác lỗi của môi trường đánh giá hoặc áp dụng các chiến lược bị cấm trong tác vụ, thay vì giải quyết vấn đề trong các ràng buộc đánh giá được kỳ vọng
https://metr.org/blog/2026-06-26-gpt-5-6-sol/
- Trích dẫn này trong liên kết thật sự đáng sợ: như một ví dụ được thấy khi đánh giá GPT-5.6 Sol, mô hình đã đóng gói exploit vào một bài nộp trung gian để làm lộ thông tin về bộ test ẩn của tác vụ, hoặc ở các tác vụ khác thì trích xuất mã nguồn ẩn mô tả đáp án mong đợi
  Nó gợi nhớ tới hành vi từng thấy ở Alibaba [0], nhưng trường hợp đó là trong lúc huấn luyện. Còn đây là chuyện xảy ra ở một mô hình gần phát hành
  [0] https://www.forbes.com/sites/boazsobrado/2026/03/11/alibabas-ai-agent-mined-crypto-without-permission-now-what/
- Việc các mô hình gian lận thực ra khá hợp logic. Trong quá trình đánh giá, các yêu cầu benchmark được gửi tới backend của các công ty này
  Việc họ cần làm chỉ là ghi log các yêu cầu đó lại và “sửa” chúng ở bản phát hành mô hình tiếp theo
Tôi nghĩ GPT là công cụ viết code giỏi nhất. Chỉ nghĩ đến việc phiên bản 5.6 sẽ viết tốt đến mức nào cũng đủ nổi da gà
Gần đây tôi đã đối đầu trực diện với GPT trên một đoạn code gần 2.000 dòng, và cách giải của GPT vừa tốt hơn vừa nhanh hơn. Tôi đã thử tham khảo nhiều codebase trên GitHub, nhưng vẫn không thể so với GPT
Vì vậy khi dùng GPT, tôi đồng thời cảm thấy sợ và phấn khích. Điều đáng sợ là nhận ra mức code này giờ sẽ trở thành mặt bằng trung bình với đa số mọi người, còn điều khiến tôi phấn khích là bản thân cũng có thể học hỏi và tiến bộ ở đúng trình độ đó
Tôi thực sự rất mong chờ xem code sẽ còn tiến bộ đến đâu với bản nâng cấp 5.6
- Tôi ở phe ngược lại. Các mô hình mở đang bắt đầu làm tốt hơn, còn GPT 5.5 thì cứ làm mọi thứ thành mớ hỗn độn
  Ngược lại, tổ hợp pi + glm + DeepSeek thì rất ổn. Fable thì là một loại quái vật khác hẳn. RIP
- Hoàn toàn mang tính chủ quan, nhưng dù code của GPT 5.5 có thể có trần tổng thể cao hơn, tôi vẫn thích đọc đầu ra của Opus 4.8 hơn
  Cái trước có thể dễ review hơn đôi chút
- Vài tháng trước tôi đã nghe đúng câu này nhiều lần về Opus 4.6, rồi sau đó 4.7 và 4.8 bị xem là gây thất vọng, còn ngày nay mọi người lại nhớ nhung “những ngày tháng tươi đẹp của 4.6”
  Những ngày đẹp đẽ ở đây là chỉ vài tuần trong tháng 2 năm 2026. Theo dõi toàn bộ diễn biến này thực sự rất thú vị
- Tôi nghi ngờ việc năng lực lập trình đã tiến bộ đến mức nào
  Việc không có lấy một benchmark lập trình nào trong thông báo, và thứ gần nhất lại là terminal bench, trông khá kỳ lạ
- Bạn có thể đưa ví dụ không? Tôi tò mò bạn đã cố giải quyết điều gì, cách giải của bạn là gì, và tại sao cách giải của GPT lại tốt hơn và nhanh hơn
Nếu bạn đã dùng GPT-5.5 trong khoảng 24 giờ qua, có thể bạn đã tiếp cận 5.6 rồi
Chúng tôi đang chạy test trên bộ harness mình xây, và hôm qua điểm số bỗng tăng vọt. Khi chạy lại benchmark Codex cơ bản, GPT-5.5 đạt khoảng 88% trên Terminal Bench 2.1 trong bộ Codex cơ bản
Tín hiệu lớn hơn cả điểm số là 3 bài test vốn thường bị chặn vì “an toàn” ở 5.5 đã bất ngờ bắt đầu thành công từ tối qua mà không hề có báo trước
- Những thay đổi như vậy không nhất thiết là một A/B test thần bí nào đó; chỉ thay đổi hạ tầng thôi cũng có thể gây ra
- Bạn có đọc bản phát hành chưa? Nó đâu có được công bố rộng rãi cho tất cả mọi người
  Nội dung là: “bắt đầu bằng bản preview giới hạn cho một nhóm nhỏ đối tác đáng tin cậy, những người có chia sẻ về sự tham gia với chính phủ, rồi mới mở rộng phát hành”
  Bình luận này là một ví dụ rất điển hình cho việc người dùng LLM trung bình hành xử chẳng khác gì người chơi máy kéo xèng. Họ tin rằng “cái này đang nóng, cái này may mắn, cái này tốt hơn cái kia”, rồi liên tục đổi mô hình dựa trên một kiểu hiểu biết huyền bí mà chỉ riêng họ cho là mình có
  Và benchmark 80% thì có ý nghĩa gì chứ? Người ta huấn luyện trên những benchmark công khai như thế để gây ấn tượng với những ai còn gán ý nghĩa cho chúng. Nhưng vậy thì tại sao ở các job Upwork giá $20~30/giờ lại chỉ có tỷ lệ pass 4%? Những benchmark kiểu này xem ra gần như vô dụng
  Còn có cả chuyện phân tán, nên tôi không hiểu vì sao chỉ vì vài bài test tăng điểm mà lại khiến bạn tin là mình đã được truy cập vào một mô hình vốn được nói là bạn không có quyền truy cập
  https://labs.scale.com/leaderboard/rli
Nhân một thread đang hot nên hỏi ké: hiện tại giới hạn sử dụng của Codex và Claude là thế nào?
Trước đây tôi từng giao cùng một tác vụ cho cả hai, và Codex dùng ít hơn giới hạn 5 giờ của tôi khoảng 20 lần. Khi đó cả hai đều là gói $20/tháng
Vốn dĩ tôi thích Claude hơn nên khá khó chịu, nhưng hồi đó vì giới hạn nên không thể dùng cho công việc nghiêm túc
Kể từ đó, cả hai nhà cung cấp đều đã cắt giảm mạnh lượng sử dụng cho phép, và ít nhất một bên còn bị kiện vì việc đó
Hiện tôi không còn đăng ký bên nào và đang cân nhắc lựa chọn. GPT có vẻ nhỉnh hơn Opus một chút, và trước đây cũng cho hạn mức cao hơn nhiều, nên tôi đang nghiêng về phía đăng ký OpenAI. Chỉ là tôi muốn biết tình hình hiện tại có còn đúng với ký ức từ 2~3 tháng trước hay không. Vì cả hai công ty đều trông như đang rất quyết liệt cắt giảm chi phí
Tôi ưu tiên câu trả lời từ người đã dùng cả hai, nhưng giai thoại cá nhân cũng rất hoan nghênh
- Tôi cảm thấy mức sử dụng Codex rất hào phóng. Nhưng tôi đang dùng gói $200 và Claude cũng là gói $200
  Nếu muốn thì bạn gần như có thể chạy xhigh và sub-agent liên tục suốt cả thời gian thức. Nếu bật tuỳ chọn tốc độ 1.5x thì thỉnh thoảng sẽ chạm giới hạn 5 giờ
  Tôi thích vibe của Claude hơn 5.5, nhưng 5.5 có vẻ đỡ lười hơn rất nhiều. Tất nhiên điều này còn phụ thuộc lớn vào tác vụ và chiến lược prompt
- Trong tháng trước, Claude Max 5x cho cảm giác khá hào phóng về mặt usage vì Fable và bug khiến phải reset nhiều
  Nếu dùng 5.5 high hoặc Opus 4.8 high thì thành thật mà nói mức độ khá tương đương nhau
  Có vẻ họ đã bỏ quota Sonnet riêng trong gói Max, có thể là để chuẩn bị cho Sonnet 5. Điều đó làm tôi thấy tiếc, vì nhờ vậy workflow với sub-agent từng cho cảm giác gần như không giới hạn
- Khi so sánh Claude Code và Cursor+Gpt55 trong công việc, Claude rõ ràng chậm hơn và đắt hơn
- Thú vị đấy. Khoảng một tháng nay tôi nhận thấy Claude Code bắt đầu dùng token nhiều hơn khoảng 5 lần. Chỉ là ước lượng rất thô thôi
Họ nói rằng “chúng tôi cũng giới thiệu chế độ ultra mới tận dụng các sub-agent để tăng tốc những tác vụ phức tạp vượt quá năng lực của một agent đơn lẻ”, nhưng tôi tò mò không biết nó hoạt động như thế nào
Sub-agent cũng có thể dùng cùng các công cụ đó không? Liệu phía client có bị ngập trong các lệnh gọi công cụ không? Có thể làm cùng việc đó ở phía client với quyền kiểm soát nhiều hơn, vậy tại sao lại thu thêm tiền cho một “mô hình” mới?
Và nếu là cả một đội quân sub-agent thì tôi cũng thắc mắc vì sao lại so với Fable và Mythos. Nếu gắn bộ harness tương tự thì có lẽ các mô hình đó cũng sẽ cho benchmark tốt hơn
- Nếu nó giống ultracode của ClaudeCode thì chẳng có gì mới hay mang tính đột phá cả
  Về bản chất, đây là cấu trúc trong đó script mang tính quyết định do luồng mô hình chính viết ra sẽ gọi nhiều sub-agent, mỗi cái ngốn rất nhiều token, rồi một agent điều phối sẽ tổng hợp đầu ra
- Nếu nó giống Claude Ultracode, thì chỉ với một prompt có thể đốt 3 triệu token trong 30 phút
- Các harness chính (pi, Claude code, codex) chẳng phải đều dùng sub-agent sao?
  Nếu chỉ thị rõ ràng thì chắc chắn là dùng, và ít nhất với pi tôi từng thấy nó khởi chạy ngay cả khi không có chỉ thị tường minh
- Tôi cũng thấy thú vị. Nếu không đơn thuần là để vắt thêm một chút hiệu năng, thì có lẽ là để thu thập gọn gàng dữ liệu sử dụng thực tế của kiểu dùng này
- Tôi ngạc nhiên là trước giờ họ còn chưa dùng sub-agent. Có khi họ chỉ đang nói rằng triển khai web đã được tích hợp với codex mà thôi
Cũng như thời Mythos, tôi hoàn toàn không hào hứng với những mô hình mà tôi không thể dùng được
- Ít nhất thì OpenAI có kế hoạch cung cấp mọi phiên bản cho công chúng. Trông vẫn tốt hơn rất nhiều so với những gì đang diễn ra ở Anthropic
  “Đúng vậy, bọn tôi có mô hình tốt nhất hiện có. Cứ tin đi. Nó thật sự đáng sợ.”
  “À, vậy à? Tôi có thể xem được không?”
  “Biến đi. Bọn tôi sẽ đưa cho đám dân thường như các người một phiên bản tệ hơn.”
  “Ừm, cảm ơn?”
  “haha thật ra cũng không phải thế. Chính quyền hiện tại đã mắc bẫy chiến dịch marketing dựa trên nỗi sợ của bọn tôi rồi. Bọn tôi sẽ đưa cho các người một cỗ máy đốt token còn tệ hơn và đắt cắt cổ. Giới hạn phần cứng thì mỗi tuần lại khắc nghiệt hơn”
  Dù có nói gì về OpenAI đi nữa, chiến lược doanh nghiệp của họ vẫn có vẻ vững vàng hơn nhiều
Câu “Terra cho hiệu năng cạnh tranh với GPT‑5.5 và rẻ hơn 2 lần” đối với tôi nghe như “đó là một sản phẩm kém hơn nhưng đang cố che điều đó bằng marketing”
Và những câu kiểu “stack an toàn vững chắc nhất từ trước đến nay, tăng cường bảo vệ trước hoạt động rủi ro cao, yêu cầu an ninh mạng nhạy cảm và lạm dụng lặp lại, được tăng cường qua nhiều tuần rà tìm điểm yếu, stress test và chuẩn bị trước tấn công thực chiến” cùng lắm là vô giá trị với tôi, và phần lớn còn có khả năng gây hại. Vì nó sẽ làm tăng từ chối hoặc làm suy giảm tính hữu dụng
Tại sao các nhà cung cấp cứ tiếp tục đặt stack an toàn lên hàng đầu? Có khách hàng nào thật sự đòi hỏi thứ đó không? Ngoài người dùng chatbot ChatGPT cho hỗ trợ ra thì tôi không nghĩ ra ai cả
- Câu “Terra cho hiệu năng cạnh tranh với GPT‑5.5 và rẻ hơn 2 lần” theo tôi nên được hiểu là bạn có được hiệu năng dòng chính hiện nay với mức giá thấp hơn rất nhiều
- Mục đích của Terra là rẻ hơn mô hình tốt nhất nhưng vẫn khá ổn. Dĩ nhiên về trí tuệ thì nó kém hơn
- Thông điệp đó rõ ràng là nhắm đến chính phủ. Xem các thread khác là thấy
- Có lẽ đó cũng là thông điệp dành cho các nhà đầu tư

Bản xem trước GPT‑5.6 Sol: mô hình thế hệ tiếp theo

Phạm vi bản xem trước dòng GPT‑5.6

Công bố giới hạn và trao đổi với chính phủ

Năng lực mô hình và đánh giá

Chế độ suy luận

Lập trình và sinh học

An ninh mạng

Năng lực an ninh mạng và biện pháp an toàn

Ngưỡng Cyber Critical

Ngăn xếp an toàn nhiều lớp

Từ chối ở cấp mô hình và kiểm tra thời gian thực

Rà soát ở cấp tài khoản và truy cập phân biệt

Ảnh hưởng tới người dùng trong giai đoạn preview

Cải thiện độ vững chắc bằng red team tự động

Cách cung cấp và giá

Giá token và caching

Cung cấp qua Cerebras

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News