Bản xem trước GPT‑5.6 Sol: mô hình thế hệ tiếp theo
(openai.com)- OpenAI mở dòng GPT‑5.6 dưới dạng bản xem trước giới hạn, đồng thời giới thiệu Sol chủ lực, Terra cho công việc hằng ngày và Luna chi phí thấp
- Sol tăng cường năng lực tác tử trong lập trình, sinh học và an ninh mạng, đồng thời hỗ trợ suy luận sâu hơn và tận dụng tác tử con với
maxreasoning effort và chế độultra - Hiệu năng an ninh mạng đã được cải thiện trên ExploitBench và ExploitGym, nhưng trong điều kiện đánh giá Chromium·Firefox, mô hình vẫn chưa thể tự động tạo full-chain exploit có chức năng nên chưa vượt ngưỡng Cyber Critical
- Bản xem trước trước tiên được cung cấp qua API và Codex cho một số đối tác và tổ chức đáng tin cậy, trước khi chuẩn bị mở rộng hơn sau quy trình hạn chế theo yêu cầu của chính phủ Mỹ
- Giá theo 1 triệu token là Sol $5 đầu vào / $30 đầu ra, Terra $2.50 đầu vào / $15 đầu ra, Luna $1 đầu vào / $6 đầu ra; ghi cache tính 1.25 lần và đọc cache được giảm giá 90%
Phạm vi bản xem trước dòng GPT‑5.6
- OpenAI trước tiên công bố họ sản phẩm GPT‑5.6 dưới dạng bản xem trước giới hạn
- Sol: mô hình chủ lực
- Terra: mô hình cân bằng cho công việc hằng ngày
- Luna: mô hình nhanh và rẻ
- Terra mang lại hiệu năng cạnh tranh với GPT‑5.5 trong khi giá rẻ hơn 2 lần
- Luna cung cấp năng lực mạnh với mức chi phí thấp nhất của OpenAI
- GPT‑5.6 Sol được phát hành cùng ngăn xếp an toàn vững chắc nhất mà OpenAI từng xây dựng cho đến nay
- hoạt động rủi ro cao
- yêu cầu an ninh mạng nhạy cảm
- lạm dụng lặp đi lặp lại
- tìm kiếm điểm yếu và kiểm tra chịu tải trước các cuộc tấn công thực tế
Công bố giới hạn và trao đổi với chính phủ
- OpenAI có kế hoạch đưa GPT‑5.6 Sol, Terra và Luna vào phát hành rộng rãi trong vài tuần tới
- Trong quá trình trao đổi liên tục với chính phủ Mỹ, công ty đã chia sẻ kế hoạch trước phát hành và năng lực của mô hình
- Theo yêu cầu của chính phủ, trước tiên họ bắt đầu bản xem trước giới hạn với một số ít đối tác đáng tin cậy mà việc tham gia của họ được chia sẻ với chính phủ
- OpenAI cho rằng quy trình tiếp cận kiểu này từ phía chính phủ không nên trở thành mặc định lâu dài
- vì điều đó có thể khiến người dùng, nhà phát triển, doanh nghiệp, bên phòng thủ an ninh mạng và các đối tác toàn cầu không thể tiếp cận các công cụ họ cần
- Quy trình ngắn hạn lần này là con đường để tiến tới công bố rộng hơn trong vài tuần tới
- được áp dụng trong khi cùng chính quyền phát triển khuôn khổ Executive Order về an ninh mạng và quy trình có thể lặp lại cho các đợt phát hành mô hình sau này
Năng lực mô hình và đánh giá
- GPT‑5.6 Sol được giới thiệu là mô hình mạnh nhất của OpenAI
- Mô hình cho thấy năng lực tác tử được cải thiện trong các bài đánh giá về lập trình, sinh học và an ninh mạng
- Các đánh giá bổ sung về an toàn và mức độ sẵn sàng được nêu trong GPT‑5.6 Preview system card
- Công ty dự định sẽ chia sẻ bộ kết quả đánh giá mở rộng khi công bố rộng rãi hơn
-
Chế độ suy luận
- GPT‑5.6 giới thiệu
maxreasoning effort để Sol có thể suy luận lâu hơn và sâu hơn - Chế độ
ultramới vượt ra ngoài năng lực của một tác tử đơn lẻ, tăng tốc các tác vụ phức tạp bằng cách tận dụng các tác tử con
- GPT‑5.6 giới thiệu
-
Lập trình và sinh học
- GPT‑5.6 Sol đạt mức hiệu năng dẫn đầu mới trên Terminal‑Bench 2.1, bộ đánh giá quy trình làm việc dòng lệnh
- Benchmark này kiểm tra các tác vụ dòng lệnh đòi hỏi lập kế hoạch, lặp lại và điều phối công cụ
- Trên GeneBench v1, mô hình cho kết quả mạnh hơn GPT‑5.5 trong khi dùng ít token hơn
- GeneBench v1 đánh giá phân tích hệ gen và sinh học định lượng trên phạm vi dài hạn
-
An ninh mạng
- GPT‑5.6 Sol là mô hình có năng lực cao nhất của OpenAI cho các tác vụ an ninh mạng
- Mô hình đẩy xa biên hiệu năng-hiệu quả trong các tác vụ bảo mật dài hạn, bao gồm nghiên cứu lỗ hổng và khai thác
- Trên ExploitBench, mô hình cho kết quả cạnh tranh với Mythos Preview trong khi chỉ dùng khoảng một phần ba số token đầu ra
- Trên ExploitGym, cả Sol, Terra và Luna đều cho thấy cải thiện mạnh về năng lực an ninh mạng khi mức suy luận tăng lên
- ExploitGym là benchmark do các nhà nghiên cứu UC Berkeley xây dựng với sự hợp tác của OpenAI và các phòng thí nghiệm frontier khác
Năng lực an ninh mạng và biện pháp an toàn
- GPT‑5.6 Sol, Terra và Luna được phát triển cùng những biện pháp an toàn vững chắc nhất của OpenAI, phù hợp với năng lực của từng mô hình
- Khi năng lực mô hình tăng lên, các biện pháp này được thiết kế để vẫn đứng vững trước áp lực đối kháng trong thực tế
- Công ty vẫn muốn duy trì khả năng tiếp cận cho các tác vụ phòng thủ hợp pháp
- rà soát mã
- nghiên cứu lỗ hổng
- phát triển bản vá
- gỡ lỗi
- đào tạo bảo mật
- kiểm thử phòng thủ
- Mục tiêu là khiến các hoạt động tấn công bị cấm trở nên khó hơn, kém chắc chắn hơn và dễ bị phát hiện hơn, trong khi không hạn chế không cần thiết các mục đích sử dụng có ích
- Theo đánh giá của OpenAI, các tác vụ phòng thủ hợp pháp nhận được lợi ích đáng kể, còn việc sử dụng tấn công bị cấm thì bị hạn chế rõ rệt
-
Ngưỡng Cyber Critical
- GPT‑5.6 Sol không vượt ngưỡng Cyber Critical theo Preparedness Framework
- Trong các đánh giá liên quan đến Chromium và Firefox, mô hình có thể xác định bug và exploit primitive
- Nhưng trong điều kiện thử nghiệm, mô hình không thể tự động tạo ra full-chain exploit có chức năng
- Ngưỡng benchmark không thể nắm bắt đầy đủ mọi cách sử dụng mô hình hoặc việc kết hợp mô hình với các công cụ khác
- Vì sự không chắc chắn này và do năng lực tổng thể đã tăng lên, OpenAI áp dụng đồng thời các biện pháp an toàn mạnh hơn và phát hành theo từng giai đoạn
Ngăn xếp an toàn nhiều lớp
- Việc lạm dụng có chủ đích hoặc có tính thích ứng rất khó bị ngăn chặn chỉ bằng một biện pháp an toàn đơn lẻ
- Toàn bộ bản xem trước GPT‑5.6 áp dụng biện pháp an toàn nhiều lớp với cấu hình khác nhau theo từng mô hình
- bảo vệ được huấn luyện trong mô hình
- kiểm tra thời gian thực trong quá trình sinh
- tín hiệu ở cấp tài khoản
- truy cập phân biệt
- giám sát
- thực thi
- kiểm thử liên tục
-
Từ chối ở cấp mô hình và kiểm tra thời gian thực
- GPT‑5.6 được huấn luyện để từ chối hỗ trợ an ninh mạng bị cấm ngay cả khi người dùng che giấu ý đồ hoặc cố jailbreak
- Các bộ phân loại lạm dụng an ninh mạng và sinh học theo thời gian thực đánh giá đầu ra đang được sinh ra
- Nếu phát hiện vi phạm tiềm ẩn trong các trường hợp rủi ro cao, quá trình sinh có thể bị tạm dừng
- Các mô hình suy luận lớn hơn sẽ xem xét hội thoại và ngữ cảnh, và nếu đầu ra bị đánh giá là bị cấm thì sẽ bị giữ lại trước khi đến tay người dùng
-
Rà soát ở cấp tài khoản và truy cập phân biệt
- Hoạt động bị gắn cờ có thể dẫn đến rà soát ở cấp tài khoản bao gồm các cuộc hội thoại liên quan và tín hiệu rủi ro
- Xem xét ngữ cảnh ở cấp tài khoản thay vì chỉ một cuộc hội thoại giúp phân biệt công việc bảo mật hợp pháp mang tính lưỡng dụng với hành vi độc hại kéo dài
- Truy cập phân biệt giúp duy trì các tác vụ phòng thủ quan trọng trong khi ngăn các năng lực nhạy cảm nhất bị mở mặc định quá rộng
-
Ảnh hưởng tới người dùng trong giai đoạn preview
- Trong thời gian preview, một số yêu cầu có thể bị chặn hoặc từ chối
- Nếu quá trình sinh bị tạm dừng để rà soát thêm, một số yêu cầu có thể mất nhiều thời gian hơn
- Trong các vùng lưỡng dụng nơi hoạt động phòng thủ và tấn công ban đầu có thể trông giống nhau, biện pháp an toàn có thể can thiệp cả vào tác vụ hợp pháp
- Phản hồi trong giai đoạn preview sẽ được dùng để giảm chặn và độ trễ không cần thiết, cải thiện khả năng diễn giải ngữ cảnh của biện pháp an toàn và tinh chỉnh trải nghiệm trước khi phát hành rộng hơn
- Công ty cũng đang thảo luận với khách hàng doanh nghiệp về cách tiếp cận dài hạn
- phát hiện bảo toàn quyền riêng tư
- kiểm soát an toàn trong vận hành của khách hàng
- quyền truy cập phù hợp với rủi ro của khách hàng, người dùng và khối lượng công việc
Cải thiện độ vững chắc bằng red team tự động
- Các biện pháp an toàn cần duy trì hiệu quả ngay cả khi kẻ tấn công thay đổi chiến thuật
- OpenAI sử dụng chính các mô hình của mình để tìm điểm yếu và cải thiện biện pháp an toàn nhanh hơn
- Họ đã投入 hơn 700,000 A100-equivalent GPU hours vào hoạt động red team tự động
- Red team tự động tập trung tìm kiếm universal jailbreak có thể hoạt động trên nhiều prompt hoặc ngữ cảnh
- Tập trung vào các kiểu tấn công tổng quát hơn như vậy giúp kiểm tra biện pháp an toàn vượt ra ngoài danh sách cố định các trường hợp thất bại
- Tự động hóa cho phép khám phá nhiều mẫu tấn công hơn mà chỉ kiểm thử thủ công bằng con người khó có thể bao quát, đồng thời phát hiện mẫu thất bại sớm hơn để rút ngắn thời gian từ lúc phát hiện điểm yếu đến khi sửa lỗi
- Cùng với các tester bên ngoài, công ty cũng thực hiện red team chuyên gia do con người đảm nhiệm và công việc này tiếp tục trong suốt giai đoạn preview
- Các jailbreak mới được phát hiện sẽ trải qua quy trình tái hiện, đánh giá, ưu tiên và sửa lỗi, rồi được thêm vào đánh giá liên tục để có thể kiểm thử các lỗi tương tự trong tương lai
Cách cung cấp và giá
- Trong thời gian preview, các mô hình GPT‑5.6 trước tiên được cung cấp qua API và Codex cho các đối tác và tổ chức đáng tin cậy đã được chọn
- Sau đó công ty có kế hoạch mở rộng cho người dùng ChatGPT, Codex và API
- Trong hệ thống đặt tên mới của GPT‑5.6, con số thể hiện thế hệ mô hình
- Sol, Terra và Luna biểu thị các tầng năng lực liên tục có thể phát triển theo tốc độ riêng
- Họ sản phẩm này mang đến cho người dùng và nhà phát triển các lựa chọn rõ ràng hơn giữa trí tuệ, tốc độ và chi phí
-
Giá token và caching
- Giá GPT‑5.6 được tính theo 1 triệu token
- Sol: đầu vào $5 / đầu ra $30
- Terra: đầu vào $2.50 / đầu ra $15
- Luna: đầu vào $1 / đầu ra $6
- GPT‑5.6 giới thiệu cơ chế prompt caching dễ dự đoán hơn
- hỗ trợ điểm ngắt cache tường minh
- thời gian sống cache tối thiểu 30 phút
- Với GPT‑5.6 và các mô hình về sau, ghi cache được tính bằng 1.25 lần mức phí đầu vào không cache của mô hình đó
- Đọc cache tiếp tục được giảm 90% so với đầu vào cache
-
Cung cấp qua Cerebras
- GPT‑5.6 Sol dự kiến sẽ có mặt trên Cerebras vào tháng 7 với tốc độ tối đa 750 tokens mỗi giây
- Quyền truy cập ban đầu bị giới hạn cho một số khách hàng được chọn trong quá trình mở rộng năng lực
1 bình luận
Ý kiến trên Hacker News
Phần thú vị nhất của lần công bố này có vẻ bị chôn ở đoạn áp chót: “Tháng 7, chúng tôi sẽ ra mắt GPT‑5.6 Sol trên Cerebras với tối đa 750 token/giây, mang trí tuệ frontier đến khách hàng với tốc độ chưa từng có. Quyền truy cập sẽ bị giới hạn cho một số khách hàng cho đến khi mở rộng được dung lượng.”
750 token/giây ở một mô hình frontier nghe thực sự rất đáng chú ý. Về năng lực thì tôi nghi ngờ nó có vượt quá mức tăng phiên bản đơn thuần hay không, nhưng nếu có thể nhận câu trả lời nhanh hơn nhiều thì nó sẽ hữu ích hơn hẳn
Ví dụ tôi nghĩ tới công việc tẻ nhạt là tìm một tính năng cụ thể trong codebase. Ngay cả bây giờ, trong kiểu việc này cũng thường khó mà đánh bại được bộ harness agent AI; nếu mô hình nhanh gấp 3 thì lại càng ít cửa thắng hơn
750 token/giây có lẽ đại khái là cảm giác như thế này
Nếu là 750 token/giây trên mẫu lớn nhất thì sẽ rất khủng
Chỉ mới 1 năm trước thôi tôi còn nhớ mình từng “đua” với AI để hiểu codebase, còn bây giờ thì gần như không có khả năng thắng. Không biết là do khả năng suy luận của tôi tệ đi hay là do mô hình đã tốt hơn
Spark có thể vượt 1000 token/giây, nhưng kích thước cửa sổ ngữ cảnh rất hạn chế nên không hợp với nhiều luồng công việc. Mô hình lần này dù tương đối chậm hơn một chút thì có lẽ vẫn sẽ rất tuyệt
Cách tiếp cận rời rạc, theo lượt như hiện nay còn hạn chế khá nhiều cả cách huấn luyện. Một cách làm liên tục và thời gian thực có thể thay đổi căn bản lĩnh vực này
Nhìn từ góc độ lý thuyết thông tin thì tốc độ truyền thông tin thực tế vẫn mới ở mức quay số điện thoại. 750 token/giây cũng chỉ cỡ một kết nối dial-up không quá tệ, hãy thử tưởng tượng 10 triệu token mỗi giây
Có vẻ đang có xu hướng này: GPT-5 mini giá $0.25/$2 và dự kiến ngừng vào tháng 12, GPT-5.4 mini giá $0.75/$4.5 và được nói là sản phẩm thay thế, còn GPT-5.4 nano giá $0.2/$1.25 và trên benchmark thì tốt hơn GPT-5 mini nhưng trong kịch bản thực tế thì hoàn toàn không tương tự
Vậy nên nếu hiện tại bạn đang dùng 5 mini thì rốt cuộc sẽ bị đẩy sang GPT-5.4 mini. Ở đây cũng đang xảy ra chuyện tương tự với model “Luna” giá $1/$6
Chẳng lẽ chúng ta không thể cứ tiếp tục dùng model mình thực sự muốn sao? Không phải cần GPT 5.4 mini, chỉ cần GPT-5 là đủ
Có lẽ ngay từ đầu nó chưa từng rẻ như vậy, và giờ ta mới nhận ra họ đang cố nâng cấp chúng ta theo cách chậm chạp và đau đớn
Trên HN người ta hay nhắc tới DeepSeek V4 Flash, nhưng theo Artificial Analysis thì tính đến tháng 8/2025, nó ngang ngửa qua lại với GPT-5 high [0]
[0]: https://artificialanalysis.ai/models/comparisons/deepseek-v4-flash-vs-gpt-5
Các lab lớn về cơ bản đã từ bỏ mô hình giá rẻ, và điều đó thật khó chịu. Có khả năng các ứng dụng sẽ không còn được xây nhiều trên chúng nữa. Ví dụ như bên tôi cũng đang chuyển tải công việc từ Haiku/Sonnet sang Deepseek v4
Có vẻ vấn đề nằm ở chỗ để giữ các con số doanh thu thì họ phải thu nhiều tiền, và họ lo người khác tự ăn mòn doanh thu của họ hơn là chính họ tự ăn mòn doanh thu của mình
Việc các lab thăm dò xem họ có thể đẩy giá tới đâu là điều tự nhiên, và việc đối thủ tận dụng phần biên lợi nhuận đó như cơ hội tăng trưởng của mình cũng vậy. Cuối cùng giá cả có lẽ sẽ ổn định hơn
Tỷ lệ gian lận được phát hiện của GPT-5.6 Sol là cao nhất trong số các mô hình công khai mà chúng tôi đánh giá bằng bộ harness agent ReAct
Trong bộ tác vụ của chúng tôi, “gian lận” được định nghĩa là việc mô hình nâng hiệu năng đánh giá bằng cách khai thác lỗi của môi trường đánh giá hoặc áp dụng các chiến lược bị cấm trong tác vụ, thay vì giải quyết vấn đề trong các ràng buộc đánh giá được kỳ vọng
https://metr.org/blog/2026-06-26-gpt-5-6-sol/
Nó gợi nhớ tới hành vi từng thấy ở Alibaba [0], nhưng trường hợp đó là trong lúc huấn luyện. Còn đây là chuyện xảy ra ở một mô hình gần phát hành
[0] https://www.forbes.com/sites/boazsobrado/2026/03/11/alibabas-ai-agent-mined-crypto-without-permission-now-what/
Việc họ cần làm chỉ là ghi log các yêu cầu đó lại và “sửa” chúng ở bản phát hành mô hình tiếp theo
Tôi nghĩ GPT là công cụ viết code giỏi nhất. Chỉ nghĩ đến việc phiên bản 5.6 sẽ viết tốt đến mức nào cũng đủ nổi da gà
Gần đây tôi đã đối đầu trực diện với GPT trên một đoạn code gần 2.000 dòng, và cách giải của GPT vừa tốt hơn vừa nhanh hơn. Tôi đã thử tham khảo nhiều codebase trên GitHub, nhưng vẫn không thể so với GPT
Vì vậy khi dùng GPT, tôi đồng thời cảm thấy sợ và phấn khích. Điều đáng sợ là nhận ra mức code này giờ sẽ trở thành mặt bằng trung bình với đa số mọi người, còn điều khiến tôi phấn khích là bản thân cũng có thể học hỏi và tiến bộ ở đúng trình độ đó
Tôi thực sự rất mong chờ xem code sẽ còn tiến bộ đến đâu với bản nâng cấp 5.6
Ngược lại, tổ hợp pi + glm + DeepSeek thì rất ổn. Fable thì là một loại quái vật khác hẳn. RIP
Cái trước có thể dễ review hơn đôi chút
Những ngày đẹp đẽ ở đây là chỉ vài tuần trong tháng 2 năm 2026. Theo dõi toàn bộ diễn biến này thực sự rất thú vị
Việc không có lấy một benchmark lập trình nào trong thông báo, và thứ gần nhất lại là terminal bench, trông khá kỳ lạ
Nếu bạn đã dùng GPT-5.5 trong khoảng 24 giờ qua, có thể bạn đã tiếp cận 5.6 rồi
Chúng tôi đang chạy test trên bộ harness mình xây, và hôm qua điểm số bỗng tăng vọt. Khi chạy lại benchmark Codex cơ bản, GPT-5.5 đạt khoảng 88% trên Terminal Bench 2.1 trong bộ Codex cơ bản
Tín hiệu lớn hơn cả điểm số là 3 bài test vốn thường bị chặn vì “an toàn” ở 5.5 đã bất ngờ bắt đầu thành công từ tối qua mà không hề có báo trước
Nội dung là: “bắt đầu bằng bản preview giới hạn cho một nhóm nhỏ đối tác đáng tin cậy, những người có chia sẻ về sự tham gia với chính phủ, rồi mới mở rộng phát hành”
Bình luận này là một ví dụ rất điển hình cho việc người dùng LLM trung bình hành xử chẳng khác gì người chơi máy kéo xèng. Họ tin rằng “cái này đang nóng, cái này may mắn, cái này tốt hơn cái kia”, rồi liên tục đổi mô hình dựa trên một kiểu hiểu biết huyền bí mà chỉ riêng họ cho là mình có
Và benchmark 80% thì có ý nghĩa gì chứ? Người ta huấn luyện trên những benchmark công khai như thế để gây ấn tượng với những ai còn gán ý nghĩa cho chúng. Nhưng vậy thì tại sao ở các job Upwork giá $20~30/giờ lại chỉ có tỷ lệ pass 4%? Những benchmark kiểu này xem ra gần như vô dụng
Còn có cả chuyện phân tán, nên tôi không hiểu vì sao chỉ vì vài bài test tăng điểm mà lại khiến bạn tin là mình đã được truy cập vào một mô hình vốn được nói là bạn không có quyền truy cập
https://labs.scale.com/leaderboard/rli
Nhân một thread đang hot nên hỏi ké: hiện tại giới hạn sử dụng của Codex và Claude là thế nào?
Trước đây tôi từng giao cùng một tác vụ cho cả hai, và Codex dùng ít hơn giới hạn 5 giờ của tôi khoảng 20 lần. Khi đó cả hai đều là gói $20/tháng
Vốn dĩ tôi thích Claude hơn nên khá khó chịu, nhưng hồi đó vì giới hạn nên không thể dùng cho công việc nghiêm túc
Kể từ đó, cả hai nhà cung cấp đều đã cắt giảm mạnh lượng sử dụng cho phép, và ít nhất một bên còn bị kiện vì việc đó
Hiện tôi không còn đăng ký bên nào và đang cân nhắc lựa chọn. GPT có vẻ nhỉnh hơn Opus một chút, và trước đây cũng cho hạn mức cao hơn nhiều, nên tôi đang nghiêng về phía đăng ký OpenAI. Chỉ là tôi muốn biết tình hình hiện tại có còn đúng với ký ức từ 2~3 tháng trước hay không. Vì cả hai công ty đều trông như đang rất quyết liệt cắt giảm chi phí
Tôi ưu tiên câu trả lời từ người đã dùng cả hai, nhưng giai thoại cá nhân cũng rất hoan nghênh
Nếu muốn thì bạn gần như có thể chạy xhigh và sub-agent liên tục suốt cả thời gian thức. Nếu bật tuỳ chọn tốc độ 1.5x thì thỉnh thoảng sẽ chạm giới hạn 5 giờ
Tôi thích vibe của Claude hơn 5.5, nhưng 5.5 có vẻ đỡ lười hơn rất nhiều. Tất nhiên điều này còn phụ thuộc lớn vào tác vụ và chiến lược prompt
Nếu dùng 5.5 high hoặc Opus 4.8 high thì thành thật mà nói mức độ khá tương đương nhau
Có vẻ họ đã bỏ quota Sonnet riêng trong gói Max, có thể là để chuẩn bị cho Sonnet 5. Điều đó làm tôi thấy tiếc, vì nhờ vậy workflow với sub-agent từng cho cảm giác gần như không giới hạn
Họ nói rằng “chúng tôi cũng giới thiệu chế độ
ultramới tận dụng các sub-agent để tăng tốc những tác vụ phức tạp vượt quá năng lực của một agent đơn lẻ”, nhưng tôi tò mò không biết nó hoạt động như thế nàoSub-agent cũng có thể dùng cùng các công cụ đó không? Liệu phía client có bị ngập trong các lệnh gọi công cụ không? Có thể làm cùng việc đó ở phía client với quyền kiểm soát nhiều hơn, vậy tại sao lại thu thêm tiền cho một “mô hình” mới?
Và nếu là cả một đội quân sub-agent thì tôi cũng thắc mắc vì sao lại so với Fable và Mythos. Nếu gắn bộ harness tương tự thì có lẽ các mô hình đó cũng sẽ cho benchmark tốt hơn
Về bản chất, đây là cấu trúc trong đó script mang tính quyết định do luồng mô hình chính viết ra sẽ gọi nhiều sub-agent, mỗi cái ngốn rất nhiều token, rồi một agent điều phối sẽ tổng hợp đầu ra
Nếu chỉ thị rõ ràng thì chắc chắn là dùng, và ít nhất với pi tôi từng thấy nó khởi chạy ngay cả khi không có chỉ thị tường minh
Cũng như thời Mythos, tôi hoàn toàn không hào hứng với những mô hình mà tôi không thể dùng được
“Đúng vậy, bọn tôi có mô hình tốt nhất hiện có. Cứ tin đi. Nó thật sự đáng sợ.”
“À, vậy à? Tôi có thể xem được không?”
“Biến đi. Bọn tôi sẽ đưa cho đám dân thường như các người một phiên bản tệ hơn.”
“Ừm, cảm ơn?”
“haha thật ra cũng không phải thế. Chính quyền hiện tại đã mắc bẫy chiến dịch marketing dựa trên nỗi sợ của bọn tôi rồi. Bọn tôi sẽ đưa cho các người một cỗ máy đốt token còn tệ hơn và đắt cắt cổ. Giới hạn phần cứng thì mỗi tuần lại khắc nghiệt hơn”
Dù có nói gì về OpenAI đi nữa, chiến lược doanh nghiệp của họ vẫn có vẻ vững vàng hơn nhiều
Câu “Terra cho hiệu năng cạnh tranh với GPT‑5.5 và rẻ hơn 2 lần” đối với tôi nghe như “đó là một sản phẩm kém hơn nhưng đang cố che điều đó bằng marketing”
Và những câu kiểu “stack an toàn vững chắc nhất từ trước đến nay, tăng cường bảo vệ trước hoạt động rủi ro cao, yêu cầu an ninh mạng nhạy cảm và lạm dụng lặp lại, được tăng cường qua nhiều tuần rà tìm điểm yếu, stress test và chuẩn bị trước tấn công thực chiến” cùng lắm là vô giá trị với tôi, và phần lớn còn có khả năng gây hại. Vì nó sẽ làm tăng từ chối hoặc làm suy giảm tính hữu dụng
Tại sao các nhà cung cấp cứ tiếp tục đặt stack an toàn lên hàng đầu? Có khách hàng nào thật sự đòi hỏi thứ đó không? Ngoài người dùng chatbot ChatGPT cho hỗ trợ ra thì tôi không nghĩ ra ai cả