- Anthropic đã phát hành các mô hình thế hệ thứ 5 cho các tác vụ bất đồng bộ dài hạn kéo dài nhiều ngày. Fable 5 là phiên bản cấp Mythos đã được làm an toàn để dùng cho người dùng phổ thông, còn Mythos 5 là phiên bản của cùng mô hình đó với một phần cơ chế an toàn được nới lỏng
- Cấp Mythos là tầng mô hình mới nằm trên cấp Opus. Mô hình đầu tiên, Mythos Preview, đã được giới thiệu vào tháng 4 dưới tên Project Glasswing, và hôm nay Fable 5 cùng Mythos 5 tiếp nối sau đó
- Nguồn gốc tên gọi: Fable đến từ tiếng Latin fabula ("điều được kể lại") và là từ cùng gốc với tiếng Hy Lạp mythos. Điểm phân biệt hai mô hình chính là các cơ chế an toàn, vì vậy chúng được đặt tên khác nhau
- Giá là 10 USD cho mỗi 1 triệu token đầu vào và 50 USD cho đầu ra, thấp hơn một nửa so với Mythos Preview. Tên mô hình API là
claude-fable-5
Hiệu năng
- Thông điệp cốt lõi là tác vụ càng dài và phức tạp thì lợi thế càng lớn
- Lập trình: trong bài kiểm thử trước của Stripe, mô hình đã thực hiện toàn bộ quá trình migration cho codebase Ruby 50 triệu dòng chỉ trong một ngày (nếu đội ngũ làm thủ công thì mất hơn hai tháng). Nó tự viết test và dùng vision để đối chiếu, xác minh kết quả với thiết kế gốc. Trong đánh giá FrontierCode của Cognition, mô hình đạt điểm cao nhất trong nhóm frontier model ngay cả ở mức medium effort
- Agent: có thể vận hành tự chủ trong nhiều ngày ở các môi trường như Claude Code, bao gồm lập kế hoạch, ủy quyền cho sub-agent và tự kiểm chứng
- Vision: tái dựng mã nguồn web app chỉ từ ảnh chụp màn hình, hoàn thành Pokémon FireRed chỉ với harness tối thiểu dành riêng cho vision (các mô hình trước cần harness hỗ trợ phức tạp)
- Bộ nhớ: trong Slay the Spire, khi được cung cấp bộ nhớ bền vững dựa trên tệp, hiệu năng tăng gấp 3 lần so với Opus 4.8, và tần suất vào được màn cuối cũng tăng gấp 3
- Công việc tri thức: đạt điểm cao nhất trong số mọi mô hình trên benchmark tài chính của Hebbia, và vượt qua bài đánh giá phân tích giao dịch của IMC ở gần như mọi hạng mục
Benchmark
- Tuyên bố dẫn đầu trên nhiều mảng gồm lập trình, công việc tri thức, vision và sử dụng máy tính với các chỉ số như SWE-Bench Pro 80.3% (Opus 4.8 là 69.2%, GPT 5.5 là 58.6%), GDPval-AA 1932, OSWorld 85.0%
- Lưu ý: một số con số trong bảng là giá trị cao hơn giữa Mythos 5 và Fable 5, và các mục có dấu sao (sinh học, an ninh mạng, v.v.) có chú thích rằng do fallback an toàn nên hiệu năng gần với Opus 4.8
Thành tựu khoa học của Mythos 5
- Tăng tốc quy trình thiết kế protein khoảng 10 lần, tìm được ứng viên triển vọng ở 9 trên 14 mục tiêu. Mô hình tự thực hiện từ chọn vị trí gắn kết, chạy công cụ đến khôi phục sau thất bại mà không cần hỗ trợ của con người
- Trong so sánh mù, các nhà khoa học ưu tiên các giả thuyết sinh học phân tử của mô hình khoảng 80% số lần. Một giả thuyết (về cơ chế mới của một protein ở E. coli) đã được một phòng thí nghiệm độc lập đang nghiên cứu cùng vấn đề xác nhận
- Với hơn 1 tuần làm việc tự chủ, mô hình đã thu thập dữ liệu hàng triệu tế bào từ 138 loài động vật để thiết kế và huấn luyện mô hình ML tùy chỉnh, vượt qua mô hình mới nhất đăng trên Science dù nhỏ hơn 100 lần
- Đánh giá alignment: báo cáo cho biết mức hành vi lệch chuẩn của Mythos 5 thấp và tương tự Opus 4.8
Cơ chế an toàn
- Có ba lĩnh vực bị bộ phân loại chặn: an ninh mạng, sinh học và hóa học, distillation (cố gắng trích xuất năng lực để huấn luyện mô hình cạnh tranh của các quốc gia độc tài). Các yêu cầu này sẽ tự động được chuyển sang Opus 4.8 và người dùng sẽ được thông báo (nếu chuyển hướng thì không tính phí Fable)
- Hơn 95% phiên không có fallback, và cơ chế an toàn chỉ kích hoạt ở dưới 5% số phiên trung bình. Tuy vậy, công ty thừa nhận đã tinh chỉnh cơ chế này theo hướng bảo thủ nên đôi khi cả yêu cầu vô hại cũng bị chặn, và có kế hoạch tiếp tục giảm false positive
- Trong hơn 1.000 giờ bug bounty bên ngoài, chưa tìm thấy universal jailbreak. Tuy nhiên, UK AISI đã đạt tiến triển khá gần trong thử nghiệm ban đầu ngắn hạn. Trong một bài kiểm thử với đối tác bên ngoài, mô hình không trả lời bất kỳ yêu cầu đơn lượt độc hại nào liên quan đến tấn công mạng, ngay cả khi dùng 30 kỹ thuật jailbreak công khai
- Trong bài đánh giá thiết kế AAV (vector truyền liệu pháp gen), cấp Mythos đã vượt qua các protein language model chuyên dụng chỉ bằng suy luận sinh học. Điều này được đưa ra như bằng chứng về rủi ro sử dụng kép
- Bắt buộc lưu giữ dữ liệu 30 ngày cho mục đích giám sát an toàn khi sử dụng. Áp dụng cho toàn bộ lưu lượng 1st party và 3rd party, không dùng cho huấn luyện mô hình hay mục đích ngoài an toàn, có ghi log việc con người truy cập và sẽ xóa sau 30 ngày
Giá và phát hành
- Có trên gói Enterprise (tính phí theo mức sử dụng), Claude Platform, AWS, GCP và Microsoft Foundry
- Các gói thuê bao sẽ được triển khai dần: từ 9/6 đến 22/6, được bao gồm miễn phí trong Pro, Max, Team và Enterprise dạng tính theo ghế. Từ 23/6 sẽ bị gỡ bỏ và cần usage credit. Khi đủ năng lực hạ tầng, công ty dự định khôi phục lại như cấu hình mặc định. API và Enterprise tính theo mức sử dụng có thể dùng đầy đủ ngay từ hôm nay
- Mythos 5 từ hôm nay cho phép người dùng Mythos Preview hiện tại (như các đối tác Glasswing) nâng cấp. Trong đa số trường hợp, nó tương đương hoặc nhỉnh hơn nhẹ so với Preview nhưng chi phí rẻ hơn đáng kể. Công ty tuyên bố đây là năng lực an ninh mạng mạnh nhất thế giới
- Cũng sẽ mở riêng chương trình trusted access cho sinh học (chỉ gỡ cơ chế an toàn sinh học và hóa học trên Fable 5, vẫn giữ cơ chế an toàn an ninh mạng)
14 bình luận
Ngay cả khi nhờ nó tăng cường bảo mật cho chính dự án của mình thì cái cơ chế an toàn chết tiệt đó cũng chặn lại.
Cảm giác là việc tung ra trong tình trạng này chẳng qua chỉ là màn phô diễn công nghệ phục vụ niêm yết cổ phiếu mà thôi
Gói 5x mà chỉ chạy review code một lần là nó quay suốt 40 phút rồi ăn hết luôn hạn mức 5 giờ;;;; Không phải mọi lần review code đều tốn đến mức này, và đúng là nó cũng tìm ra khá nhiều điểm cần cải thiện, nhưng mà...
Nói hơi mỉa mai một chút thì, nếu opus hay gpt cũng làm việc “chăm chỉ” đến mức này thì chắc chênh lệch kết quả cũng không nhiều đâu. Trong một số lĩnh vực, việc làm việc kiểu này suốt 40 phút có thể lại là một lợi thế cực lớn
Nghe nói từ hôm nay đã có thể dùng trong Cursor, nên tôi định tìm xem đánh giá thế nào, nhưng hiện vẫn chưa có nhiều thông tin.
Nghe nói điểm đánh giá hiệu năng còn cao hơn Opus, nên chắc phải thử mới biết.
Tôi lo không biết nó sẽ ngốn bao nhiêu token.
Hôm qua tôi thử rồi, đúng là token bị tiêu hao khá nhanh. Có vẻ chất lượng code đã tốt hơn, và còn xử lý luôn cả review lẫn vấn đề bảo mật trong một lần.
Tôi muốn dùng thử, nhưng dù có trả phí cho Claude
từ sau ngày 23 tháng 6 cũng sẽ bị loại khỏi hạn mức sử dụng của gói đăng ký, nên không mấy muốn đụng vào...
Công nhận..
Trong lúc trao đổi về liên kết đó, khi nhắc đến trường hợp Fable từ chối giải bài Sinh học 1 của kỳ thi CSAT, nó lại bảo chủ đề hội thoại nguy hiểm rồi ép chuyển sang Opus 4.8. Tôi đang nghiêm túc cân nhắc hạ gói cước.
Tôi cũng đang phân vân không biết có nên chuyển từ claude sang codex không,
chưa rõ nữa. Trước mắt cứ dùng thử đã
Trước hết, vì có ghi là token bị tiêu hao nhanh gấp 2 lần so với Opus nên tôi đã thử dùng, nhưng cảm nhận thực tế thì không rõ lắm... Ngoài ra, tùy theo tác vụ, đôi khi hệ thống sẽ tự động chuyển sang mô hình Opus vì những lý do như sau. (https://support.claude.com/en/articles/15363606)
Thực sự có thể cảm nhận rõ mức tiêu hao token. Việc chuyển đổi có vẻ là tự động chuyển khi bị đánh giá là vấn đề bảo mật nhạy cảm, nhưng hiện tại ngưỡng đó vẫn có vẻ quá cao.
Đang dùng codex, thử qua cho biết rồi chốt luôn gói 200 đô ngay.
Có những ưu điểm nào?
Theo cảm nhận của tôi thì chất lượng công việc ở mức khá ổn trong khi lượng token sử dụng lại ít. Gói Claude 200 USD thì vẫn thiếu, còn Codex 200 USD thì lại dư.
Tôi đã bảo codex sửa lỗi nhưng cuối cùng vẫn chưa được sửa, dù tôi đã giải thích vấn đề khá kỹ.
Tôi giao luôn cùng một vấn đề đó + cả các cải tiến nâng cao trong một prompt, và nó xử lý rất gọn gàng.