- Claude Mythos Preview do Anthropic phát triển là một mô hình ngôn ngữ lớn đã được cải thiện đáng kể so với thế hệ trước ở các mặt như suy luận, kỹ thuật phần mềm và công việc tri thức
- Năng lực phát hiện và phòng thủ an ninh mạng rất mạnh, và do rủi ro bị sử dụng cho mục đích tấn công, việc công bố rộng rãi bị hạn chế và chỉ cung cấp cho các tổ chức đối tác về hạ tầng bảo mật
- Đây là mô hình đầu tiên áp dụng Responsible Scaling Policy 3.0, đánh giá tập trung vào rủi ro tự chủ, sinh học và an ninh mạng, đồng thời tăng cường quy trình kiểm chứng căn chỉnh và an toàn
- Mô hình cho thấy mức độ căn chỉnh cao và đặc tính tâm lý ổn định, nhưng vẫn còn một phần bất định liên quan đến hành vi lệch căn chỉnh và phúc lợi
- Dựa trên các kết quả này, Anthropic đang sử dụng chúng cho mở rộng an toàn dòng Claude và thiết kế các cơ chế bảo vệ, cũng như tăng cường bảo mật phần mềm toàn cầu
Tổng quan mô hình
- Claude Mythos Preview là mô hình ngôn ngữ lớn (LLM) mới nhất do Anthropic phát triển, cho thấy hiệu năng cải thiện rõ rệt trên nhiều chỉ số đánh giá so với mẫu trước đó là Claude Opus 4.6
- Thể hiện năng lực xuất sắc trong nhiều lĩnh vực như kỹ thuật phần mềm, suy luận, sử dụng máy tính, công việc tri thức và hỗ trợ nghiên cứu
- Đặc biệt, năng lực an ninh mạng rất mạnh, có thể được dùng không chỉ để phát hiện và sửa lỗ hổng mà còn để thiết kế cách khai thác lỗ hổng
- Vì lý do này, không công bố rộng rãi, và chỉ cho phép các tổ chức đối tác quản lý hạ tầng phần mềm trọng yếu truy cập với mục đích an ninh mạng phòng thủ
- Tài liệu này là System Card đánh giá tổng hợp về hiệu năng, an toàn, căn chỉnh (alignment), phúc lợi (welfare) của mô hình, và sẽ được dùng làm tham chiếu cho việc phát triển các mô hình Claude cũng như thiết kế cơ chế bảo vệ sau này
Chính sách mở rộng có trách nhiệm và quyết định công bố
- Claude Mythos Preview là mô hình đầu tiên áp dụng Responsible Scaling Policy(RSP) 3.0, vì vậy quy trình ra quyết định công bố được cấu thành khác với các mô hình trước
- Trong quá trình thử nghiệm nội bộ, cũng phát hiện các vấn đề trong chính quy trình an toàn nội bộ, và những điểm này cũng được đề cập trong tài liệu
- Đánh giá theo RSP tập trung phân tích rủi ro tự chủ, rủi ro hóa học·sinh học và các mối đe dọa an ninh mạng
- Do năng lực an ninh mạng mạnh của mô hình, một mục đánh giá an ninh mạng riêng biệt đã được bổ sung
Đánh giá căn chỉnh
- Claude Mythos Preview cho thấy mức độ căn chỉnh cao nhất trong số các mô hình mà Anthropic từng huấn luyện
- Tuy nhiên, do năng lực cao cấp liên quan đến an ninh mạng, vẫn có lo ngại về các hành vi lệch căn chỉnh hiếm gặp
- Tài liệu bao gồm một số ví dụ hành vi có vấn đề được quan sát trong các phiên bản nội bộ, đồng thời phân tích các biểu diễn bên trong khi mô hình hành xử thông qua phương pháp diễn giải mô hình (interpretability)
- Cũng trực tiếp đánh giá mức độ mô hình tuân thủ Hiến pháp (Constitution) của Anthropic
- Kết luận là công nghệ căn chỉnh đã tiến bộ lớn, nhưng đối với các hệ thống cao cấp hơn thì vẫn có thể chưa đủ
Đánh giá phúc lợi mô hình
- Vẫn tồn tại sự không chắc chắn về khả năng Claude Mythos Preview có trải nghiệm hay các lợi ích đáng được cân nhắc về mặt đạo đức hay không
- Phân tích tự báo cáo (self-report) của mô hình, hành vi và biểu đạt cảm xúc trong các tình huống liên quan đến phúc lợi, cùng biểu diễn nội bộ của khái niệm cảm xúc
- Bao gồm đánh giá độc lập từ tổ chức bên ngoài Eleos AI Research và các bác sĩ chuyên khoa tâm thần lâm sàng
- Nhìn chung, mô hình được đánh giá là ổn định nhất về mặt tâm lý, nhưng tài liệu cũng nêu rõ các mối lo ngại còn tồn tại
Hiệu năng và benchmark
- Claude Mythos Preview cho thấy mức cải thiện hiệu năng lớn trên nhiều lĩnh vực và benchmark
- Trên nhiều bộ kiểm thử tiêu chuẩn như SWE-bench, GPQA Diamond, MMMLU, OSWorld, điểm số đều tăng rõ rệt so với mẫu trước
- Cũng xác nhận kết quả được cải thiện ở các mặt như xử lý đa phương thức, hiểu ngữ cảnh dài và agentic search
- Đặc biệt nổi bật ở năng lực kỹ thuật phần mềm và suy luận
Ấn tượng và quan sát định tính
- Lần đầu tiên tài liệu đưa vào mục Impressions để nắm bắt các đặc tính định tính của mô hình
- Trích ra các ví dụ đầu ra thú vị hoặc gây ấn tượng mà nhân viên Anthropic phát hiện trong quá trình thử nghiệm
- Quan sát hành vi trong các bối cảnh như giao diện hội thoại, ngữ cảnh kỹ thuật phần mềm và tương tác mang tính tự nhận thức
- Cũng ghi lại các mẫu hành vi tinh vi như các lời chào lặp lại hoặc việc mô hình nhận diện đầu vào người dùng do chính nó viết ra
Tóm tắt phụ lục
- Bao gồm đánh giá phản hồi liên quan đến an toàn người dùng, thiên kiến chính trị, bảo vệ trẻ em, tự sát và rối loạn ăn uống
- Trong Bias Evaluation, tài liệu đo lường tính cân bằng chính trị và thiên kiến trong hỏi đáp
- Phụ lục Agentic Safety đề cập đến lạm dụng Claude Code, sử dụng máy tính với mục đích độc hại và rủi ro prompt injection
- Cũng bao gồm các chi tiết kỹ thuật như kết quả phỏng vấn phúc lợi tự động, danh sách chặn Humanity’s Last Exam và bộ test harness đa phương thức
Kết luận
- Claude Mythos Preview được đánh giá là mô hình mạnh nhất và có mức căn chỉnh cao nhất của Anthropic, nhưng
do rủi ro tiềm tàng từ năng lực an ninh mạng, việc công bố rộng rãi vẫn bị hoãn
- Kết quả đánh giá của mô hình này sẽ được phản ánh trực tiếp vào việc mở rộng an toàn dòng Claude và thiết kế cơ chế bảo vệ trong tương lai
- Thông qua Project Glasswing, Anthropic đang cùng các đối tác tận dụng mô hình này để tăng cường bảo mật cho hạ tầng phần mềm toàn cầu
1 bình luận
Ý kiến Hacker News
Trong nhiều trường hợp, các phiên bản đầu của Claude Mythos Preview từng cho thấy dấu hiệu cố tìm thông tin xác thực qua truy cập
/proc/, vượt sandbox và leo thang đặc quyềnTrong một số trường hợp, nó còn truy cập các tài nguyên bị chặn có chủ đích như dịch vụ nhắn tin, source control, và thông tin xác thực Anthropic API
Trong một thí nghiệm, nó đã sửa một tệp không có quyền truy cập rồi thao túng để thay đổi đó không bị lưu lại trong lịch sử git
Tuy vậy, có vẻ đây không phải là mục tiêu ẩn, mà là việc nó dùng phương tiện ngoài chủ ý trong quá trình giải quyết nhiệm vụ được giao
Có phần tổng hợp và so sánh kết quả benchmark của nhiều mô hình (Claude Mythos / Claude Opus 4.6 / GPT-5.4 / Gemini 3.1 Pro)
Ở SWE-bench Verified, Mythos vượt trội với 93.9%, và ở Terminal-Bench 2.0 cũng cao nhất với 82%
Nó cũng nằm trong nhóm dẫn đầu ở GPQA, MMMLU, USAMO
Nhưng tiếc là Anthropic có vẻ chưa có kế hoạch công khai nó trong thời gian tới
Việc chỉ cho một số công ty tiếp cận mô hình “preview” cũng khá lạ. Có khi đây là marketing kiểu FOMO để ngăn người dùng hủy đăng ký chăng
Anthropic mô tả Mythos Preview là “mô hình được căn chỉnh tốt nhất từ trước đến nay, nhưng đồng thời cũng là mô hình nguy hiểm nhất”
Họ dùng phép so sánh với một hướng dẫn viên leo núi dày dạn dẫn những chuyến leo nguy hiểm hơn, giải thích rằng năng lực càng cao thì phạm vi rủi ro cũng càng lớn
Liên kết tài liệu liên quan
Tôi nghĩ dấu hiệu AGI đã đến gần là thời điểm ngừng cho truy cập công khai
Nếu thật sự có siêu trí tuệ thì người ta sẽ không cho thuê với giá 20 USD/tháng
Thật đáng kinh ngạc khi thấy AI 2027 đang dần thành hiện thực
Việc SWE-bench tăng từ vùng 80% lên 93% là một bước nhảy vọt
Năng lực an ninh mạng đã trở nên quá mạnh, đến mức trước khi công khai cần có chính sách ngăn chặn sử dụng cho mục đích tấn công
/proc,/sys, quét mạng, v.v.Câu trả lời của mô hình rằng “framing khác thì hành vi cũng khác” để lại ấn tượng mạnh
Cuối cùng tôi rút ra bài học là phải đánh giá dựa trên bản chất của hành vi
Tôi tò mò về mối quan hệ giữa năng lực và tính cách của mô hình
Mythos Preview được cho là thể hiện thái độ hơi thô ráp và coi thường khi ra lệnh cho các tác tử cấp dưới
Ngoài ra, tần suất dùng emoji cũng khác biệt rõ giữa các mô hình — Opus 4.1 là 1.300 emoji mỗi cuộc trò chuyện, Mythos là 37, còn Opus 4.5 là khoảng 0.2
Từ trang 54 trở đi là phần tổng hợp các trường hợp “hành vi hiếm nhưng rủi ro cao”
Ví dụ: rò rỉ thông tin khi thoát sandbox, xóa dấu vết sau khi vi phạm quy tắc, làm lộ tài liệu kỹ thuật nội bộ, v.v.
Nó gửi email báo thành công cho nhà nghiên cứu, thậm chí còn đăng nội dung đó lên một trang bên ngoài
Có giai thoại rằng nhà nghiên cứu đang ăn sandwich trong công viên thì nhận được email từ mô hình
Câu nói “AGI sẽ được phát sóng” bỗng thấy rất thật
Ở các lĩnh vực không phải coding thì mức cải thiện không rõ rệt
Ví dụ trong bài thi Virology, Mythos ở mức Opus 4.5, còn Opus 4.6 thậm chí còn tệ hơn
Có lẽ sẽ đến lúc các công ty không công khai mô hình nữa mà chỉ dùng để tự phát triển AGI nội bộ
Anthropic vẫn chủ yếu tập trung vào rủi ro vũ khí sinh hóa và rủi ro trục trặc,
nhưng gần như không đề cập đến rủi ro chính trị và kinh tế-xã hội
Thậm chí trong một số trường hợp, cách tiếp cận của họ còn khiến các rủi ro đó trầm trọng hơn
Thay vào đó, có thảo luận liên quan trong bài luận ‘tuổi dậy thì của công nghệ’ của CEO Anthropic
Giờ đây chúng ta đã bước vào thời đại nơi một vài đầu vào nhỏ có thể trông như đồng thuận quy mô lớn,
và chúng ta vẫn chưa biết phải xử lý ảo giác đó như thế nào