OpenMythos: giả thuyết kiến trúc Claude Mythos được phục dựng từ nghiên cứu công khai, hay chỉ là một làn sóng hype AI khác
(flamehaven.space)Tổng quan
- OpenMythos được giới thiệu như một thí nghiệm kiến trúc mang tính lý thuyết nhằm tái dựng một cấu trúc tương tự Claude Mythos dựa trên nghiên cứu công khai
- Bài viết không xem bản thân OpenMythos chỉ là “slop” đơn thuần
- Thay vào đó, lấy OpenMythos làm ví dụ để bàn về cấu trúc trong cộng đồng AI, nơi README, tóm tắt do AI tạo, sự lan truyền trên YouTube/Reddit và sao GitHub tạo ra niềm tin công khai trước cả khi có kiểm chứng
- Bài viết gọi hiện tượng này là “sheepwave”
- Ở đây, sheepwave không có nghĩa là ngu dốt hay tò mò đơn giản, mà là hiện tượng một câu chuyện vừa có vẻ hợp lý về mặt kỹ thuật vừa hấp dẫn về mặt cảm xúc bị đông cứng thành niềm tin tập thể trước khi được kiểm chứng
- Luận điểm cốt lõi không phải là “OpenMythos không thú vị”, mà là vấn đề nằm ở cách một artifact nghiên cứu thú vị lại bị tiêu thụ như thể đó là một đột phá kiến trúc đã được xác thực
OpenMythos là gì
- OpenMythos không phải là mô hình sao chép trực tiếp hay bị rò rỉ từ Claude Mythos của Anthropic
- Nhà phát triển nói rằng OpenMythos không phải là một bản tái hiện đã được kiểm chứng của Claude Mythos, mà là một thí nghiệm kiến trúc lý thuyết được ghép từ các dòng nghiên cứu công khai.
- Lý do OpenMythos thu hút chú ý là vì cái tên Claude Mythos vốn đã mang sẵn sự bí ẩn
- Toàn bộ kiến trúc của Claude Mythos chưa được công bố, nên cộng đồng nảy sinh câu hỏi “bên trong có gì?”
- OpenMythos đưa ra một hình thái lấp vào khoảng trống đó dưới dạng “nó có thể có cấu trúc như thế này”
- Trên mạng, câu “đã phục dựng Claude Mythos” lan nhanh hơn nhiều so với “một thí nghiệm kiến trúc suy đoán về độ sâu lặp dựa trên nghiên cứu công khai”
Vì sao OpenMythos nhanh chóng thu hút chú ý
- OpenMythos đồng thời chạm vào nhiều kỳ vọng mà cộng đồng AI vốn đã muốn tin
- Kỳ vọng về hiệu quả tham số
- Câu chuyện rằng một mô hình độ sâu lặp nhỏ hơn có thể đạt chất lượng tương đương Transformer độ sâu cố định lớn hơn là một thông điệp rất mạnh
- Câu chuyện “không cần lớn hơn mà có thể sâu hơn” đặc biệt hấp dẫn với cộng đồng đã mệt mỏi với chi phí GPU và cấu trúc xoay quanh các frontier lab
- Kiến trúc dạng vòng lặp
- Tính toán lặp tạo cảm giác trực quan như thể mô hình đang “suy nghĩ”
- Nhưng tính toán lặp thông qua trọng số chia sẻ không đồng nghĩa với năng lực suy luận thực sự hay hành vi thích ứng
- Kỳ vọng về phần cứng cá nhân/nhỏ gọn
- Khi cấu trúc độ sâu lặp kết hợp với nén cache theo kiểu MLA, người ta kỳ vọng mô hình nhỏ cũng có thể cho cảm giác như mô hình lớn hơn
- Tuy vậy, trên thực tế vẫn còn các vấn đề kỹ thuật như chi phí xử lý nhánh, hành vi bộ nhớ, độ ổn định huấn luyện, hiệu quả kernel, độ chính xác của dependency và throughput
- Chính cái tên Claude Mythos
- Trong bối cảnh Anthropic chưa công bố toàn bộ cấu trúc, OpenMythos cung cấp đúng “hình hài” mà cộng đồng mong muốn
- Việc các từ khóa kiến trúc AI thời thượng như MoE, MLA, LTI, ACT, cấu trúc độ sâu lặp cùng xuất hiện trong một repository
- Vì vậy, khó có thể dễ dàng gạt OpenMythos đi như một màn quá nhiệt rỗng tuếch
- Chính vì có ý tưởng thật nên cơn quá nhiệt thậm chí có thể còn mạnh hơn
Sheepwave vận hành như thế nào
- Bài viết mô tả phản ứng quanh OpenMythos qua ba giai đoạn
- Giai đoạn niềm tin
- Mọi người nhìn thấy các tín hiệu như Claude Mythos, mã nguồn mở, cấu trúc độ sâu lặp, hiệu quả tham số rồi phản ứng trước hết với khả năng mà nó gợi ra
- Ở thời điểm này, “khả năng có vẻ hợp lý” được tiêu thụ trước cả việc tái hiện đường huấn luyện thực tế hay khả năng tái tạo hiệu năng
- Giai đoạn khuếch đại
- YouTube, Reddit, newsletter, bài đăng mạng xã hội và các bản tóm tắt AI liên tục lặp lại phiên bản mạnh nhất của câu chuyện
- Ở giai đoạn này, không cần tái hiện benchmark hay xác minh đường huấn luyện
- Điều quan trọng là “một câu chuyện dễ lan truyền”
- Giai đoạn nghi ngờ ở cấp mã nguồn
-
Các nhà phân tích mã nguồn clone repository, kiểm tra script huấn luyện, đường đi của router, logic ACT, xử lý nhánh MoE và cấu hình ngữ cảnh lớn
-
Nhưng giai đoạn này thường đến muộn
-
Cấu trúc này là một vấn đề bất đối xứng thông tin
- Một câu như “mô hình 770M đạt hiệu năng cỡ 1.3B” lan đi rất nhanh
- Trong khi đó, các câu hỏi như “tuyên bố hiệu quả đó có thực sự được tái hiện trong repository này hay không, xử lý nhánh MoE có chịu nổi ở quy mô lớn không, hay bias của router có thực sự được cập nhật trong script huấn luyện không” lại đòi hỏi một bài review mã dài
-
Một câu có thể thành bài đăng, còn câu kia cần một cuộc review
-
Vì vậy, trong ký ức đại chúng, tuyên bố đơn giản sẽ còn lại, còn kết quả audit dễ trở thành chú thích đến muộn
Vì sao sheepwave lần này khác biệt
-
Cơn quá nhiệt lần này có sự can dự của AI assistant
-
Khi đưa một liên kết GitHub cho AI, AI có thể đọc README, cấu trúc tệp, thuật ngữ kiến trúc và các tham chiếu có vẻ hợp lý rồi tạo ra một bản tóm tắt rất thuyết phục
-
Điều này hữu ích, nhưng không phải là kiểm chứng
-
AI assistant trong môi trường chat thông thường không làm được những việc sau
- tái hiện huấn luyện đa GPU
- tái hiện đường cong benchmark
- quan sát xem cân bằng router có được duy trì trong huấn luyện dài hạn hay không
- đo throughput của MoE
- kiểm tra khởi tạo và hành vi bộ nhớ của cấu hình ngữ cảnh lớn
-
Vì vậy, phản ứng kiểu “AI cũng bị sốc” có thể chỉ là phản ứng với README và cấu trúc bề mặt của repository, chứ không phải kiểm chứng mã nguồn thực sự
-
Phân biệt cốt lõi của bài viết là như sau
- có trường hợp AI trầm trồ trước mã nguồn
- cũng có trường hợp AI trầm trồ trước README
- hai điều đó không giống nhau
-
Cơn quá nhiệt lần này không phải về “agent biết hành động”, mà là về “một kiến trúc trông như đang suy nghĩ”
-
Loại hype kiến trúc như vậy thường không sụp đổ vì một màn demo thất bại ngoạn mục, mà lộ điểm yếu ở những chỗ âm thầm hơn như đường huấn luyện, tái hiện benchmark, hàm mất mát, trạng thái tích hợp và đường thực thi
Kết quả audit ở cấp mã nguồn
-
Bài viết cũng đưa ra kết quả audit ở cấp mã nguồn đối với OpenMythos
-
Cuộc audit này đối chiếu phần triển khai mô hình, script huấn luyện, cấu hình biến thể mô hình, tokenizer, test, tệp dependency và các tuyên bố trong README với các đường mã thực tế
-
Kết quả audit đánh giá OpenMythos không phải là dạng quá nhiệt rỗng tuếch (Empty slop)
-
Quả thực có những thành phần đã được triển khai
- tồn tại cấu trúc Prelude + Recurrent Block + Coda
- cơ chế ổn định lặp theo kiểu LTI được xem là một trong những thành phần triển khai mạnh nhất
- nén cache theo kiểu MLA gắn với bài toán xử lý ngữ cảnh dài
- cũng có logic dừng theo kiểu ACT
- cấu trúc độ sâu lặp có thể được đưa vào các thảo luận về mở rộng, phân bổ tính toán, lặp, bộ nhớ và định tuyến
-
Tuy nhiên, nó vẫn còn cách khá xa mức độ sẵn sàng vận hành mà câu chuyện đại chúng đã ngầm gợi ra
Những khác biệt chính được xác nhận qua audit
-
Tuyên bố hiệu quả 770M vs 1.3B
- đây không phải là kết quả được tái hiện trong repository, mà gần hơn với một tuyên bố hoặc trích dẫn từ bên ngoài
- vì vậy, hợp lý hơn khi xem đó là “trích dẫn chứ không phải kết quả”
-
Định tuyến MoE
- logic định tuyến có tồn tại, nhưng có xử lý nhánh Python lồng nhau nên cần xem đây là rủi ro đối với throughput ở quy mô lớn
- điều này không có nghĩa là “chắc chắn bất khả thi”, mà là một rủi ro cần profiling thực tế
-
Cân bằng router
- cơ chế bias của router có được phơi bày, nhưng không thấy đường cập nhật tường minh trong script huấn luyện được phát hành
- ở huấn luyện dài hạn, rủi ro mất cân bằng tải có thể tăng lên
-
Logic dừng ACT
- có tồn tại logic dừng theo kiểu ACT
- tuy nhiên, đường huấn luyện được phát hành không bao gồm ponder loss hay hạng mục regularization cho lượng tính toán một cách tường minh
- đầu dừng có thể nhận gradient gián tiếp thông qua loss của language model, nhưng không có objective trực tiếp để khuyến khích dừng thích ứng hiệu quả
-
Module MoDA
- tồn tại dưới dạng tệp thí nghiệm riêng biệt, nhưng khó xem là đã được tích hợp vào mô hình chính
-
Biến thể mô hình lớn
- các cấu hình 100B+ hoặc ngữ cảnh 1M gần hơn với cấu hình mang tính định hướng mục tiêu hơn là cấu hình sẵn sàng sử dụng thực tế, do cấu trúc tạo ngay các bộ đệm RoPE
Vấn đề của nhãn nghiên cứu
- OpenMythos có thể được xem là một bản tái dựng lý thuyết hoặc một research artifact, chứ không phải mô hình vận hành
- Bản thân nhãn này là chính đáng
- Các dự án nghiên cứu có thể bao gồm đường huấn luyện chưa hoàn chỉnh, cấu trúc thử nghiệm và tích hợp còn dang dở
- Vấn đề là nhãn nghiên cứu và cơn quá nhiệt đại chúng đang vận hành bằng hai ngôn ngữ khác nhau
Khác biệt giữa nhãn nghiên cứu và cơn quá nhiệt đại chúng
-
Nhãn nghiên cứu: “đây là một thí nghiệm lý thuyết”
- Cơn quá nhiệt đại chúng: “nó sẽ thay đổi tương lai của AI”
-
Nhãn nghiên cứu: “đây là một bản tái dựng dựa trên nghiên cứu công khai và suy đoán”
- Cơn quá nhiệt đại chúng: “ai đó đã tái hiện Claude Mythos”
-
Nhãn nghiên cứu: “đây là một kiến trúc để khám phá”
- Cơn quá nhiệt đại chúng: “mô hình nhỏ giờ có thể suy nghĩ như mô hình lớn”
-
Bài viết mô tả khác biệt này bằng câu: “dự án nói bằng ngôn ngữ của nghiên cứu, nhưng phản ứng của công chúng lại dịch nó sang ngôn ngữ của đích đến”
Ba lớp để đánh giá repository AI
- Bài viết cho rằng khi đánh giá một repository AI mã nguồn mở, cần tách ba lớp riêng biệt
- Tường thuật (Narrative)
- những gì README, bài giải thích và bài đăng mạng xã hội nói
- Cơ chế (Mechanism)
- cấu trúc mà mã nguồn thực sự triển khai
- Đường vận hành (Operational path)
-
những năng lực mà đường huấn luyện, đường thực thi và đường đánh giá thực sự hỗ trợ
-
Phần lớn các cơn hype AI gộp ba lớp này thành một
-
Một quy trình thẩm định kỹ thuật tốt sẽ tách ba lớp này ra
Kết luận
- OpenMythos không phải là thứ nên bị phớt lờ hoặc chế giễu
- OpenMythos là một research artifact hữu ích, thú vị và có hàm ý kỹ thuật đáng chú ý
- Nhưng đó chưa phải bằng chứng rằng chỉ riêng kiến trúc đã đánh bại các giới hạn về quy mô
- README là điểm khởi đầu, không phải điểm kết của kiểm chứng
- Kết luận của bài viết có thể tóm lại bằng câu: “README không phải bờ bến. Đường mã mới là bờ bến.”
- Bài liên quan bao gồm toàn bộ phân tích sheepwave và một báo cáo audit cấp mã nguồn riêng cho OpenMythos v0.5.0
https://flamehaven.space/writing/…
Chưa có bình luận nào.