OpenMythos: Xuất hiện bản triển khai mã nguồn mở được reverse-engineer từ Claude Mythos
(github.com/kyegomez)- Dự án mã nguồn mở được hiện thực dưới dạng “transformer suy nghĩ lặp lại”, dựa trên giả định về kiến trúc của Claude Mythos
- OpenMythos tái tạo kiến trúc của Claude Mythos, được cho là mô hình thế hệ tiếp theo của Anthropic, bằng cách kết hợp thông tin công khai và các ý tưởng nghiên cứu
- Đây không phải mô hình thực tế, mà là một dự án hiện thực hóa bằng mã nguồn giả thuyết rằng “nó có thể hoạt động theo cách này”
Ý tưởng cốt lõi
Điểm cốt lõi của dự án này là, khác với các LLM hiện có,
thay vì làm mô hình lớn hơn, nó chạy lặp lại cùng một kiến trúc nhiều lần.
Bằng cách chạy một layer nhiều lần và cập nhật dần trạng thái bên trong,
nó thực hiện suy luận sâu hơn trong quá trình đó.
Kiến trúc chính
- Cấu trúc chạy lặp lại cùng một khối transformer
- Trong quá trình lặp, các chuyên gia khác nhau (MoE) được kích hoạt có chọn lọc
- Kết quả trung gian không được xuất ra dưới dạng token bên ngoài mà được xử lý trong trạng thái nội bộ
- Áp dụng kiến trúc attention để cải thiện hiệu quả bộ nhớ
Khác biệt so với cách làm hiện tại
Nếu LLM thông thường bộc lộ quá trình suy luận trong lúc tạo token,
thì kiến trúc này gần với cách lặp lại tính toán nhiều lần bên trong rồi chỉ xuất ra kết quả cuối cùng.
Nói cách khác, thay vì “vừa nói vừa nghĩ”,
nó hướng tới “nghĩ đủ kỹ trong đầu rồi mới nói”.
Ý nghĩa
Cách tiếp cận này cũng liên quan đến vấn đề chi phí do lượng token sử dụng tăng lên.
Vì khi xử lý suy luận bằng các vòng lặp nội bộ, số token được tạo ra bên ngoài có thể giảm xuống.
Ngoài ra, đây cũng có thể được xem là một xu hướng mới ở chỗ nó nâng hiệu năng mô hình không phải bằng cách tăng số lượng tham số,
mà bằng cách tăng lượng tính toán ở giai đoạn suy luận.
Giới hạn
Không có gì đảm bảo rằng nó giống hệt kiến trúc Claude Mythos thực tế,
và hiện vẫn còn thiếu các kết quả hiệu năng đã được kiểm chứng hoặc các thí nghiệm quy mô lớn.
Insight một dòng
- Thay vì tiếp tục mở rộng mô hình, hướng thiết kế LLM thế hệ tiếp theo có thể là chạy lặp lại cùng một mô hình để nó suy nghĩ sâu hơn.
7 bình luận
> Không có gì đảm bảo rằng nó có cấu trúc giống hệt Claude Mythos thực tế,
Vậy thì hoàn toàn đâu phải là reverse engineering;;
Sẽ rất tốt nếu GeekNews có nút downvote
Đây không phải là mô hình thực tế, mà là một dự án hiện thực hóa bằng mã giả thuyết rằng “nó có thể hoạt động theo cách này”..
Sao không làm luôn GPT-6 rồi bảo là nó có thể hoạt động theo kiểu này nhỉ~ haha
Thậm chí còn chưa từng được công bố, vậy thì làm sao có thể đảo ngược để phân tích được chứ...??
Có vẻ như cứ hễ có gì đang thành chủ đề là người này lại lần nào cũng sản xuất hàng loạt theo kiểu đặt tên
open*, nên cảm nhận về họ không được tốt lắm..Biết ngay là ai làm, đến khi thấy là người đứng đầu một dự án coin thì chỉ biết gật gù..
À đúng thật. Nhìn danh sách repo thì thấy còn thêm vài dự án nữa bắt đầu bằng Open..