Tencent Hunyuan-T1 - mô hình siêu lớn đầu tiên dựa trên kiến trúc Mamba

(llm.hunyuan.tencent.com)

2 điểm bởi GN⁺ 2025-03-23 | 1 bình luận | Chia sẻ qua WhatsApp

Hunyuan-T1 là mô hình MoE Hybrid-Transformer-Mamba siêu lớn dựa trên TurboS
Mở rộng năng lực suy luận và cải thiện hiệu năng để phù hợp với sở thích của con người thông qua huấn luyện hậu kỳ quy mô lớn
Với khả năng xử lý văn bản dài của TurboS, giải quyết vấn đề mất ngữ cảnh và phụ thuộc thông tin tầm xa
Kiến trúc Mamba tối ưu hóa xử lý chuỗi dài, cho phép nắm bắt thông tin văn bản dài bằng phương thức tính toán hiệu quả
- Trong cùng điều kiện triển khai, tốc độ giải mã tăng gấp 2 lần
Ở giai đoạn hậu huấn luyện của mô hình, 96,7% tổng năng lực tính toán được dành cho học tăng cường
- Thu thập tập dữ liệu bao gồm nhiều loại bài toán như toán học, suy luận logic, khoa học, mã nguồn... để tăng cường năng lực suy luận của mô hình
- Tăng cường hiệu năng mô hình thông qua phản hồi đáp án đúng và phản hồi người dùng theo thời gian thực
- Áp dụng phương pháp học theo giáo trình
  - Tăng dần độ khó dữ liệu và mở rộng độ dài ngữ cảnh của mô hình
  - Tăng cường khả năng sử dụng token hiệu quả
Chiến lược học tăng cường: áp dụng chiến lược tái học dữ liệu và đặt lại chính sách → cải thiện độ ổn định huấn luyện hơn 50%
Hệ thống phần thưởng
- Áp dụng cơ chế tự thưởng → mô hình tự đánh giá và chấm điểm đầu ra của chính mình
- Áp dụng hệ thống phần thưởng toàn diện → tăng cường hiệu quả thông tin và độ chi tiết nội dung của mô hình

Đánh giá hiệu năng benchmark

Đạt hiệu năng xuất sắc trên các chỉ số suy luận tiếng Trung và tiếng Anh như MMLU-pro, CEval, AIME, Zebra Logic
Hiệu năng ngang với hoặc nhỉnh hơn một chút so với DeepSeek R1
- Chiếm ưu thế ở sáng tạo văn hóa, tóm tắt văn bản, năng lực tác tử
Đạt 87,2 điểm trong bài đánh giá MMLU-PRO → chứng minh khả năng ghi nhớ và hiểu biết xuất sắc ở 14 lĩnh vực như nhân văn, khoa học xã hội, khoa học công nghệ
Ghi 69,3 điểm trong bài đánh giá GPQA-diamond → xác nhận năng lực giải bài toán vật lý, hóa học, sinh học ở cấp độ tiến sĩ
Chứng minh hiệu năng mạnh mẽ ở mã nguồn, toán học, suy luận logic
- Đạt 64,9 điểm trên LiveCodeBench → xác nhận khả năng viết và hiểu mã
- MATH-500 đạt 96,2 điểm → chứng minh năng lực giải toán tiệm cận DeepSeek R1
Đạt 91,9 điểm trên ArenaHard → cho thấy khả năng thích ứng mạnh mẽ trong nhiều tác vụ căn chỉnh, làm theo chỉ thị và sử dụng công cụ

1 bình luận

GN⁺ 2025-03-23

Ý kiến trên Hacker News

Hiệu năng vượt trội của mô hình này hoàn toàn chứng minh rằng học tăng cường đóng vai trò quan trọng trong quá trình tối ưu hóa
- Nếu việc học tăng cường này chỉ là thao túng benchmark chứ không mang lại câu trả lời tốt hơn ở nơi khác, thì câu hỏi đặt ra là chúng ta sẽ nhận ra điều đó bằng cách nào
Sau khi dùng thử mô hình này một chút, có vẻ nó có xu hướng trả lời câu hỏi tiếng Anh bằng tiếng Trung
Mô hình lớn của họ là 389b tham số, nên tôi tò mò không biết mô hình siêu lớn thì lớn đến mức nào
Dạo này có quá nhiều mô hình mới xuất hiện và lĩnh vực AI tiến bộ quá nhanh, nên rất khó để theo kịp
- Thật sự khó chắc điều gì mới là đột phá hoặc quan trọng
Thật thú vị khi thấy mô hình dựa trên Mamba hoạt động tốt
Cách La-tinh hóa các tên kiểu này lúc nào cũng gây bối rối
- Khi bỏ đi chữ viết và thanh điệu, nó chỉ còn là một chuỗi ký tự không mang nhiều ý nghĩa
- Hunyuan, hay 混元 trong tiếng Trung, có nghĩa là "hỗn mang nguyên thủy" hoặc "sự hợp nhất nguyên sơ"
- Điều này giúp dễ ghi nhớ hơn khi ngày càng có nhiều sản phẩm và dịch vụ Trung Quốc ra mắt thị trường
- Nó cũng tương tự như mức độ phổ biến của thần thoại Hy Lạp trong các sản phẩm phương Tây (ví dụ: mọi sản phẩm đều có tên "Apollo")
Tôi tự hỏi liệu việc họ kết nối với bản demo trên Huggingface có ngụ ý rằng họ sẽ công bố weights hay không
Kobe?

Tencent Hunyuan-T1 - mô hình siêu lớn đầu tiên dựa trên kiến trúc Mamba

Đánh giá hiệu năng benchmark

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News