4 điểm bởi devworld 2026-01-07 | 3 bình luận | Chia sẻ qua WhatsApp

Xin chào, đây là bài báo arXiv đầu tiên của tôi từ một nghiên cứu độc lập ở bậc trung học phổ thông.

Paper | Code

Ý tưởng cốt lõi:
Vì việc LLM dùng cùng một lượng tính toán cho đầu vào dễ và đầu vào khó là không hiệu quả, nên tôi dùng reconstruction loss của lớp TTT làm tín hiệu để quyết định UPDATE/SKIP.
Không cần huấn luyện bổ sung, chỉ với threshold + EMA đã đạt 82-89% hiệu năng so với Oracle.

Được triển khai bằng JAX/Flax, và hiện đang xác minh scale-up với Gemma 3.

Rất mong nhận được phản hồi!

3 bình luận

 
jhk0530 2026-01-07

Bạn đang học cấp 3 mà đã thật ấn tượng rồi. Bạn đã giải quyết vấn đề người bảo lãnh như thế nào?

 
devworld 2026-01-07

Tôi đã rất chăm chỉ gửi email lạnh cho các tiến sĩ và giáo sư ở nước ngoài đang thực hiện nghiên cứu trước đó, và đã nhận được!

 
jhk0530 2026-01-07

À, đúng là một câu trả lời sáng suốt cho một câu hỏi ngây ngô.