HRPO-X v1.0.1 - Bản triển khai framework tối ưu hóa suy luận lai
(github.com/flamehaven01)TL;DR
- HRPO là kỹ thuật suy luận dựa trên học tăng cường, kết hợp suy luận latent + token suy luận discrete
- Bản thân công thức trong bài báo khá đơn giản, nhưng khi triển khai thực tế thì bất ổn, dao động, thất bại phân tán xuất hiện ngay
- HRPO-X là bản triển khai độc lập, tập trung vào xử lý các chế độ lỗi trong vận hành hơn là bám sát tuyệt đối bài báo
Lý do tạo ra dự án
- Các nghiên cứu suy luận LLM hiện có phụ thuộc quá nhiều vào Chain-of-Thought được xuất ra
- Trong môi trường dịch vụ thực tế:
- Không cần phải lộ ra quá trình suy luận
- Thậm chí có trường hợp việc lộ ra còn trở thành rủi ro
- HRPO:
- Duy trì latent reasoning làm mặc định
- Chỉ dùng discrete reasoning token khi cần
- Vấn đề:
- Cách triển khai trong bài báo chỉ giả định điều kiện lý tưởng
- Ở giai đoạn đầu huấn luyện, trong môi trường phân tán, hoặc khi chuyển tác vụ, hệ thống rất dễ sụp đổ
- “Triển khai đúng nguyên bài báo” sẽ ngay lập tức dẫn đến trạng thái không thể vận hành.
Tóm tắt nội dung cốt lõi của bài báo HRPO
1. Định nghĩa bài toán
- Suy luận được tái định nghĩa không phải là “tạo token đầu ra”
- Mà là hành động do policy lựa chọn
2. Cấu trúc Hybrid Reasoning
- Ở mỗi vị trí token:
- nhánh latent (hidden state)
- nhánh discrete (explicit token)
- Việc pha trộn được quyết định bằng xác suất gating
3. Phương thức huấn luyện
- Tối ưu policy dựa trên REINFORCE
- Ngăn policy collapse bằng KL divergence
- Progressive incorporation:
- Giai đoạn đầu: ưu tiên hành động dựa trên embedding
- Giai đoạn sau: tăng tỷ trọng suy luận hidden-state
Những gì thực sự có trong HRPO-X
1. Ổn định hóa cold-start
- Loại bỏ lịch epsilon cố định
- Áp dụng adaptive epsilon dựa trên trạng thái huấn luyện
- Ngăn policy collapse ở giai đoạn đầu
2. Giảm dao động r_min
- Xử lý vấn đề dao động của tham số tỷ lệ latent/discrete
- Dùng cơ chế làm mượt dựa trên momentum thay vì chỉ clamp đơn giản
3. Ghost-mode Validation
- Giải quyết vấn đề độ tin cậy của validation với số ít mẫu
- Ước lượng phân phối thất bại dựa trên bootstrap
- Đánh giá có đủ độ tin cậy thống kê hay không thay vì chỉ “trông có vẻ tốt”
4. Ứng phó phân vùng trong môi trường phân tán
- Network partition
- Sai lệch tham số giữa các worker
- Replay buffer drift
5. Thích ứng với task-shift
- Xử lý vấn đề hyperparameter cố định khi phân phối tác vụ thay đổi
- Áp dụng task-aware r_min blending
Những gì có trong repository
- Bản triển khai core tối thiểu của HRPO
- Module vá ổn định
- Mã kiểm thử dựa trên pytest
- Script demo chạy đơn
- Tài liệu kiến trúc và thiết kế
Ai sẽ cần nó
- Các nhà nghiên cứu quan tâm đến latent reasoning / suy luận không lộ CoT
- Kỹ sư ML đang khám phá kiến trúc sau RLHF / PPO
- Lập trình viên muốn kiểm chứng ý tưởng trong bài báo bằng mã có thể chạy trực tiếp
- Kỹ sư làm việc với môi trường huấn luyện RL phân tán
- Những ai muốn thấy sự khác biệt giữa “triển khai theo bài báo” và “triển khai có thể vận hành”
Liên kết
-
GitHub (HRPO-X):
https://github.com/flamehaven01/HRPO-X -
Bài báo HRPO (arXiv):
https://arxiv.org/abs/2505.18454 -
Bản triển khai của tác giả gốc:
https://github.com/Yueeeeeeee/HRPO
- Nếu công việc này có thể trở thành một tài liệu tham khảo nhỏ cho ai đó thì như vậy là đủ ❤️
- Sẽ hữu ích nếu bạn xem nó cùng với pipeline RLHF / PPO hiện có để so sánh
- Nếu bạn có quan sát trong quá trình tái hiện, các trường hợp thất bại hoặc ý tưởng cải thiện, hãy để lại trong GitHub Issues, điều đó sẽ là nguồn động viên rất lớn 💪
2 bình luận
Vào xem thử với chút hy vọng nhưng đúng như dự đoán luôn haha repo AI slop được tạo ra từ một đống ảo giác
Cảm ơn bạn vì phản hồi thẳng thắn.
Sau khi kiểm tra, đúng như bạn đã nói, repository đó thực sự là một “repo AI Slop” phụ thuộc rất nhiều vào hiện tượng ảo giác của AI.
Nó có các vấn đề như tuyên bố mà không có triển khai, tài liệu và thuật ngữ được tô vẽ quá mức, cấu trúc bị phình to quá đà so với thuật toán,
và hiện tại tôi đã hoàn tất việc loại bỏ tài liệu phóng đại cùng các thuật ngữ mang tính marketing, dọn dẹp phần mã rỗng,
đồng thời mạnh tay xóa bỏ những cấu trúc không hoạt động.
Chỉ là một bình luận ngắn một dòng, nhưng với tôi đó là sự giúp đỡ vô cùng lớn.
Thực ra, tôi đang nghiên cứu và phát triển kiến trúc chuyển đổi bài báo khoa học thành “mã có thể đưa vào production”,
và trường hợp lần này là một thất bại bộc lộ ra trong quá trình đó.
Thông qua góp ý của bạn,
tôi đã nhận thức rõ ràng về sự cần thiết của một logic nhằm định nghĩa và kiểm chứng AI slop theo cách có cấu trúc,
và hiện tôi đang tiếp tục làm việc theo hướng đó.
Thay vì khẳng định nỗ lực này là hoàn hảo,
tôi hy vọng đây sẽ trở thành một quá trình kiểm chứng xem có thể loại bỏ và phát hiện sự dư thừa, phô trương như thế nào,
và liệu có thể hiện thực hóa AI thành mã theo hướng thực tế hơn hay không.
Dù chỉ là một ý kiến ngắn gọn trong một dòng, tôi vẫn chân thành cảm ơn,
và xin một lần nữa gửi lời cảm ơn sâu sắc vì bạn đã dành thời gian quý báu.