HRPO-X v1.0.1 - Bản triển khai framework tối ưu hóa suy luận lai

flamehaven01 · 2026-01-08T00:22:24+09:00

TL;DR HRPO là kỹ thuật suy luận dựa trên học tăng cường, kết hợp suy luận latent + token suy luận discrete Bản thân công thức trong bài báo khá đơn giản, nhưng khi triển khai thực tế thì bất ổn, dao động, thất bại phân tán xuất hiện ngay HRPO-X là bản triển khai độc lập, tập trung vào xử lý các chế độ lỗi trong vận hành hơn là bám sát tuyệt đối bài báo Lý do tạo ra dự án Các nghiên cứu suy luận LLM hiện có phụ thuộc quá nhiều vào Chain-of-Thought được xuất ra Trong môi trường dịch vụ thực tế: Không cần phải lộ ra quá trình suy luận Thậm chí có trường hợp việc lộ ra còn trở thành rủi ro HRPO: Duy trì latent reasoning làm mặc định Chỉ dùng discrete reasoning token khi cần Vấn đề: Cách triển khai trong bài báo chỉ giả định điều kiện lý tưởng Ở giai đoạn đầu huấn luyện, trong môi trường phân tán, hoặc khi chuyển tác vụ, hệ thống rất dễ sụp đổ “Triển khai đúng nguyên bài báo” sẽ ngay lập tức dẫn đến trạng thái không thể vận hành. Tóm tắt nội dung cốt lõi của bài báo HRPO 1. Định nghĩa bài toán Suy luận được tái định nghĩa không phải là “tạo token đầu ra” Mà là hành động do policy lựa chọn 2. Cấu trúc Hybrid Reasoning Ở mỗi vị trí token: nhánh latent (hidden state) nhánh discrete (explicit token) Việc pha trộn được quyết định bằng xác suất gating 3. Phương thức huấn luyện Tối ưu policy dựa trên REINFORCE Ngăn policy collapse bằng KL divergence Progressive incorporation: Giai đoạn đầu: ưu tiên hành động dựa trên embedding Giai đoạn sau: tăng tỷ trọng suy luận hidden-state Những gì thực sự có trong HRPO-X 1. Ổn định hóa cold-start Loại bỏ lịch epsilon cố định Áp dụng adaptive epsilon dựa trên trạng thái huấn luyện Ngăn policy collapse ở giai đoạn đầu 2. Giảm dao động r_min Xử lý vấn đề dao động của tham số tỷ lệ latent/discrete Dùng cơ chế làm mượt dựa trên momentum thay vì chỉ clamp đơn giản 3. Ghost-mode Validation Giải quyết vấn đề độ tin cậy của validation với số ít mẫu Ước lượng phân phối thất bại dựa trên bootstrap Đánh giá có đủ độ tin cậy thống kê hay không thay vì chỉ “trông có vẻ tốt” 4. Ứng phó phân vùng trong môi trường phân tán Network partition Sai lệch tham số giữa các worker Replay buffer drift 5. Thích ứng với task-shift Xử lý vấn đề hyperparameter cố định khi phân phối tác vụ thay đổi Áp dụng task-aware r_min blending Những gì có trong repository Bản triển khai core tối thiểu của HRPO Module vá ổn định Mã kiểm thử dựa trên pytest Script demo chạy đơn Tài liệu kiến trúc và thiết kế Ai sẽ cần nó Các nhà nghiên cứu quan tâm đến latent reasoning / suy luận không lộ CoT Kỹ sư ML đang khám phá kiến trúc sau RLHF / PPO Lập trình viên muốn kiểm chứng ý tưởng trong bài báo bằng mã có thể chạy trực tiếp Kỹ sư làm việc với môi trường huấn luyện RL phân tán Những ai muốn thấy sự khác biệt giữa “triển khai theo bài báo” và “triển khai có thể vận hành” Liên kết GitHub (HRPO-X): https://github.com/flamehaven01/HRPO-X Bài báo HRPO (arXiv): https://arxiv.org/abs/2505.18454 Bản triển khai của tác giả gốc: https://github.com/Yueeeeeeee/HRPO Nếu công việc này có thể trở thành một tài liệu tham khảo nhỏ cho ai đó thì như vậy là đủ ❤️ Sẽ hữu ích nếu bạn xem nó cùng với pipeline RLHF / PPO hiện có để so sánh Nếu bạn có quan sát trong quá trình tái hiện, các trường hợp thất bại hoặc ý tưởng cải thiện, hãy để lại trong GitHub Issues, điều đó sẽ là nguồn động viên rất lớn 💪

(github.com/flamehaven01)

1 điểm bởi flamehaven01 2026-01-08 | 2 bình luận | Chia sẻ qua WhatsApp

TL;DR

HRPO là kỹ thuật suy luận dựa trên học tăng cường, kết hợp suy luận latent + token suy luận discrete
Bản thân công thức trong bài báo khá đơn giản, nhưng khi triển khai thực tế thì bất ổn, dao động, thất bại phân tán xuất hiện ngay
HRPO-X là bản triển khai độc lập, tập trung vào xử lý các chế độ lỗi trong vận hành hơn là bám sát tuyệt đối bài báo

Lý do tạo ra dự án

Các nghiên cứu suy luận LLM hiện có phụ thuộc quá nhiều vào Chain-of-Thought được xuất ra
Trong môi trường dịch vụ thực tế:
- Không cần phải lộ ra quá trình suy luận
- Thậm chí có trường hợp việc lộ ra còn trở thành rủi ro
HRPO:
- Duy trì latent reasoning làm mặc định
- Chỉ dùng discrete reasoning token khi cần
Vấn đề:
- Cách triển khai trong bài báo chỉ giả định điều kiện lý tưởng
- Ở giai đoạn đầu huấn luyện, trong môi trường phân tán, hoặc khi chuyển tác vụ, hệ thống rất dễ sụp đổ
- “Triển khai đúng nguyên bài báo” sẽ ngay lập tức dẫn đến trạng thái không thể vận hành.

Tóm tắt nội dung cốt lõi của bài báo HRPO

1. Định nghĩa bài toán

Suy luận được tái định nghĩa không phải là “tạo token đầu ra”
Mà là hành động do policy lựa chọn

2. Cấu trúc Hybrid Reasoning

Ở mỗi vị trí token:
- nhánh latent (hidden state)
- nhánh discrete (explicit token)
Việc pha trộn được quyết định bằng xác suất gating

3. Phương thức huấn luyện

Tối ưu policy dựa trên REINFORCE
Ngăn policy collapse bằng KL divergence
Progressive incorporation:
- Giai đoạn đầu: ưu tiên hành động dựa trên embedding
- Giai đoạn sau: tăng tỷ trọng suy luận hidden-state

Những gì thực sự có trong HRPO-X

1. Ổn định hóa cold-start

Loại bỏ lịch epsilon cố định
Áp dụng adaptive epsilon dựa trên trạng thái huấn luyện
Ngăn policy collapse ở giai đoạn đầu

2. Giảm dao động r_min

Xử lý vấn đề dao động của tham số tỷ lệ latent/discrete
Dùng cơ chế làm mượt dựa trên momentum thay vì chỉ clamp đơn giản

3. Ghost-mode Validation

Giải quyết vấn đề độ tin cậy của validation với số ít mẫu
Ước lượng phân phối thất bại dựa trên bootstrap
Đánh giá có đủ độ tin cậy thống kê hay không thay vì chỉ “trông có vẻ tốt”

4. Ứng phó phân vùng trong môi trường phân tán

Network partition
Sai lệch tham số giữa các worker
Replay buffer drift

5. Thích ứng với task-shift

Xử lý vấn đề hyperparameter cố định khi phân phối tác vụ thay đổi
Áp dụng task-aware r_min blending

Những gì có trong repository

Bản triển khai core tối thiểu của HRPO
Module vá ổn định
Mã kiểm thử dựa trên pytest
Script demo chạy đơn
Tài liệu kiến trúc và thiết kế

Ai sẽ cần nó

Các nhà nghiên cứu quan tâm đến latent reasoning / suy luận không lộ CoT
Kỹ sư ML đang khám phá kiến trúc sau RLHF / PPO
Lập trình viên muốn kiểm chứng ý tưởng trong bài báo bằng mã có thể chạy trực tiếp
Kỹ sư làm việc với môi trường huấn luyện RL phân tán
Những ai muốn thấy sự khác biệt giữa “triển khai theo bài báo” và “triển khai có thể vận hành”

Liên kết

GitHub (HRPO-X):
https://github.com/flamehaven01/HRPO-X
Bài báo HRPO (arXiv):
https://arxiv.org/abs/2505.18454
Bản triển khai của tác giả gốc:
https://github.com/Yueeeeeeee/HRPO

Nếu công việc này có thể trở thành một tài liệu tham khảo nhỏ cho ai đó thì như vậy là đủ ❤️
Sẽ hữu ích nếu bạn xem nó cùng với pipeline RLHF / PPO hiện có để so sánh
Nếu bạn có quan sát trong quá trình tái hiện, các trường hợp thất bại hoặc ý tưởng cải thiện, hãy để lại trong GitHub Issues, điều đó sẽ là nguồn động viên rất lớn 💪

2 bình luận

nordica 2026-01-08

Vào xem thử với chút hy vọng nhưng đúng như dự đoán luôn haha repo AI slop được tạo ra từ một đống ảo giác

flamehaven01 2026-01-08

Cảm ơn bạn vì phản hồi thẳng thắn.
Sau khi kiểm tra, đúng như bạn đã nói, repository đó thực sự là một “repo AI Slop” phụ thuộc rất nhiều vào hiện tượng ảo giác của AI.

Nó có các vấn đề như tuyên bố mà không có triển khai, tài liệu và thuật ngữ được tô vẽ quá mức, cấu trúc bị phình to quá đà so với thuật toán,
và hiện tại tôi đã hoàn tất việc loại bỏ tài liệu phóng đại cùng các thuật ngữ mang tính marketing, dọn dẹp phần mã rỗng,
đồng thời mạnh tay xóa bỏ những cấu trúc không hoạt động.

Chỉ là một bình luận ngắn một dòng, nhưng với tôi đó là sự giúp đỡ vô cùng lớn.

Thực ra, tôi đang nghiên cứu và phát triển kiến trúc chuyển đổi bài báo khoa học thành “mã có thể đưa vào production”,
và trường hợp lần này là một thất bại bộc lộ ra trong quá trình đó.

Thông qua góp ý của bạn,
tôi đã nhận thức rõ ràng về sự cần thiết của một logic nhằm định nghĩa và kiểm chứng AI slop theo cách có cấu trúc,
và hiện tôi đang tiếp tục làm việc theo hướng đó.

Thay vì khẳng định nỗ lực này là hoàn hảo,
tôi hy vọng đây sẽ trở thành một quá trình kiểm chứng xem có thể loại bỏ và phát hiện sự dư thừa, phô trương như thế nào,
và liệu có thể hiện thực hóa AI thành mã theo hướng thực tế hơn hay không.

Dù chỉ là một ý kiến ngắn gọn trong một dòng, tôi vẫn chân thành cảm ơn,
và xin một lần nữa gửi lời cảm ơn sâu sắc vì bạn đã dành thời gian quý báu.