Tự động kiểm chứng chất lượng blog bằng pipeline review song song Gemini + Claude
(blog.neocode24.com)Giao việc rà soát blog cho 5 AI thì đúng là chúng đã bắt được lỗi thật.
Sau khi viết xong, phần khó nhất luôn là tự biên tập lại. Mỗi lần tôi đều phải mất rất nhiều thời gian để đọc theo từng dòng và sửa bản nháp do AI tạo ra.
Vì vậy tôi đã thử xây một pipeline để cho AI tự kiểm tra AI.
** Cấu trúc được thiết kế đơn giản **
- 2 Gemini, 2 Claude, và 1 phiên hiện tại — tổng cộng 5 Critic được chạy đồng thời bằng Bash
& - Mỗi Critic đọc với một persona khác nhau: "lập trình viên senior lần đầu nhìn thấy", "người đã từng dùng công nghệ này", "biên tập viên", "độc giả sẽ làm theo", "người phụ trách SEO"
- Nhận điểm dưới dạng JSON, nếu điểm trung bình vượt 8 thì cho qua, nếu không thì phản ánh feedback rồi đánh giá lại
** Cụ thể là đã bắt được gì **
Ở vòng đầu, điểm trung bình là 7.6. "Critic độc giả sẽ làm theo" chấm 3 điểm vì không có ví dụ mã, đây là chỗ mà nếu tôi tự đọc thì có lẽ đã bỏ qua. Sau khi thêm 3 code block và đổi phần troubleshooting liệt kê sang dạng tường thuật, bài đã qua ở vòng 2 với 8.4 điểm.
** Khi chạy thử, tôi thấy rõ các lỗ hổng cấu trúc **
Khi feedback giữa các Critic xung đột, hệ thống tự phán đoán rồi bỏ qua mà không có quyết định rõ ràng. Nếu điểm trung bình cao thì cả các trường hợp rớt nặng vẫn có thể qua. Nếu parse thất bại thì toàn bộ quy trình dừng lại.
Vì vậy, tôi đã bổ sung một Synthesis mediator, áp dụng thiết lập Veto và điều kiện trượt, đồng thời xử lý bằng parser fallback.
** Ở bước cuối, phát hành được đổi từ push sang PR **
Với Human-In-The-Loop, dù AI đã đồng thuận thì vẫn bắt buộc phải có mắt người xem qua. Trong PR body sẽ có bảng điểm của các Critic, và nếu tôi để lại line comment thì AI sẽ thêm commit chỉnh sửa. Vòng lặp này tiếp tục cho đến trước khi merge.
Vâng, cuối cùng thì chính bài viết này cũng được phát hành bằng cùng pipeline đó.
3 bình luận
Lý thuyết internet chết...
Chi phí cho Apiece có lẽ sẽ không hề rẻ.
Có đăng ký nên cũng không đến mức quá gánh nặng, nhưng có lẽ không thể xem nhẹ được.