SongRyeon Core - Thử nghiệm runtime tác tử cục bộ tách biệt giữa lời nói do LLM viết và thông tin đã được mã xác minh
(github.com/Junghoo-developer)Xin chào. Tôi là Junghoo, hiện đang trực tiếp thử nghiệm runtime tác tử AI trong quá trình học lập trình.
SongRyeon Core là một thử nghiệm nhỏ theo hướng local-first (agent runtime), xử lý tách biệt giữa “nhận định do LLM nói ra” và “sự thật đã được mã thực sự xác nhận”.
Gần đây, khi xây dựng các tác tử dựa trên LLM, tôi cảm thấy những vấn đề sau xuất hiện khá thường xuyên.
- Nội dung LLM suy đoán lại được hiển thị như thể là sự thật của hệ thống
- Fallback hoặc heuristic do mã tạo ra bị trộn lẫn như thể là phán đoán của LLM
- Số lượng tài liệu đã đọc, hay việc thực thi nào thực sự đã diễn ra, lại được hiển thị khác nhau ở từng màn hình
- Câu trả lời cuối cùng không khớp với trạng thái runtime nội bộ
Vì vậy trong dự án này, thông tin được chia lớn thành ba loại để xử lý.
- Thông tin tuyệt đối: các giá trị có thể xác nhận bằng code/trace/schema/tool result
- Thông tin tương đối: phán đoán của LLM tương ứng với một thông tin tuyệt đối
- Thông tin hỗn hợp: phán đoán của LLM dựa trên nhiều source bundle
Hiện tại đây vẫn chỉ là một bản thử nghiệm nhỏ, nhưng tôi đang thử nghiệm cấu trúc như sau.
- node_0 memory supplier
- node_1 router
- L loop
- node_3 reporter
- node_4 verifier
- kiểm chứng hồi quy dựa trên smoke-test
- kiểm tra tính trung thực của runtime terminal/final renderer
Mục tiêu không phải là một “bản demo hào nhoáng”, mà là tạo ra một runtime nhỏ cho tác tử AI cố gắng không che giấu tối đa việc nó đã nói điều gì dựa trên căn cứ nào.
Tôi vẫn đang trong quá trình học lập trình nên còn nhiều phần khá thô sơ.
Nếu có thể góp ý về cấu trúc, README, kiểm thử, định nghĩa thuật ngữ và thiết kế agent runtime thì tôi sẽ thực sự rất biết ơn.
1 bình luận
Xin bổ sung thêm.
Hiện tại SongRyeon Core là một thử nghiệm runtime tập trung vào CLI cục bộ / smoke-test hơn là dưới dạng dịch vụ web.
Những gì có thể kiểm tra ngay là cách chạy trong README và:
Đặc biệt, những phần tôi muốn nhận phản hồi là như sau.
Đây vẫn là dự án đang trong quá trình học hỏi nên còn nhiều điểm thô. Rất mong mọi người cứ thoải mái góp ý/chỉ ra vấn đề.