aipack: Trình tạo Parquet phân đoạn ngữ nghĩa trung lập dựa trên BGE-M3 + máy chủ MCP
(github.com/rkttu)Phát hành phiên bản đầu tiên của framework aipack, thực hiện phân đoạn ngữ nghĩa bằng BGE-M3, MarkItDown và bộ phân tích cấu trúc Markdown, rồi lưu kết quả vào tệp Parquet. Dự án được thiết kế để hiện thực hóa RAG dựa trên định dạng tệp có thể tái sử dụng bất cứ lúc nào bằng cách duy trì trạng thái trung lập, không phụ thuộc vào mô hình hay cơ sở dữ liệu, đồng thời có thể vận hành cả máy chủ MCP.
Định hướng của aipack là hiện thực hóa RAG không phụ thuộc vào NPU hay GPU, đồng thời tạo ra một môi trường dễ mở rộng sang nhiều cấu trúc RAG khác nhau trong tương lai. Dưới tiền đề rằng “nếu có thể tạo ra các tệp Parquet chất lượng cao thì có thể làm được mọi thứ”, đây là một dự án thử nghiệm nhằm tách rời (decoupling) pipeline RAG thường được sử dụng trong ngành.
Đây là phần hiện thực hóa một ý tưởng tôi vẫn thường suy nghĩ tới nên còn nhiều chỗ vụng về, nhưng nếu nhận được nhiều phản hồi và ý kiến, tôi sẽ dựa trên đó để tiếp tục xây dựng thành một dự án tốt hơn!
Chưa có bình luận nào.