Hệ thống ghi âm cuộc họp và tìm kiếm Decision Wiki chạy cục bộ
(github.com/notadev-iamaura)Tôi đã thử làm một công cụ mã nguồn mở có thể ghi âm cuộc họp bằng tiếng Hàn trên máy cục bộ, rồi chép lời, tóm tắt, sắp xếp thành Decision Wiki và tìm kiếm (chat AI).
Tôi nghĩ nó có thể hữu ích cho những người như tôi, những người vì môi trường công việc nên không thể dùng AI bên ngoài hoặc các dịch vụ ghi âm/chép lời cuộc họp.
Vào những ngày có hơn 10 cuộc họp một ngày, chỉ riêng việc kiểm tra biên bản và action item từ các cuộc họp cũng đã đồng nghĩa với việc tăng ca đang chờ phía trước.
Vấn đề không chỉ là để lại biên bản cuộc họp, mà là lưu nó theo cách có thể tìm lại được về sau.
Vì vậy, thay vì chỉ chép lời cuộc họp đơn thuần, tôi đang xây dựng nó với mục tiêu là một Decision Wiki cục bộ, nơi tích lũy các quyết định và action item được đưa ra trong cuộc họp cùng với bằng chứng từ nguyên văn.
- Để có thể chạy được cả ở mức M4 16GB....
Hiện tại, hệ thống hướng tới luồng xử lý như sau.
- Chạy cục bộ trên Apple Silicon Mac
- Ghi âm/chép lời cuộc họp tiếng Hàn
- Phân tách người nói
- Hiệu đính/tóm tắt dựa trên LLM cục bộ (Gemma E4B)
- Tìm kiếm cuộc họp dựa trên ChromaDB + SQLite FTS5
- Sắp xếp các quyết định và action item thành Markdown Wiki
- Kiểm tra bằng chứng timestamp nguyên văn trong các mục Wiki
- Tìm kiếm/chat dựa trên nguyên văn cuộc họp và Wiki
Tôi đã thiết kế theo hướng mọi xử lý đều diễn ra cục bộ. Ưu tiên hàng đầu là các môi trường khó gửi dữ liệu cuộc họp ra API bên ngoài, hoặc không thể đưa nội dung thảo luận nội bộ của tổ chức lên dịch vụ bên ngoài.
Hiện vẫn là beta giai đoạn đầu và chỉ dành cho Apple Silicon Mac. (Vì khó kiểm thử ở các môi trường khác...)
Do cần khá nhiều model nên quá trình cài đặt cũng không thể nói là hoàn toàn nhẹ nhàng.
Để dùng model phân tách người nói của pyannote, cần đồng ý với gated model trên HuggingFace và thiết lập token; đồng thời vì dùng model cục bộ nên cũng có yêu cầu về phần cứng.
Dù vậy, tôi vẫn công khai vì nghĩ rằng nó có thể hữu ích cho những người như tôi: có nhiều cuộc họp, luôn tốn nhiều thời gian để tổng hợp các quyết định, và làm việc trong môi trường khó kết nối với AI bên ngoài.
Tôi rất cảm kích nếu bạn chia sẻ phản hồi hoặc kinh nghiệm từng gặp vấn đề tương tự.
Chưa có bình luận nào.