Context Mode - Máy chủ MCP giúp tiết kiệm 98% cửa sổ ngữ cảnh của tác nhân lập trình AI
(github.com/mksglu)- Tiết kiệm dữ liệu thô mà các lệnh gọi công cụ MCP dồn vào cửa sổ ngữ cảnh, kéo dài thời lượng phiên từ ~30 phút lên ~3 giờ
- Tiết kiệm ngữ cảnh: cô lập dữ liệu thô trong sandbox để giảm từ 315KB xuống 5.4KB, tức 98%
- Tính liên tục của phiên: lưu và lập chỉ mục mọi sự kiện như chỉnh sửa tệp, thao tác git, tác vụ, lỗi và quyết định của người dùng vào SQLite+FTS5, sau đó tìm kiếm bằng BM25 để theo dõi sự kiện phiên và khôi phục sau khi compact
- Tư duy bằng mã: thay vì để LLM đọc trực tiếp dữ liệu, hệ thống viết script rồi chỉ trả về kết quả (ví dụ khi đếm hàm, viết mã liên quan mà không tốn ngữ cảnh lưu trữ rồi chỉ lấy kết quả thực tế)
- Nén đầu ra: giảm ~65-75% token đầu ra, vẫn giữ độ chính xác kỹ thuật
- Hỗ trợ 14 nền tảng: Claude Code (plugin marketplace), Codex CLI, Gemini CLI, Cursor, OpenCode, OpenClaw, Antigravity...
- Tùy theo mức hook của từng nền tảng như PreToolUse, PostToolUse, SessionStart, PreCompact mà hỗ trợ theo các cấp độ khác nhau về tính liên tục của phiên
- Cung cấp 11 công cụ MCP:
ctx_execute(11 runtime ngôn ngữ),ctx_batch_execute(thực thi hàng loạt nhiều lệnh + tìm kiếm),ctx_execute_file(xử lý sandbox cho tệp),ctx_index/ctx_search(lập chỉ mục và tìm kiếm kho tri thức dựa trên FTS5+BM25),ctx_fetch_and_index(fetch URL, lập chỉ mục và cache TTL 24 giờ),ctx_stats/ctx_doctor/ctx_upgrade/ctx_purge/ctx_insight - Bảo mật: áp dụng cùng cấu hình
permissionscủa Claude Code (mẫu deny/allow) cho cả sandbox MCP, và các lệnh được chain cũng được kiểm tra tách biệt từng lệnh - Chạy hoàn toàn cục bộ: không telemetry, không đồng bộ đám mây, không theo dõi mức sử dụng; cơ sở dữ liệu SQLite được lưu trong thư mục home
- Đang được các nhóm tại những công ty lớn như Microsoft, Google, Meta, Amazon, NVIDIA, Stripe, Datadog sử dụng
- Elastic License 2.0 (mở mã nguồn, cấm cung cấp dưới dạng dịch vụ lưu trữ)
8 bình luận
Tôi thấy có vẻ đúng là cảm nhận được điều đó. Tôi chỉ dùng MCP và đang loại trừ hook.
Hoạt động ổn chứ..
Cảm giác như là sự pha trộn giữa Claude mem và caveman.
Dạo này có vẻ mấy sản phẩm hay prompt kiểu “tiết kiệm token” đang thành trào lưu nhỉ, dù thực tế có hiệu quả hay không thì tôi cũng không rõ lắm.
Tôi cho rằng việc tiết kiệm token và tiết kiệm cửa sổ ngữ cảnh có chồng lấn, nhưng không phải là cùng một khái niệm.
Tiết kiệm token là vấn đề chi phí, còn tiết kiệm cửa sổ ngữ cảnh là vấn đề chất lượng bộ nhớ làm việc của mô hình. Nếu đưa nguyên các log dung lượng lớn hay DOM snapshot vào, chi phí sẽ tăng lên, nhưng vấn đề lớn hơn là khả năng mô hình bỏ lỡ các manh mối quan trọng giữa đống nhiễu hoặc tham chiếu sai cũng sẽ cao hơn.
Có lẽ sẽ đúng hơn nếu hiểu context-mode là một công cụ gần với việc “kiểm soát xem sẽ đưa gì vào ngữ cảnh” hơn là “hãy dùng ít đi”.
Bạn cần phân biệt giữa tiết kiệm token và tiết kiệm cửa sổ ngữ cảnh.
Vì chúng thường được bàn cùng nhau nên cũng khá dễ nhầm lẫn.
Đúng vậy, tôi cũng không biết có thực sự hiệu quả không... Tôi cứ nghĩ nếu dùng thêm một hai lần nữa thì có khi lại tốn nhiều token hơn..
Thật vậy?