Context Mode - Máy chủ MCP giúp tiết kiệm 98% cửa sổ ngữ cảnh của tác nhân lập trình AI

xguru · 2026-05-03T09:31:02+09:00

Tiết kiệm dữ liệu thô mà các lệnh gọi công cụ MCP dồn vào cửa sổ ngữ cảnh, kéo dài thời lượng phiên từ ~30 phút lên ~3 giờ Tiết kiệm ngữ cảnh: cô lập dữ liệu thô trong sandbox để giảm từ 315KB xuống 5.4KB, tức 98% Tính liên tục của phiên: lưu và lập chỉ mục mọi sự kiện như chỉnh sửa tệp, thao tác git, tác vụ, lỗi và quyết định của người dùng vào SQLite+FTS5, sau đó tìm kiếm bằng BM25 để theo dõi sự kiện phiên và khôi phục sau khi compact Tư duy bằng mã: thay vì để LLM đọc trực tiếp dữ liệu, hệ thống viết script rồi chỉ trả về kết quả (ví dụ khi đếm hàm, viết mã liên quan mà không tốn ngữ cảnh lưu trữ rồi chỉ lấy kết quả thực tế) Nén đầu ra: giảm ~65-75% token đầu ra, vẫn giữ độ chính xác kỹ thuật Hỗ trợ 14 nền tảng: Claude Code (plugin marketplace), Codex CLI, Gemini CLI, Cursor, OpenCode, OpenClaw, Antigravity... Tùy theo mức hook của từng nền tảng như PreToolUse, PostToolUse, SessionStart, PreCompact mà hỗ trợ theo các cấp độ khác nhau về tính liên tục của phiên Cung cấp 11 công cụ MCP: ctx_execute (11 runtime ngôn ngữ), ctx_batch_execute (thực thi hàng loạt nhiều lệnh + tìm kiếm), ctx_execute_file (xử lý sandbox cho tệp), ctx_index/ctx_search (lập chỉ mục và tìm kiếm kho tri thức dựa trên FTS5+BM25), ctx_fetch_and_index (fetch URL, lập chỉ mục và cache TTL 24 giờ), ctx_stats/ctx_doctor/ctx_upgrade/ctx_purge/ctx_insight Bảo mật: áp dụng cùng cấu hình permissions của Claude Code (mẫu deny/allow) cho cả sandbox MCP, và các lệnh được chain cũng được kiểm tra tách biệt từng lệnh Chạy hoàn toàn cục bộ: không telemetry, không đồng bộ đám mây, không theo dõi mức sử dụng; cơ sở dữ liệu SQLite được lưu trong thư mục home Đang được các nhóm tại những công ty lớn như Microsoft, Google, Meta, Amazon, NVIDIA, Stripe, Datadog sử dụng Elastic License 2.0 (mở mã nguồn, cấm cung cấp dưới dạng dịch vụ lưu trữ)

(github.com/mksglu)

23 điểm bởi xguru 2026-05-03 | 8 bình luận | Chia sẻ qua WhatsApp

Tiết kiệm dữ liệu thô mà các lệnh gọi công cụ MCP dồn vào cửa sổ ngữ cảnh, kéo dài thời lượng phiên từ ~30 phút lên ~3 giờ
Tiết kiệm ngữ cảnh: cô lập dữ liệu thô trong sandbox để giảm từ 315KB xuống 5.4KB, tức 98%
Tính liên tục của phiên: lưu và lập chỉ mục mọi sự kiện như chỉnh sửa tệp, thao tác git, tác vụ, lỗi và quyết định của người dùng vào SQLite+FTS5, sau đó tìm kiếm bằng BM25 để theo dõi sự kiện phiên và khôi phục sau khi compact
Tư duy bằng mã: thay vì để LLM đọc trực tiếp dữ liệu, hệ thống viết script rồi chỉ trả về kết quả (ví dụ khi đếm hàm, viết mã liên quan mà không tốn ngữ cảnh lưu trữ rồi chỉ lấy kết quả thực tế)
Nén đầu ra: giảm ~65-75% token đầu ra, vẫn giữ độ chính xác kỹ thuật
Hỗ trợ 14 nền tảng: Claude Code (plugin marketplace), Codex CLI, Gemini CLI, Cursor, OpenCode, OpenClaw, Antigravity...
- Tùy theo mức hook của từng nền tảng như PreToolUse, PostToolUse, SessionStart, PreCompact mà hỗ trợ theo các cấp độ khác nhau về tính liên tục của phiên
Cung cấp 11 công cụ MCP: ctx_execute (11 runtime ngôn ngữ), ctx_batch_execute (thực thi hàng loạt nhiều lệnh + tìm kiếm), ctx_execute_file (xử lý sandbox cho tệp), ctx_index/ctx_search (lập chỉ mục và tìm kiếm kho tri thức dựa trên FTS5+BM25), ctx_fetch_and_index (fetch URL, lập chỉ mục và cache TTL 24 giờ), ctx_stats/ctx_doctor/ctx_upgrade/ctx_purge/ctx_insight
Bảo mật: áp dụng cùng cấu hình permissions của Claude Code (mẫu deny/allow) cho cả sandbox MCP, và các lệnh được chain cũng được kiểm tra tách biệt từng lệnh
Chạy hoàn toàn cục bộ: không telemetry, không đồng bộ đám mây, không theo dõi mức sử dụng; cơ sở dữ liệu SQLite được lưu trong thư mục home
Đang được các nhóm tại những công ty lớn như Microsoft, Google, Meta, Amazon, NVIDIA, Stripe, Datadog sử dụng
Elastic License 2.0 (mở mã nguồn, cấm cung cấp dưới dạng dịch vụ lưu trữ)

8 bình luận

kirkyoon 2026-05-06

Tôi thấy có vẻ đúng là cảm nhận được điều đó. Tôi chỉ dùng MCP và đang loại trừ hook.

kaydash 2026-05-04

Hoạt động ổn chứ..

duse0001 2026-05-03

Cảm giác như là sự pha trộn giữa Claude mem và caveman.

recast7838 2026-05-03

Dạo này có vẻ mấy sản phẩm hay prompt kiểu “tiết kiệm token” đang thành trào lưu nhỉ, dù thực tế có hiệu quả hay không thì tôi cũng không rõ lắm.

kurthong 2026-05-04

Tôi cho rằng việc tiết kiệm token và tiết kiệm cửa sổ ngữ cảnh có chồng lấn, nhưng không phải là cùng một khái niệm.

Tiết kiệm token là vấn đề chi phí, còn tiết kiệm cửa sổ ngữ cảnh là vấn đề chất lượng bộ nhớ làm việc của mô hình. Nếu đưa nguyên các log dung lượng lớn hay DOM snapshot vào, chi phí sẽ tăng lên, nhưng vấn đề lớn hơn là khả năng mô hình bỏ lỡ các manh mối quan trọng giữa đống nhiễu hoặc tham chiếu sai cũng sẽ cao hơn.

Có lẽ sẽ đúng hơn nếu hiểu context-mode là một công cụ gần với việc “kiểm soát xem sẽ đưa gì vào ngữ cảnh” hơn là “hãy dùng ít đi”.

ehlegeth 2026-05-04

Bạn cần phân biệt giữa tiết kiệm token và tiết kiệm cửa sổ ngữ cảnh.
Vì chúng thường được bàn cùng nhau nên cũng khá dễ nhầm lẫn.

shakespeares 2026-05-03

Đúng vậy, tôi cũng không biết có thực sự hiệu quả không... Tôi cứ nghĩ nếu dùng thêm một hai lần nữa thì có khi lại tốn nhiều token hơn..

kyg5474 2026-05-03

Thật vậy?

Context Mode - Máy chủ MCP giúp tiết kiệm 98% cửa sổ ngữ cảnh của tác nhân lập trình AI

Bài viết liên quan

8 bình luận