Gemma Gem - tiện ích mở rộng Chrome chạy hoàn toàn on-device mô hình Google Gemma 4 ngay trong trình duyệt

xguru · 2026-04-18T09:31:02+09:00

Chạy hoàn toàn on-device mô hình Gemma 4 của Google dựa trên WebGPU để dùng như một trợ lý AI cá nhân thường trú ngay trong trình duyệt Không cần API key, không dùng cloud, không truyền dữ liệu ra bên ngoài - mọi suy luận đều được xử lý cục bộ và dữ liệu không rời khỏi thiết bị Hỗ trợ hành vi kiểu agent như đọc trang đang truy cập, nhấp nút, nhập biểu mẫu, chạy JavaScript và hỏi đáp về website Có thể chọn giữa hai mô hình Gemma 4 E2B(~500MB) / E4B(~1.5GB), được cache sau lần chạy đầu tiên để tái sử dụng Hỗ trợ lượng tử hóa q4f16, ngữ cảnh 128K (onnx-community/gemma-4-E2B-it-ONNX, onnx-community/gemma-4-E4B-it-ONNX) Cung cấp 6 công cụ tích hợp sẵn read_page_content: đọc văn bản/HTML của trang hoặc theo CSS selector take_screenshot: chụp trang đang hiển thị thành PNG click_element / type_text / scroll_page: thao tác DOM dựa trên CSS selector run_javascript: chạy JS có thể truy cập toàn bộ DOM trong ngữ cảnh của trang Kiến trúc 3 lớp Offscreen Document + Service Worker + Content Script Offscreen document lưu trữ mô hình bằng @huggingface/transformers + WebGPU và chạy vòng lặp agent Service worker phụ trách định tuyến thông điệp và xử lý chụp màn hình, thực thi JS Content script chèn biểu tượng gem và lớp phủ chat shadow DOM Trong phần cài đặt hỗ trợ chuyển đổi mô hình, bật/tắt Thinking, giới hạn vòng lặp gọi công cụ, xóa lịch sử hội thoại, vô hiệu hóa theo từng website Thư mục agent/ không có phụ thuộc, có thể tách thành thư viện độc lập dựa trên các interface ModelBackend và ToolExecutor Yêu cầu Chrome hỗ trợ WebGPU / giấy phép Apache-2.0 / triển khai bằng TypeScript

(github.com/kessler)

18 điểm bởi xguru 2026-04-18 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Chạy hoàn toàn on-device mô hình Gemma 4 của Google dựa trên WebGPU để dùng như một trợ lý AI cá nhân thường trú ngay trong trình duyệt
Không cần API key, không dùng cloud, không truyền dữ liệu ra bên ngoài - mọi suy luận đều được xử lý cục bộ và dữ liệu không rời khỏi thiết bị
Hỗ trợ hành vi kiểu agent như đọc trang đang truy cập, nhấp nút, nhập biểu mẫu, chạy JavaScript và hỏi đáp về website
Có thể chọn giữa hai mô hình Gemma 4 E2B(~500MB) / E4B(~1.5GB), được cache sau lần chạy đầu tiên để tái sử dụng
Hỗ trợ lượng tử hóa q4f16, ngữ cảnh 128K (onnx-community/gemma-4-E2B-it-ONNX, onnx-community/gemma-4-E4B-it-ONNX)
Cung cấp 6 công cụ tích hợp sẵn
- read_page_content: đọc văn bản/HTML của trang hoặc theo CSS selector
- take_screenshot: chụp trang đang hiển thị thành PNG
- click_element / type_text / scroll_page: thao tác DOM dựa trên CSS selector
- run_javascript: chạy JS có thể truy cập toàn bộ DOM trong ngữ cảnh của trang
Kiến trúc 3 lớp Offscreen Document + Service Worker + Content Script
- Offscreen document lưu trữ mô hình bằng @huggingface/transformers + WebGPU và chạy vòng lặp agent
- Service worker phụ trách định tuyến thông điệp và xử lý chụp màn hình, thực thi JS
- Content script chèn biểu tượng gem và lớp phủ chat shadow DOM
Trong phần cài đặt hỗ trợ chuyển đổi mô hình, bật/tắt Thinking, giới hạn vòng lặp gọi công cụ, xóa lịch sử hội thoại, vô hiệu hóa theo từng website
Thư mục agent/ không có phụ thuộc, có thể tách thành thư viện độc lập dựa trên các interface ModelBackend và ToolExecutor
Yêu cầu Chrome hỗ trợ WebGPU / giấy phép Apache-2.0 / triển khai bằng TypeScript

Gemma Gem - tiện ích mở rộng Chrome chạy hoàn toàn on-device mô hình Google Gemma 4 ngay trong trình duyệt

Bài viết liên quan

Chưa có bình luận nào.