Nxtscape - Trình duyệt tác tử mã nguồn mở
(github.com/nxtscape)- Trình duyệt mã nguồn mở có các tính năng tác tử dựa trên AI
- Ưu tiên quyền riêng tư của người dùng và chạy mô hình AI cục bộ, mang lại lợi thế về bảo vệ dữ liệu
- Nhấn mạnh các ưu điểm chính như tương thích với tiện ích mở rộng Chrome và chính sách mã nguồn mở minh bạch
- So với các lựa chọn thay thế trình duyệt hiện có như Arc, Dia, Perplexity Comet, điểm khác biệt nằm ở xử lý cục bộ và khả năng kiểm soát dữ liệu của người dùng
- Hướng tới mở rộng tính năng liên tục và phát triển dựa trên cộng đồng, đồng thời hỗ trợ nhiều hình thức đóng góp khác nhau
Nxtscape là gì
- Nxtscape là một trình duyệt tác tử mã nguồn mở, chạy các tính năng AI trong môi trường cục bộ
- Đây là một lựa chọn thay thế cho các trình duyệt như Arc, Dia, Perplexity Comet, phù hợp khi người dùng muốn có quyền riêng tư và kiểm soát dữ liệu tốt hơn
- Người dùng có thể dùng API key của riêng mình hoặc tích hợp mô hình cục bộ như Ollama, nhờ đó thông tin như lịch sử sử dụng web không bị rò rỉ ra bên ngoài
Tính năng cốt lõi
- Tương thích hoàn toàn với tiện ích mở rộng Chrome, giúp duy trì môi trường quen thuộc hiện có
- Tác tử AI hoạt động trực tiếp trong trình duyệt mà không cần đi qua đám mây
- Người dùng có thể tự nhập API key hoặc chọn tích hợp mô hình cục bộ để đảm bảo mức bảo vệ dữ liệu cao
- Phát triển theo hướng mã nguồn mở và do cộng đồng dẫn dắt, bảo đảm tính minh bạch của mã nguồn
- Trong tương lai sẽ bổ sung nhiều tính năng như MCP Store, chặn quảng cáo dựa trên AI
Demo và ví dụ sử dụng
- Cung cấp các kịch bản tự động hóa sử dụng tác tử AI
- Tích hợp tính năng chat AI cục bộ để hỗ trợ hội thoại
- Trình diễn khả năng tự động hóa nhiều công việc khác nhau khi kết hợp với các công cụ năng suất
Bối cảnh phát triển
- Xuất phát từ nhận thức rằng công nghệ trình duyệt đã trì trệ trong thời gian dài
- Mục tiêu là xây dựng một môi trường dựa trên tác tử AI giúp nâng cao mạnh mẽ năng suất của nhà phát triển
- Bằng cách tự động hóa các tác vụ lặp đi lặp lại đơn giản, ví dụ như "đặt mua Tide Pods từ lịch sử đơn hàng Amazon", người dùng nên có thể nhận được sự trợ giúp từ trình duyệt thay vì phải 'cạnh tranh' với trình duyệt
- Đưa ra nguyên tắc rõ ràng rằng tác tử AI phải hoạt động an toàn trong môi trường cục bộ
So sánh với các trình duyệt chính
- Chrome: dựa trên Chromium mã nguồn mở, nhưng trong 10 năm qua việc đưa vào các tính năng đổi mới như AI, tự động hóa, MCP (Multi Capability Plug-in) còn hạn chế
- Brave: đã mở rộng định hướng sang tiền mã hóa, tìm kiếm, VPN..., trong khi Nxtscape tập trung vào AI
- Arc/Dia: từng được ưa chuộng nhưng là mã nguồn đóng và không có phương án thay thế nếu dịch vụ ngừng hoạt động. Nxtscape hoàn toàn là mã nguồn mở
- Perplexity Comet: là công ty tìm kiếm/quảng cáo nên có vấn đề dữ liệu như lịch sử trình duyệt thuộc về công ty. Nxtscape giữ toàn bộ dữ liệu của người dùng chỉ ở cục bộ
Tham gia cộng đồng và đóng góp
- Có thể đóng góp theo nhiều cách như báo lỗi, đề xuất tính năng, tham gia Discord, theo dõi Twitter
Giấy phép và tham khảo công nghệ
- Mã nguồn được công bố theo giấy phép AGPL-3.0
- Được tạo ra với cảm hứng từ các dự án mã nguồn mở như Chromium, browser-use, Stagehand, Nanobrowser
1 bình luận
Ý kiến trên Hacker News
Tôi cảm thấy các bình luận cho đến giờ đang tập trung vào tiểu tiết nhiều hơn là góc nhìn tổng thể. Cá nhân tôi hình dung sẽ có giá trị cực lớn ở một trình duyệt kết nối với local LLM, lưu mọi thứ trình duyệt nhìn thấy vào DB cục bộ kèm timestamp, tự động phân tích/tóm tắt những gì tôi tương tác, có thể script hóa như Puppeteer, và hỗ trợ tự động hóa dựa trên code prompt. Với vai trò là trợ lý số của riêng tôi, nó có thể giúp dễ dàng tìm lại thông tin đã quên hay thứ mình cần, chủ động lọc tìm kiếm, quảng cáo, spam và thông tin không mong muốn, thậm chí tự xử lý những tác vụ Internet tôi muốn. Với 25 năm bookmark tích lũy, chỉ bookmark thôi là không còn đủ nữa. Tình huống lạc sâu vào những website rườm rà chỉ để tìm một thông tin mình cần có thể được cải thiện nếu có một bot vệ sĩ lọc nhiễu và rác giúp. Nếu thứ này thực sự hoạt động tốt, nó có thể kiêm luôn nhiều vai trò như thư ký cá nhân trong không gian số, quản lý tour, người gác cửa, quản gia, thợ bảo trì... và vào năm 2025 khi trình duyệt đã trở thành cổng chính bước vào Internet hỗn loạn, hướng đi này không phải ý tệ. Cuối cùng thì năng lực thực thi mới là mấu chốt, nhưng tôi rất tò mò muốn xem những dự án như thế này sẽ phát triển ra sao
Cảm ơn bạn rất nhiều vì phản hồi thẳng thắn. Đó đúng là tầm nhìn chúng tôi đã vẽ ra. Chúng ta dành hơn 90% thời gian trong ngày ở trình duyệt mà nó vẫn chỉ là một “cửa sổ ngu ngốc”. Nếu nó có thể nhớ lịch sử truy cập, clip các bài viết quan trọng và lưu highlight như Evernote web clipper, đồng thời cho phép tìm kiếm theo ngữ nghĩa trên toàn bộ nội dung thì cuộc sống sẽ khác hẳn. Mọi dữ liệu đều được lưu vào PostgresDB cục bộ, và có thể xử lý ngay những câu hỏi như "So sánh giá tháng trước là gì nhỉ?", "Tìm highlight về tự động hóa trình duyệt giúp tôi". Khi cần tập trung, nó còn có cả tính năng chặn các website gây xao nhãng. Vượt ra ngoài tìm kiếm và ghi nhớ, đây là thời kỳ trình duyệt thực sự giúp tôi làm việc. Ví dụ: tự động nhóm tab theo chủ đề, so sánh giá ổ cứng giữa các website, tóm tắt bài đăng mới trong server Discord — tất cả đều xử lý cục bộ. Trình duyệt nên giúp chúng ta giữa sự hỗn loạn của Internet, chứ không phải làm nó phức tạp hơn. Đặc biệt, nếu bạn có workflow nào gây khó chịu nhất trong đời sống hằng ngày, hoặc có use case cụ thể, chúng tôi rất muốn nghe
Thực ra điều này gần như giống hệt những gì Microsoft định làm với Recall. Tôi từng kỳ vọng tính năng Recall là thứ duy nhất trong làn sóng AI có thể thật sự cải thiện cuộc sống, nhưng nghĩ kỹ thì điều tôi thật sự muốn không phải AI, mà là máy tính của tôi có ghi chép chi tiết cục bộ và cung cấp tìm kiếm nâng cao. Tôi muốn máy tính nhớ vô điều kiện mọi thứ tôi đã làm trên đó. Những website đã truy cập, tôi đã cuộn bao xa ở từng trang, cả những ý nghĩ đã gõ rồi xóa — tất cả đều nên được lưu trong một tính năng ‘total recall’. Lý do là vì bộ não tôi luôn nhớ sai, nên tôi kỳ vọng máy tính có trí nhớ hoàn hảo hơn. Và tôi muốn tìm kiếm luôn hoạt động nhất quán, có tính quyết định. Cần có timestamp chính xác, toán tử Boolean, và NLP thì Lucene đã làm tốt từ 20 năm trước rồi. Tôi không cần các bản tóm tắt tự sinh từ corpus bên ngoài; tôi chỉ cần máy tính của tôi nhớ đúng những gì chính tôi đã làm trên đó. Tôi không nghĩ LLM thêm nhiều giá trị cho tìm kiếm cá nhân. Bản chất của LLM là khó trả lại dữ liệu thực tế một cách chính xác, nên cuối cùng vẫn phải index theo cách truyền thống thì tìm kiếm mới chuẩn. Việc LLM đang là xu hướng hiện nay, theo tôi, là vì vẫn chưa có cách tốt để index hiệu quả ‘mọi thứ’, nhưng với tìm kiếm cá nhân hóa thì thật ra không cần ‘mọi thứ’, chỉ cần biết phần văn bản và metadata hiện trên màn hình của tôi (thời gian, vị trí con trỏ, clipboard, URL, v.v.) là đủ. Chỉ khi snapshot văn bản thực tế quá lớn để lưu vào traditional index thì mới cần LLM để index; còn nếu không thì kiểu tìm kiếm hội thoại mơ hồ không phải mục tiêu của tôi. Mục tiêu thật sự là total recall
Đó là một tầm nhìn thật sự tuyệt vời. Tôi muốn khi mình mất tập trung, trình duyệt sẽ nhắc nhở và tự phân tích xem tôi đã làm gì. Tự phản chiếu bản thân là một vũ khí cực mạnh trong trường hợp này
Từ lâu tôi đã muốn viết một extension trình duyệt có thể tự động lưu toàn văn và index để tìm kiếm với các trang mình ở lại hơn 30 giây. Dự án này vượt xa điều đó rất nhiều
Từ góc nhìn của tôi thì đây là một ‘trình chặn quảng cáo native dựa trên LLM’... khu rừng này quá lớn nên chỉ nghĩ tới thôi đầu tôi đã nhức rồi (đùa thôi)
Tôi nghĩ thay vì tự làm hẳn một trình duyệt mới như nanobrowser, có lẽ chỉ cần một extension đủ robust là được? nanobrowser được làm khá tốt mà không lộ webdriver, cũng không thiếu gì ở khâu chạy js / tích hợp LLM. Nó còn cung cấp cả khả năng agentic hoàn chỉnh, nên tôi tò mò không hiểu vì sao lại nhất thiết phải làm một trình duyệt mới
Có thể đây là câu hỏi ngớ ngẩn, nhưng ai đó giải thích giúp tôi chính xác ‘agentic browser’ là gì được không? Nghe như thể ai cũng đã biết sẵn rồi, nhưng tôi không rõ đây có phải là thuật ngữ phổ biến hay chỉ đơn giản nghĩa là ‘trình duyệt web có gắn tính năng AI’
Cảm ơn bạn đã hỏi. Hoàn toàn không phải câu hỏi ngớ ngẩn. ‘agentic browser’ là trình duyệt nơi AI agent sẽ thay bạn điều hướng web. Đó là kiểu trình duyệt mà agent có thể trực tiếp thực hiện cả việc như đặt lại đơn hàng trên Amazon hay điền form
Agent là một cấu trúc trong đó LLM hoạt động cùng các tool (ví dụ: calculate(expression)). Để đạt được kết quả mong muốn, nó sẽ tự động chạy các tool đó khi cần. Với workflow phức tạp, đầu vào mà LLM nhận có thể là sự kết hợp của nhiều tool, chẳng hạn đặt user agent của người dùng thành một chuỗi cụ thể. Ví dụ có thể là chạy lệnh như set_user_agent(…) hoặc click trên trang, chèn custom JS khi trang mở ra, v.v.
Tôi mới nghe từ ‘agentic’ lần đầu cách đây một tháng. Sau đó trong vòng 2–3 ngày tôi nghe nó lặp đi lặp lại rất nhiều lần, thậm chí cả trong các buổi townhall nội bộ. Tóm tắt cốt lõi là: đó là AI có thể tự phán đoán và tự hành động
Khái niệm agentic browser nghe như một ý tưởng cực kỳ hay. Việc có thể tự động hóa gì đó bằng agent phía client thật sự rất mạnh. Nhưng đồng thời, về mặt bảo mật thì nó có thể ‘không bao giờ an toàn tuyệt đối’. Trình duyệt gần như luôn đăng nhập vào mọi tài khoản nhạy cảm, và đương nhiên còn bị phơi ra trước đầu vào không đáng tin cậy từ Internet. Chỉ cần một lần prompt injection là cuộc đời có thể rối tung trong vài giây. Ý tưởng thì rất tuyệt, nhưng nếu toàn bộ chuỗi cung ứng chưa có chứng nhận kiểu PCI/SOC2/ISO 27001, cộng thêm lời bảo chứng bằng máu từ các nhà phân tích bảo mật bên thứ ba, thì cá nhân tôi sẽ không đụng vào
Use case của tôi là trích xuất CSV / file dữ liệu từ các website liên quan đến nước. Ví dụ, việc lấy dữ liệu mực nước hồ chứa ở South Australia thật sự rất khổ sở (đặc biệt với người không có nhiều kinh nghiệm frontend như tôi). Nếu có thể tự động hóa kiểu việc này bằng agent, tôi chắc chắn sẽ thử
Tôi nghĩ đây là một dự án cực hay! Việc ra mắt trên HN cũng rất ấn tượng. Đây là cảm nhận thẳng thắn từ trải nghiệm ban đầu của tôi: khi chạy prompt ‘nhóm tất cả tab của trình duyệt theo chủ đề’ thì nó hoạt động rất tốt. Sau đó, tôi bảo nó xóa toàn bộ nhóm tab và reset lại, thì nó trả lời rằng "Đây là tác vụ tự động hóa trình duyệt nên hãy chạy ở ‘Agent Mode’". Khi tôi yêu cầu trong Agent Mode, nó lại trả về rằng "Đây là tác vụ năng suất nên hãy chạy ở Chat Mode". Cuối cùng cứ bị đá qua đá lại như vậy, và rồi chỉ nhóm được tất cả tab vào một nhóm mới, chứ không xóa được hẳn nhóm nào. Có lẽ API tương ứng vốn không tồn tại. Nhìn chung tôi muốn mọi hành động ở cấp trình duyệt đều có nút ‘undo’. Nếu việc đó khó, thì ít nhất nó cũng nên có thể tự xóa nhóm tab mà chính nó vừa tạo ra vài giây trước. Tôi vẫn định dùng tiếp. edit1: khi dùng giao diện chat ở các trang nội bộ của Chrome (ví dụ: chrome://extensions), đôi lúc nó cũng nhảy sang google.com. edit2: tôi xác nhận là ở productivity mode không có tool để giải tán nhóm, chỉ có tạo nhóm
Cái tên ‘nxtscape’ gợi lại cảm giác hoài niệm về SCSI ngày xưa. Tôi gợi ý một cách đặt tên đơn giản hơn, kiểu có thể nói một phát là xong như ‘GPT’. Còn sản phẩm thì thật sự rất tốt
Thị trường này hoàn toàn là winner-take-all. Việc dám thử đã rất đáng nể, nhưng xây trình duyệt với một team cỡ hai ba người là việc quá lớn. Hơn nữa Google đã hé lộ hướng đi tương lai tại I/O, và đây là lĩnh vực mà họ hoàn toàn có thể sớm tích hợp vào Chrome rồi giành thị phần đủ nhanh. Các nhà sáng lập deep tech đã cố chinh phục Chrome suốt nhiều năm mà chưa ai từng thành công nổi dù chỉ một lần. Thực tế mà nói, tôi nghĩ nên bắt đầu từ một nhu cầu nhỏ có ICP rõ ràng. Rất tiếc nếu đam mê và năng lượng bị lãng phí như thế
Tôi nghĩ chắc chắn có giá trị lớn ở những tính năng dành cho người dùng, đặc biệt là một trình duyệt có thể tự động xử lý / gia công nội dung web mang tính thù địch với người dùng. Ví dụ cụ thể có thể là: 1) khi mua sofa, lọc theo các điều kiện cụ thể thay vì bị nhồi thông tin marketing phóng đại; 2) chỉ nhận thông báo khi bạn bè đăng bài trên Facebook và lọc hết phần còn lại; 3) khi cộng đồng địa phương vận hành trên Facebook hoặc nextdoor, có thể ẩn những bài lặp đi lặp lại của cùng một người; hoặc 4) khi trang điều trần công khai của chính phủ bị phình lên 700 trang vô ích, nó có thể tự động tóm tắt để rút ra đúng những gì quan trọng. Tôi nghĩ có thể áp dụng vào rất nhiều domain khác nhau
Như trường hợp mua sofa chẳng hạn, các tính năng lọc mục theo điều kiện cụ thể vốn ngay cả trên các website lớn (bao gồm Amazon) cũng còn thiếu. Trước đây tôi từng kết hợp scraping với data science để tự làm các website như diskprices.com, và nếu LLM thực sự hữu ích cho kiểu use case này thì có lẽ trong tương lai sẽ có thêm nhiều website chuyên biệt theo chức năng như vậy, thay vì người dùng phải tự viết prompt ngay trong trình duyệt. Còn về việc chặn bài đăng lặp lại thì nextdoor có sẵn tính năng chặn người dùng, bạn có thể tham khảo (hướng dẫn chặn trên nextdoor)
Ví dụ quá hay luôn!
Có tuân thủ robots.txt không?
Hiện tại thì chưa. Nhưng thật ra nếu agent chỉ được dùng cho mục đích phục vụ ‘con người’ thì tôi cũng không chắc điều đó có quan trọng hay không, vì như vậy đâu phải scraping
Đây rõ ràng là agent dành cho người dùng. Nếu còn phải tuân thủ cả robots.txt thì thành thật mà nói sẽ quá bức bối. robots.txt vốn được thiết kế như phép lịch sự cho web crawler, chứ không phải để ngăn cả các công cụ đại diện cho yêu cầu của từng người dùng. Việc chủ website hạn chế công cụ truy cập site của họ — dù là terminal, trình duyệt thường hay AI browser — sẽ làm suy yếu điểm mạnh của web. Hy sinh sự đa dạng của web chỉ vì ác cảm với công cụ AI là điều nguy hiểm cho tương lai. Tham khảo: robots.txt FAQ