9 điểm bởi GN⁺ 2025-07-14 | 2 bình luận | Chia sẻ qua WhatsApp
  • BrowserOS là lựa chọn thay thế mã nguồn mở, tập trung vào quyền riêng tư cho Perplexity Comet, một trình duyệt tác tử chạy AI agent ngay trên máy cục bộ
  • Được fork từ Chromium, nên hỗ trợ toàn bộ các tiện ích mở rộng Chrome hiện có, với điểm nổi bật là dữ liệu người dùng chỉ được lưu cục bộ
  • Có thể tích hợp với nhiều nhà cung cấp AI như OpenAI, Anthropic, Ollama, đồng thời hỗ trợ API key cá nhân hoặc mô hình cục bộ
  • Tích hợp sẵn các công cụ năng suất hiện đại như highlighter gốc, bookmarker dựa trên ChatGPT, tìm kiếm ngữ nghĩa và cũng sắp hỗ trợ chặn quảng cáo bằng AI
  • Khác với các trình duyệt hiện có, dữ liệu không bị chuyển cho các công ty tìm kiếm/quảng cáo, và AI thực hiện workflow tự động hóa ngay trên máy cục bộ

Tổng quan BrowserOS

  • BrowserOS là một trình duyệt tác tử mã nguồn mở, cung cấp môi trường để AI agent hoạt động trực tiếp trên máy tính của người dùng
  • Dựa trên triết lý ưu tiên quyền riêng tư, nó dùng API key hoặc mô hình cục bộ như Ollama để dữ liệu không bị rò rỉ ra bên ngoài
  • Vì được xây dựng trên bản fork của Chromium, nên có giao diện giống hệt Chrome và mọi tiện ích mở rộng Chrome đều hoạt động

Tính năng chính

  • AI agent & chạy cục bộ

    • AI agent chạy trực tiếp cục bộ trong trình duyệt, xử lý công việc lặp đi lặp lại và các workflow tự động hóa
    • Tích hợp Ollama để chạy mô hình ngôn ngữ lớn trên chính máy tính thay vì trên cloud, đảm bảo quyền riêng tư dữ liệu
  • Công cụ năng suất

    • Hỗ trợ các công cụ năng suất tích hợp sẵn trong trình duyệt như highlighter, bookmarker ChatGPT
    • Tìm kiếm ngữ nghĩa giúp tìm nhanh dữ liệu trình duyệt như lịch sử/bookmark
  • Chặn quảng cáo và MCP Store (sắp ra mắt)

    • Chặn quảng cáo bằng AI (sắp ra mắt), dự kiến là lựa chọn thay thế sau khi Chrome chặn uBlock Origin
    • Từ MCP (Multi Command Package) Store (sắp ra mắt), có thể cài các MCP phổ biến chỉ với một cú nhấp và dùng ngay trên thanh trình duyệt
  • Mã nguồn mở và lấy cộng đồng làm trung tâm

    • Giấy phép AGPL-3.0 đảm bảo 100% mã nguồn mở, minh bạch về mã nguồn và cách hoạt động
    • Tích cực khuyến khích cộng đồng tham gia và đóng góp

Các trường hợp sử dụng tiêu biểu

  • Tự động hóa các công việc lặp lại và nhàm chán: AI tự động xử lý đặt lịch họp, điền form, và các tác vụ lặp lại
  • Nghiên cứu chuyên sâu: duyệt web để tạo báo cáo tóm tắt, thu thập thông tin hiệu quả mà không cần quản lý tab thủ công
  • Quét nội dung mạng xã hội: tự động chọn lọc và sắp xếp các bài đăng đáng chú ý trên LinkedIn, Twitter, v.v.

So sánh với các trình duyệt khác

  • Chrome: 10 năm gần như không có thay đổi lớn, thiếu các tính năng AI/tự động hóa/MCP
  • Brave: chiến lược phân tán với tiền mã hóa/tìm kiếm/VPN nên không tập trung vào trình duyệt AI
  • Arc/Dia: mô hình đóng, không phải mã nguồn mở, và không có phương án thay thế nếu ngừng sử dụng
  • Perplexity Comet: xoay quanh các công ty tìm kiếm/quảng cáo, dữ liệu người dùng được gửi lên server, trong khi BrowserOS chỉ lưu toàn bộ dữ liệu ở máy cục bộ

Cài đặt và bắt đầu

  • Hỗ trợ tải xuống cho macOS và Windows
  • Nhập dữ liệu Chrome (tùy chọn)
  • Kết nối nhà cung cấp AI (OpenAI, Anthropic, Ollama, v.v.)
  • Có thể bắt đầu tự động hóa bằng agent ngay lập tức

Giấy phép

  • Áp dụng giấy phép mã nguồn mở AGPL-3.0

2 bình luận

 
luiseok 2025-07-14

https://vi.news.hada.io/topic?id=21581
Nhìn quen quen nên xem thử thì hóa ra chỉ là Nxtscape đổi tên thôi.

 
GN⁺ 2025-07-14
Ý kiến trên Hacker News
  • Ví dụ mua kem đánh răng trong bản demo cho thấy những tác vụ này khó đến mức nào; bản thân "kem đánh răng" đã là một chỉ định rất mơ hồ, nên cuối cùng chỉ là chọn ngẫu nhiên từ một danh sách khổng lồ. Một số tác vụ có thể được định hướng bởi hành vi trước đó, nhưng nhiều trường hợp thì không; ví dụ nếu loại kem đánh răng đã mua trước đây hết hàng thì không rõ sẽ xử lý thế nào. Cuối cùng tôi nghi ngờ liệu những ví dụ kiểu này có thực sự tiết kiệm thời gian không, vì đằng nào cũng phải kiểm tra kết quả nên thành ra làm hai lần. Tôi nghĩ đây cũng là lý do các hệ thống như Alexa ban đầu không mang lại trải nghiệm mua sắm như Amazon kỳ vọng. Có lẽ sẽ tốt hơn nếu trình diễn một ví dụ phức tạp hơn, nơi lợi ích tiết kiệm thời gian thể hiện rõ ràng và trường hợp thất bại được giảm thiểu, hoặc thậm chí tập trung vào cách khôi phục từ các ca thất bại. Liệu sẽ cung cấp UI phù hợp cho từng vấn đề cụ thể, hay giải quyết bằng chat? Tôi nghĩ toàn bộ thế giới này tuyệt nhiên không phải việc dễ dàng. Chúc mọi người may mắn.
    • Nói rất đúng, toàn bộ lĩnh vực agentic browser vẫn còn ở giai đoạn rất sớm. Bọn tôi cũng mới chỉ bắt đầu và đang cố tìm các use-case ngách thực sự có giá trị. Có những tác vụ lặp đi lặp lại, nhàm chán mà hiệu quả tiết kiệm thời gian là rất rõ; ví dụ các bên bán thứ ba trên Walmart phải kiểm tra giá đối thủ nhiều lần mỗi ngày để điều chỉnh giá sản phẩm của mình. Đây là thứ có thể tự động hóa dễ dàng bằng agentic browser.
    • Tôi nghĩ nó cũng phải có khả năng thực hiện tác vụ theo gu thẩm mỹ của từng người dùng, nhưng như vậy có vẻ sẽ thành cơn ác mộng về bảo mật.
  • Tôi đã cài Nxtscape từ trước, nhưng không biết sản phẩm đã đổi tên, nên khi chạy BrowserOS thì khá bối rối vì hiện ra đúng cùng UI và ô chat, cả emoji con cáo cũng y hệt. Thành thật mà nói tôi thích tên cũ hơn. Tôi đoán là đổi tên vì lý do pháp lý.<br>Tôi thử bảo nó tóm tắt bình luận của một bài trên Arstechnica, nhưng lúc đầu chỉ nhận được câu trả lời kiểu "không thể tóm tắt vì không có bình luận kèm theo". Chỉ khi tôi ra lệnh trực tiếp là hãy bấm vào liên kết "comments" thì nó mới bắt đầu đọc bình luận đúng cách. Mà trang bình luận có tổng cộng 3 trang; sau hơn 20 phút và khoảng 100 hành động (trong đó có rất nhiều lần cuộn đúng 1074 pixel một cách cực kỳ cụ thể), nó vẫn đang ở trạng thái "Validating task completion..." và tôi vẫn đang chờ bản tóm tắt.<br>Về mặt chức năng thì có vẻ mạnh mẽ, nhưng quá tốn công và chậm nên tôi thấy không thể dùng thực tế được.<br>Nhân tiện, vì cũng có Nxtscape nên tôi thử cùng một thí nghiệm và nó hoàn thành nhanh hơn với ít hành động hơn. Không rõ là ngẫu nhiên hay do logic bên trong khác nhau.<br>Ngoài ra còn có một extension Chrome cho phép dùng mật khẩu iCloud trong Chrome, nhưng nó không hoạt động trên Nxtscape và BrowserOS. Nếu cứ phải tự mở password manager thủ công thì tôi sẽ không dùng các trình duyệt kiểu này, và tôi cũng không có kế hoạch đổi password manager.
    • Bọn tôi đổi tên để tránh phát sinh vấn đề, và tên cũ cũng khá khó phát âm. Cảm ơn phản hồi, rất mong được trao đổi thêm trên Discord(https://discord.gg/YKwjt5vuKr)! Đội của bọn tôi deploy mỗi ngày và đang cải tiến cực nhanh; agent cũng sẽ tốt hơn rất nhiều chỉ trong vài ngày tới. Bọn tôi cũng sẽ kiểm tra vụ extension mật khẩu iCloud; mục tiêu là làm cho onboarding và quản lý mật khẩu trở nên dễ dàng hơn nhiều.
  • Nếu đây là privacy first browser thì tôi thắc mắc vì sao lại không dùng Firefox. Firefox phù hợp với mục đích này hơn nhiều và vốn dĩ cũng là lựa chọn tốt hơn. Tor Browser, Mullvad Browser, LibreWolf và các trình duyệt web ưu tiên bảo mật/quyền riêng tư khác đều dựa trên engine Firefox. Và tôi nghĩ việc có nhiều "web browser engine" là cực kỳ cần thiết. Nếu cuối cùng chỉ dùng engine của các đại công ty công nghệ thì người dùng sẽ chịu thiệt rất lớn và đổi mới cũng bị cản trở. Cần hỗ trợ nhiều hơn cho các trình duyệt độc lập như Firefox.
    • Đây thực sự là một quyết định rất khó. Bọn tôi đã nói chuyện với những người từng làm trình duyệt trên webkit, và họ nói chỉ riêng việc sửa lỗi ngẫu nhiên và xử lý vấn đề tương thích trang web đã mất gần 2 năm. Engine firefox/gecko có thể tốt hơn webkit, nhưng kết luận là nếu dùng engine khác ngoài chromium thì sẽ phát sinh khối lượng công việc khổng lồ về tương thích website lẫn hỗ trợ extension. Bọn tôi cũng chỉ là một startup 2 người, nên chọn codebase chromium vì đó là điểm khởi đầu dễ build hơn rất nhiều. Ngoài ra, như Brave cho thấy, vẫn có thể tạo ra một trình duyệt tập trung vào quyền riêng tư ngay trên nền chromium. Đặc biệt trong kỷ nguyên agentic browser, có quá nhiều thứ liên quan đến quyền riêng tư có thể cải thiện ngay lập tức — ví dụ gửi dữ liệu nhạy cảm cho nơi như Perplexity Comet để kiếm doanh thu quảng cáo là cực kỳ tệ; hỗ trợ local LLM hoặc cho phép người dùng dùng API key của riêng họ quan trọng hơn nhiều.
    • Tôi cũng có đúng thắc mắc này. Tôi muốn biết vì sao lại dùng chromium trong khi tự nhận là định hướng quyền riêng tư.
  • Tôi đã đọc thấy câu "chúng tôi đang trực tiếp vá mã nguồn C++ của Chrome để có được mức bảo mật tương đương Google Chrome". Nếu vậy thì tôi thắc mắc mỗi khi Chromium cập nhật, bên bạn có phải tự build lại mỗi lần không, vì đôi khi có những bản vá với commit message trông chẳng có gì nhưng thực tế lại liên quan đến lỗ hổng nghiêm trọng, rồi 90 ngày sau mới được công bố thành CVE.
    • Câu hỏi hay, cho đến giờ bọn tôi vẫn tiếp tục build dựa trên các phiên bản phát hành Chromium mà Google Chrome đang dựa vào.
  • Tôi sẽ thích hơn nếu cái này được cung cấp dưới dạng extension trình duyệt thay vì một trình duyệt độc lập.
    • Bọn tôi ban đầu cũng muốn làm nó dưới dạng extension trình duyệt. Nhưng để tạo ra một agent copilot tốt, bọn tôi nghĩ nhiều thay đổi ở cấp Chromium C++ là bắt buộc. Ví dụ Chromium có cây accessibility của toàn bộ website, nhưng không thể lấy nó qua chrome extension API; truy cập trực tiếp vào cây accessibility giúp cải thiện đáng kể hiệu năng của agent. Ngoài ra bọn tôi cũng đang bổ sung ở mức C++ nhiều khả năng để agent tương tác với website như hành động click hay chỉ mục phần tử; nếu làm những thứ này bằng JS thì sẽ chậm hơn 20-40 lần.
    • Bọn tôi cũng nghĩ y hệt vậy, tôi không cho rằng để hiện thực hóa các chức năng agentic thì nhất thiết phải cần cả một trình duyệt hoàn chỉnh; chỉ với extension trình duyệt trong phạm vi quyền hạn giới hạn cũng đã đủ. Google cũng thường phát hành trực tiếp rất nhiều bản vá zero day, và chắc chắn có những tính năng Google không đưa vào Chromium. Vì vậy tôi không thể tin một bản fork mã nguồn mở ngẫu nhiên làm trình duyệt chính của mình. Tôi đề xuất extension trình duyệt AI Web Agent là rtrvr.ai(https://rtrvr.ai), nó đã được xây dựng để phù hợp với workflow hiện có của người dùng.
    • Khi thấy nanobrowser được nhắc đến ở đây tôi cũng nghĩ như vậy.
    • https://github.com/nanobrowser/nanobrowser đáng để thử.
  • Đây là một dự án tương tự với nanobrowser là chrome extension https://github.com/nanobrowser/nanobrowser
    • Lướt nhanh trang dự án thì có vẻ nó dùng API key của LLM bên ngoài, còn dự án này được giới thiệu trong bài gốc có vẻ dùng transformer.js để chạy LLM cục bộ.
    • Nếu những chức năng này đã có thể được triển khai dưới dạng extension thì tôi thắc mắc vì sao lại phải fork phần mềm sẵn có để làm. nGiữa nanobrowser và browserOS có tính năng nào thật sự chỉ browserOS làm được còn nanobrowser thì không có không; tôi muốn biết những khác biệt trọng yếu cần được chỉ ra.
    • Cảm ơn vì đã nhắc đến.
  • Có câu "<i>chúng tôi cũng đang làm trình chặn quảng cáo dùng LLM sau khi Chrome chặn uBlock Origin</i>", nhưng nếu dù sao đây cũng là một bản fork Chromium thì chẳng phải có thể tái sử dụng uBlock Origin sao?
    • Chromium dự kiến sẽ loại bỏ Manifest V2 API, và không bản fork nào muốn tiếp tục duy trì nó mãi; ngay cả Brave cũng làm riêng trình chặn quảng cáo tích hợp sẵn. Câu hỏi thực sự là 'vì sao không fork Firefox, trong khi Firefox đã làm sẵn mọi thứ đó, mà lại cứ chọn Chromium?'
  • Tôi tò mò về roadmap cho Linux, vì tôi không có Mac hay Windows.
    • Bọn tôi có nhận thức về việc này, và dự kiến sẽ hỗ trợ được vào đầu tuần tới. Bọn tôi vẫn chỉ là đội 2 người nên thực sự có quá nhiều việc phải làm.
  • Tôi muốn thấy AI trực tiếp di chuyển con trỏ chuột và click, đồng thời các phím gõ cũng được hiển thị trên màn hình theo thời gian thực, như một phần mềm tutorial, để tạo cảm giác như một người thật đang sử dụng. Khi AI đổi trang và UI nhảy liên tục như hiện tại thì màn hình cho cảm giác giật cục, rất khó theo dõi mạch. Thiếu các gợi ý về chỗ cần tập trung nhìn vào nên cảm giác giống như đang xem screen recording. Dù vậy tôi vẫn nghĩ sẽ có các use-case hữu ích trong những lĩnh vực như mcp/browser automation, nên khá mong chờ xem nó phát triển thế nào trong tương lai.
    • Phản hồi này thực sự rất hữu ích, cảm ơn bạn!<br>Bọn tôi sẽ xem có thể thêm chuyển động con trỏ không; phần gõ phím hiện cũng đã được hiển thị theo kiểu giống người thật, nhưng có lẽ có thể cải thiện để trông chậm hơn một chút.
    • Tôi nghĩ thứ thật sự mình muốn là caretaker ai.
  • Chúc mừng!<br>Tôi tò mò dự án này định được duy trì bền vững thế nào về mặt tài chính, phát triển và bảo trì.
    • Cảm ơn!<br>Về cơ bản bọn tôi sẽ đi theo hướng giống các dự án mã nguồn mở khác: bán giấy phép cho phiên bản Enterprise của trình duyệt.
    • Tôi đoán chắc chỉ là một app electron hoặc chromium wrapper gắn thêm ollama wrapper thôi (đã có đầy thư viện mã nguồn mở miễn phí để điều khiển trình duyệt).