7 điểm bởi sungmin330 2025-07-31 | 4 bình luận | Chia sẻ qua WhatsApp

Comet: trình duyệt mới do Perplexity tạo ra

Đã ra mắt được một thời gian, nhưng sau khi vượt qua danh sách chờ và dùng thử, tôi viết vài dòng chia sẻ.


Tổng quan cốt lõi

Comet là trình duyệt AI do Perplexity phát triển, được thiết kế để tối đa hóa sự tập trung và quy trình làm việc của người dùng, đồng thời biến sự tò mò thành khả năng hành động.


Tính năng và đặc điểm chính

  • Tìm kiếm tích hợp AI, ngữ cảnh tức thời, tự động hóa website

    • Có thể tóm tắt, mua sắm, lên lịch và nghiên cứu ngay trong trình duyệt
  • Comet Assistant

    • Tự động xử lý các tác vụ lặp lại như nhấp chuột, nhập liệu, gửi biểu mẫu và tự động hoàn thành
  • Tự động hóa cả những công việc phức tạp

    • Hỗ trợ toàn bộ quá trình mua sắm, từ so sánh sản phẩm đến thanh toán
  • Quản lý tích hợp

    • Kết nối email và lịch (Gmail, Google Calendar)
    • Có thể xử lý ngay trong trình duyệt từ tóm tắt lịch trình đến đặt lịch email/lịch
  • Trải nghiệm cá nhân hóa

    • Học thói quen sử dụng để tự động sắp xếp tab và insight
  • Tìm câu trả lời ngay từ hoạt động của tôi

    • Hỗ trợ tìm kiếm dữ liệu cá nhân như lịch sử, video và tài liệu
  • Smart Action và tính năng tập trung theo từng tab

    • Tính năng @tab cung cấp câu trả lời theo thời gian thực phù hợp với tab đang mở

Trường hợp sử dụng

Perplexity đã đăng thêm các trường hợp sử dụng trên Linkedin
https://www.linkedin.com/company/perplexity-ai/posts/?feedView=all


Ý kiến cá nhân sau khi sử dụng dịch vụ

Công nghệ

  • Dạng trình duyệt Chromium + Perplexity + Web Agent
  • Truy vấn ngôn ngữ tự nhiên -> trích xuất Intent/slot -> ánh xạ Semantic DOM -> chuyển đổi thành action -> thực thi event (web Tool) -> phân tích kết quả và tiền xử lý -> suy đoán cấu trúc dạng ReAct
  • Comet có chụp ảnh màn hình để có thể nắm được trạng thái công việc hiện tại, nhưng vẫn cần kiểm tra thêm xem có dùng mô hình thị giác để phân tích hay không

Ca kiểm thử

(1) Soạn email

  • Sử dụng hợp lý website email của Google để soạn thư
  • Agent không gửi thật mà chọn lưu bản nháp

(2) Tìm đường trên Naver Map + gợi ý quán ăn xung quanh

  • Sau khi truy cập trang web Naver Map, tôi yêu cầu tìm đường từ Seoul Station đến Jamsil, và nó đã sử dụng dịch vụ Naver Map một cách phù hợp (giống như con người) để tìm lộ trình
  • Với việc tìm quán ăn gần đó, nó không dùng Naver Map mà dùng Search Tool vốn có của Perplexity

(3) Thu thập dữ liệu Open AI Platform Pricing

  • Theo tôi biết, Open AI Platform dùng Remix và một số mức giá API bị ẩn dưới dạng toggle
  • Tôi đã yêu cầu rõ ràng Comet mở các toggle, kiểm tra giá của tất cả API và trả kết quả ở dạng Markdown, và nó đã cung cấp khá phù hợp
  • Tuy vậy, vẫn cần prompt engineering để trích xuất thông tin chính xác
  • Tôi cũng yêu cầu kiểm tra trang API của Anthropic, nhưng do layout của trang web (divider) không rõ ràng nên nó không parse chính xác các chính sách API phức tạp. Tuy nhiên, giá API cơ bản thì trích xuất chính xác.

Ý kiến cá nhân

  • Khi phát triển một browsing agent, hẳn đã có rất nhiều điểm cần cân nhắc như context, rendering, v.v.; tôi khá tò mò họ đã giải quyết chúng như thế nào.
  • Về mặt kỹ thuật thì có cảm giác wow, nhưng từ góc độ sản phẩm thì vẫn còn khá mơ hồ.
  • Có thể tùy từng người, nhưng với tôi vẫn chưa rõ vì sao mình phải dùng sản phẩm này, vì sao phải trả tiền để dùng Comet, và nó có thể giải quyết chính xác vấn đề nào của tôi với tư cách khách hàng. Nói cách khác, giá trị đề xuất đối với tôi chưa đủ rõ ràng. Hiện tại cảm giác là: 'Ồ! Hay thật, cái này cũng làm được, để lúc nào nhớ thì dùng thêm vài lần nữa.'
  • Dù Perplexity có đưa ra các use case, tôi vẫn nghĩ: 'Có thật sự cần dùng Agent để giải quyết vấn đề này không? (tự mình làm còn nhanh hơn)' và 'Liệu nó đã thực sự giải quyết trọn vẹn vấn đề chưa?'
  • Có lẽ vì bản thân trình duyệt khá gần với lớp hạ tầng nên mới tạo ra cảm giác này, tôi tạm đoán vậy.
  • Vì trình duyệt dựa trên AI Agent theo một nghĩa nào đó là một định dạng mới, nên tôi nghĩ nếu họ có thể cho khách hàng thấy rõ rằng 'Bạn đang có vấn đề gì, và Comet thực sự có thể giải quyết hoàn toàn vấn đề đó cho bạn' thì sẽ tốt hơn.
  • Có lẽ tôi vẫn nên tiếp tục theo dõi và dùng thêm. Tôi cũng đang suy nghĩ về việc có thể giải quyết bài toán sản phẩm này như thế nào.

UI

Đây là phần tôi tự phân tích. (Tôi đang làm thử theo hướng reverse planning...,)
https://www.figma.com/deck/Gky9ZDEqZKdJfG4RWoNYdf

4 bình luận

 
cshj55 2025-08-01

Khi bạn trải nghiệm, có giới hạn số lần dùng truy vấn của agent Comet đó không? Hay giống các công cụ khác, vì đang trong thời gian thử nghiệm nên không bị giới hạn truy vấn? Tôi nhớ là hình như có gói kiểu pro-max nên hỏi thử vì tò mò.

 
sungmin330 2025-08-02

Hiện tại tôi đang ở gói đăng ký Pro. Có thể là do tôi dùng khá ít, nhưng cho đến giờ tôi vẫn chưa từng chạm giới hạn trên Perplexity, bao gồm cả Comet. Có vẻ thoải mái hơn tôi nghĩ.
Tuy nhiên, vì gói đăng ký không cung cấp thông tin ratelimit, nên cũng khó nói chắc.
Trước mắt thì có vẻ họ đã phát hành bản beta khác với Pro Max.

https://perplexity.ai/help-center/en/…

Đây chỉ là cảm nhận cá nhân, nhưng đúng như bạn nói, có lẽ vì vẫn đang trong giai đoạn thử nghiệm nên số lượng truy vấn dường như không quá quan trọng. Tôi đã xác nhận là nó vẫn hoạt động ngay cả khi bật đồng thời 12 trình duyệt ảo để xử lý tác vụ. Điều này khá ấn tượng.

 
nottiger 2025-08-01

Đọc rất hay.
Hơi tiếc một chút vì có vẻ đúng như dự đoán..

 
cenoch 2025-08-01

Về mặt kỹ thuật thì thấy có nhiều điểm "wow", nhưng từ góc độ sản phẩm thì có vẻ vẫn còn khá mơ hồ.

Tôi đồng ý với ý này.

  1. Tốc độ xử lý của agent quá chậm, mà nếu bảo có thể tin tưởng giao việc rồi quên luôn vì hiệu năng đã đủ tốt hay chưa thì cũng chưa phải như vậy.
  2. Có vẻ không thể chọn model, nên có lẽ phần lớn tác vụ được xử lý bằng model nội bộ của Perplexity, nhưng mức độ ảo giác quá nghiêm trọng.
    Ví dụ:) khi yêu cầu đọc trang tin Naver News và tóm tắt lập trường của từng tờ báo về đàm phán thuế quan, nó sẽ dựa trên "định kiến đã được học trước về khuynh hướng của từng tòa soạn" để bịa ra lập trường của những tờ báo mà nó thực ra chưa đọc, rồi trả lời như thể đã đọc.
  3. Để khiến những tác vụ kiểu này được thực hiện cho ra hồn thì vẫn cần prompt engineering cùng với việc rà soát/hiệu đính lặp đi lặp lại, mà chi phí phải bỏ ra để để tâm đến những việc đó có vẻ còn lớn hơn lợi ích có thể thu được từ việc tự động hóa bằng Comet.
  4. Có thể nhìn ra ngay những bài toán kỹ thuật khó mà họ hẳn đã gặp phải trong quá trình xây dựng, nên ở khía cạnh đó vẫn có điểm để thấy thú vị từ góc nhìn của một "developer", nhưng với tư cách là một sản phẩm thì...