3 điểm bởi GN⁺ 2025-07-18 | 1 bình luận | Chia sẻ qua WhatsApp
  • ChatGPT Agent sử dụng máy tính ảo riêng để xử lý các tác vụ phức tạp của người dùng từ đầu đến cuối
  • Một hệ thống agent mới kết hợp khả năng tương tác website của Operator với năng lực phân tích thông tin của nghiên cứu chuyên sâu, cho phép thực hiện linh hoạt từ nhấp chuột, nhập liệu đến chạy mã
  • Người dùng có thể ra lệnh để agent thay mặt thực hiện các tác vụ như gửi biểu mẫu, đặt chỗ, tạo tệp, và có thể can thiệp bất cứ lúc nào
  • Đã chứng minh hiệu năng vượt trội so với các mô hình trước đó trên nhiều benchmark thực tế như SpreadsheetBench, DSBench, BrowseComp
  • Người dùng Pro, Plus và Team có thể sử dụng từ hôm nay, đồng thời các tính năng kiểm soát dữ liệu người dùng và bảo mật cũng được thiết kế chặt chẽ

ChatGPT Agent kết nối nghiên cứu và hành động

Giới thiệu tính năng agent

  • ChatGPT được mở rộng để có thể thực hiện các tác vụ phức tạp thay cho người dùng thông qua máy tính ảo riêng
  • ChatGPT Agent tích hợp khả năng phân tích của Operator (tương tác dựa trên trình duyệt từ xa) và nghiên cứu chuyên sâu (công cụ suy luận web nhiều bước) vào một mô hình agent duy nhất
    • Operator mạnh ở các thao tác trên web như cuộn, nhấp và điền biểu mẫu, nhưng có giới hạn trong phân tích chuyên sâu hoặc soạn báo cáo
    • Ngược lại, nghiên cứu chuyên sâu chuyên về phân tích và tóm tắt, nhưng không thể tương tác website theo thời gian thực hoặc truy cập nội dung yêu cầu xác thực
  • Bằng cách hợp nhất các ưu điểm bổ trợ của hai công cụ, hệ thống cung cấp hiệu quả cao trong một môi trường thống nhất, từ nhấp chuột, lọc đến thu thập dữ liệu
  • Có thể chuyển đổi linh hoạt giữa hội thoại và yêu cầu ngay trong giao diện chat
  • Ví dụ:
    • “Phân tích ba đối thủ cạnh tranh và tạo một slideshow cho tôi”
    • “Tóm tắt cuộc họp tiếp theo dựa trên tin tức gần đây”

Cách hoạt động và tương tác

  • ChatGPT Agent được trang bị nhiều công cụ truy cập web như trình duyệt trực quan dựa trên GUI, trình duyệt dựa trên văn bảnkết nối API trực tiếp
  • Khi thực thi tác vụ, hệ thống kết hợp trình duyệt, API và suy luận văn bản theo cách phù hợp nhất để động chọn lộ trình tối ưu
  • Có thể thực hiện tác vụ end-to-end như nhấp vào website, lọc thông tin, hướng dẫn đăng nhập, chạy mã, tóm tắt kết quả và tạo slide
  • Người dùng có thể can thiệp bất cứ lúc nào trong quá trình làm việc, và có thể trực tiếp nhận quyền điều khiển trình duyệt
    • Có thể thêm chỉ dẫn, đổi hướng công việc, dừng lại và yêu cầu kết quả hiện tại vào bất kỳ lúc nào
    • Tác vụ đang chạy có thể dừng rồi khởi động lại bất cứ lúc nào, đồng thời duy trì tính nhất quán nhờ chia sẻ ngữ cảnh
    • Khi không chắc chắn, ChatGPT sẽ chủ động yêu cầu thêm thông tin
  • Thông qua quy trình xác thực đăng nhập của người dùng, hệ thống cũng có thể truy cập an toàn vào dữ liệu doanh nghiệp hoặc dữ liệu cá nhân

Hiệu năng nổi bật và các trường hợp sử dụng

  • Đạt điểm vượt trội so với các mô hình trước trên những benchmark uy tín
    • Humanity’s Last Exam: đạt 43.1 điểm ở các câu hỏi cấp độ chuyên gia
    • DSBench: vượt trội áp đảo so với các mô hình trước trong các tác vụ khoa học dữ liệu
    • SpreadsheetBench:
      • đạt 45.5% trong chỉnh sửa trực tiếp bảng tính .xlsx, vượt xa GPT‑4o (13.38%) và Excel Copilot (20%)
    • WebArena: cũng vượt qua mô hình Operator trước đây trong các tác vụ tương tác web thực tế
    • BrowseComp: lập kỷ lục cao nhất với 68.9 điểm ở khả năng thu thập thông tin web khó tìm
  • Trong các tác vụ của nhà phân tích ngân hàng đầu tư và phân tích dữ liệu phức tạp, hệ thống cho ra kết quả chính xác và bao quát hơn các công cụ trước đây
  • Có tính ứng dụng cao cho công việc thực tế và tự động hóa đời sống hằng ngày
    • Công việc:
      • tự động tạo bản trình bày
      • điều phối lịch họp
      • cập nhật bảng tính dựa trên dữ liệu tài chính
    • Đời sống hằng ngày:
      • lập kế hoạch và đặt chỗ cho chuyến đi
      • lên kế hoạch sự kiện và kết nối tư vấn chuyên gia

Kích hoạt, trường hợp sử dụng, giới hạn

  • Sau khi chọn ‘chế độ agent’, chỉ cần nhập mô tả tác vụ bằng tiếng Hàn hoặc tiếng Anh là hệ thống sẽ tự động bắt đầu thực hiện
  • Cung cấp thuyết minh trên màn hình trong suốt quá trình, và có thể chuyển sang điều khiển thủ công khi cần
  • Giới thiệu hệ thống credit linh hoạt như đặt lịch tự động cho công việc lặp lại và giới hạn số lượt tác vụ theo tháng
  • Người dùng Operator/nghiên cứu chuyên sâu hiện tại sẽ dùng tạm dưới 30 ngày rồi được hợp nhất chuyển sang agent
  • Một số tính năng mới như tạo slideshow hiện đang ở trạng thái beta, và chất lượng đầu ra cùng mức độ hoàn thiện sẽ tiếp tục được cải thiện sau này

An toàn, bảo vệ quyền riêng tư, ngăn chặn hành vi độc hại

  • Trước khi thực hiện các tác vụ có thể tạo thay đổi trong thế giới thực, hệ thống luôn yêu cầu xác nhận người dùng danh nghĩa và xin phép hành động
  • Với các tác vụ nhạy cảm cần giám sát chủ động, hệ thống yêu cầu phê duyệt theo từng bước, đồng thời từ chối các giao dịch rủi ro cao và tương tác pháp lý
  • Đã thiết kế cơ chế phát hiện và phòng vệ trước các tấn công độc hại từ bên thứ ba như prompt injection; khi không rõ ràng sẽ cảnh báo rủi ro, đưa ra lựa chọn và chỉ hoạt động sau khi người dùng xác nhận cuối cùng
  • Để ngăn lạm dụng, các chính sách an toàn hiện có của ChatGPT được áp dụng ở mức sâu hơn, và điều khoản sử dụng cùng chính sách của OpenAI được thực thi bắt buộc
  • Để tăng cường bảo vệ quyền riêng tư, dữ liệu trình duyệt từ xa không được lưu trên máy chủ riêng
  • Quyền kiểm soát toàn bộ dữ liệu duyệt web và phiên làm việc thuộc hoàn toàn về người dùng, có thể xóa ngay hoặc đăng xuất bất cứ lúc nào
  • chế độ điều khiển trực tiếp, ChatGPT không thể nhìn thấy thông tin đầu vào cá nhân

Triển khai agent, chính sách và hướng dẫn sử dụng

  • Người dùng Pro, Plus và Team có thể sử dụng ngay lập tức; người dùng doanh nghiệp/giáo dục dự kiến được mở rộng trong tháng 7
  • Gói Pro gần như không giới hạn, còn các gói khác có thể dùng hệ thống 50 lượt mỗi tháng + credit bổ sung
  • Có thể liên kết workflow và connector của từng người dùng để tận dụng cho nhiều mục đích như tóm tắt thông tin chỉ đọc hoặc phân tích lịch trình
  • Bản nghiên cứu preview của Operator sẽ kết thúc sau 30 ngày; nghiên cứu chuyên sâu có thể được kích hoạt riêng khi cần
  • ChatGPT Agent vẫn đang được cải tiến liên tục, và khả năng xử lý workflow chuyên sâu, linh hoạt cũng như chất lượng đầu ra sẽ dần được nâng cao

Tính năng slideshow và định hướng tiếp theo

  • Tạo slideshow hiện đang ở giai đoạn beta; nếu không bao gồm tài liệu sẵn có thì mức độ hoàn thiện và định dạng có thể còn chưa tốt
  • Hệ thống cấu thành các yếu tố như văn bản, biểu đồ và hình ảnh dưới dạng vector dễ chỉnh sửa, nhằm tăng tính cấu trúc và độ linh hoạt
  • Tính năng tải lên hiện có thể áp dụng cho bảng tính, nhưng với slideshow sẽ được bổ sung sau
  • Trong tương lai, với nhiều tính năng và định dạng đa dạng hơn cùng đầu ra được tinh chỉnh, năng lực tự động hóa được kỳ vọng sẽ tiếp tục tăng lên

So sánh hiệu năng khác và tiêu chí đánh giá

Mô hình Theo ô Theo sheet Tổng điểm
GPT‑4o 15.86% 18.33% 16.81%
OpenAI o3 22.40% 24.60% 23.25%
ChatGPT Agent 38.27% 30.48% 35.27%
ChatGPT (.xlsx) 50.56% 37.51% 45.54%
Con người 75.56% 65.00% 71.33%
  • Theo bảng benchmark hiệu năng, dù ChatGPT Agent trong môi trường .xlsx và đánh giá LibreOffice vẫn chưa đạt mức điểm của con người, nhưng trong số các mô hình AI thì đây là mức vượt trội áp đảo
  • Do khác biệt môi trường đánh giá, một số sai lệch nhỏ về số liệu có thể xuất hiện; tuy vậy, hệ thống đã chứng minh năng lực tổng thể qua toàn bộ 912 câu hỏi đánh giá bảng tính

1 bình luận

 
GN⁺ 2025-07-18
Ý kiến trên Hacker News
  • Tôi thấy video ví dụ về "bảng tính" khá thú vị. Bình thường để làm một báo cáo phức tạp với nhiều dữ liệu thì mất 4–8 tiếng, nhưng giờ chỉ cần giao cho agent rồi đi dạo một vòng là có dữ liệu mang về. Họ nói kết quả phản ánh chính xác 98%, chỉ cần copy/paste vài chỗ là xong. Tôi nghĩ như vậy tiết kiệm được 90–95% thời gian. Nhưng tôi cũng cảm thấy chính việc tìm ra 2% lỗi đó mới thực sự có thể tốn rất nhiều thời gian. Đặc biệt với các công việc phức tạp hoặc liên quan đến tiền bạc, kiểu "gần như đúng" có thể trở thành một rắc rối lớn. Nếu những lỗi tinh vi trong 2% đó ẩn trong nhiều bước thì thực sự rất nguy hiểm

    • Tôi nghĩ đây chính là ví dụ điển hình của cái bẫy kỳ vọng quá mức vào AI. Tự động hóa việc thu thập và kiểm chứng dữ liệu là một cách dùng tốt. Nhưng mọi người đang nghĩ quá xa theo hướng AI sẽ làm thay toàn bộ công việc. Chỉ cần nghe câu "đúng 98%" là ai từng làm bảng tính cũng nên cảnh giác, vì trước khi tự mình rà soát toàn bộ thì rất khó biết 2% nào là sai. Với code cũng vậy, người biết tận dụng AI đúng mức và tự review sẽ cho kết quả tốt hơn. Ngược lại, kiểu chỉ lặp lại prompt cho đến khi test pass rồi nộp PR ngay thì tôi nghĩ sẽ gây ra vấn đề nghiêm trọng
    • Trong thế giới AI, chính cách suy nghĩ xem nhẹ 2% đó giống như một dạng thôi miên tập thể. Ví dụ như phép so sánh 'nhấn nút: 1 đô la, biết nhấn nút nào: 9.999 đô la', việc sửa 2% này trên thực tế có thể mang giá trị cực lớn. Thời gian tìm ra nó cũng có thể bằng với 98% còn lại
    • Tôi nghĩ trong hiện tượng này quy luật Pareto đang phát huy tác dụng. Ngay cả xe tự lái, một lĩnh vực lân cận, cũng nhiều năm rồi vẫn chưa vượt qua được 20% cuối cùng. Có thời xe tự lái là tâm điểm của mọi cuộc tranh luận, mà giờ gần như chẳng còn ai nói đến nữa, điều đó khá lạ
    • Đây đúng là cùng một vấn đề tôi gặp khi dùng LLM cho các việc đòi hỏi độ chính xác cao. Giống như pipeline dữ liệu nhiều bước, bề ngoài có thể trông hoàn hảo nhưng khi kiểm tra dữ liệu thực thì lại thấy có gì đó lệch đi. Rồi cuối cùng bạn phải đào vào một đống code quá dài để tìm vài lỗi nhỏ nhưng quan trọng, và thời gian công sức bỏ ra lại ngang với việc tự viết từ đầu
  • Tôi thực sự thấy các mối đe dọa bảo mật rất đáng sợ. Ví dụ nếu cấp quyền truy cập email và lịch thì nó có thể biết toàn bộ bí mật của tôi. Bài viết cũng thừa nhận rủi ro prompt injection. Nếu một trang web độc hại giấu prompt trong các phần tử vô hình hoặc metadata mà agent không phát hiện được, dữ liệu cá nhân có thể bị rò rỉ cho kẻ tấn công. Tôi nghĩ website độc hại hoàn toàn có thể lấy cắp bí mật của tôi. Điều tôi thắc mắc là bài viết nói trước những hành động quan trọng thì luôn phải có xác nhận của người dùng, nhưng rốt cuộc AI đánh giá thế nào là 'hành động quan trọng'? Tôi lo liệu có thể xảy ra chuyện nó thanh toán nhầm mà không hỏi xác nhận người dùng hay không

    • Tôi nghĩ tấn công prompt injection qua lời mời lịch gần như chắc chắn sẽ xuất hiện. Lời mời lịch vốn đã chứa rất nhiều câu chữ được tạo tự động và hầu như chẳng ai đọc kỹ hết, nên cực kỳ dễ lén chèn mã tấn công vào. Khi đó lịch của nạn nhân cùng các dữ liệu cá nhân khác có thể bị lấy sạch
    • Trong IT đã có rất nhiều người phân biệt điện toán private và public, nhưng sắp tới tôi thấy sẽ cần một tầng ở giữa. Ví dụ có thể cân nhắc phân loại thành dữ liệu rủi ro trung gian như lịch đã ẩn danh và không nhạy cảm, nhật ký không đáng lo, ghi chú nghiên cứu, v.v. Tôi không dùng ChatGPT cho các việc như tư vấn y tế hay nội dung nhạy cảm. Nghe nói nhiều người có dùng, nhưng tôi vẫn còn thấy bất an
    • Gần như ai cũng có thể gửi lời mời vào lịch của người khác (dĩ nhiên không phải ai cũng sẽ được chấp nhận). Khi các agent kiểu này trở nên phổ biến, hacker chắc chắn sẽ phát tán các thư mời lừa đảo chỉ chứa đúng loại prompt mà chúng muốn
    • Tôi khó mà hình dung việc vừa trao quyền truy cập dữ liệu của mình lại vừa cảm thấy "sợ hãi". Có thể là lo lắng thì được, nhưng đến mức sợ thì không
    • Tỷ lệ blackmail mô phỏng của GPT-4.1 do Anthropic đo được là 0,8%
      Nghiên cứu liên quan đến agentic misalignment
      Họ phân tích rằng nó có thể hoạt động theo dạng tương tự một mối đe dọa nội bộ, khi một đồng nghiệp vốn được tin tưởng đột nhiên hành động trái với chính sách công ty
  • Có lẽ vì tôi đang trực tiếp xây dựng business về agent, nên tôi thấy rất rõ rằng bước nhảy từ 90% lên 99% là một bài toán last mile cực khó trong lĩnh vực LLM. Tính đa dụng càng cao thì khả năng thất bại hay gây thất vọng càng lớn. Thực tế tôi có cảm giác họ chỉ tối ưu những phần trông dễ trên demo và giấu đi hiện thực bất tiện. Nhưng điều đó không có nghĩa agent là vô giá trị; chỉ là cần phân biệt giữa tác động tiềm năng và kỳ vọng bị thổi phồng

    • Các "đột phá" AI gần đây đều xuất phát từ những thành quả khoa học và nghiên cứu vững chắc
      • AlphaGo/AlphaZero(MCTS)
      • OpenAI Five(PPO)
      • GPT 1/2/3(Transformers)
      • Dall-e, Stable Diffusion(CLIP, Diffusion)
      • ChatGPT(RLHF)
      • SORA(Diffusion Transformers)
        Nhưng tôi nghĩ "agent" chỉ là một thuật ngữ marketing, và còn thiếu nền tảng đủ mạnh để dùng đa dụng như LLM. Dữ liệu liên quan cũng hầu như không có
    • Tôi cảm thấy cùng một vấn đề như outsourcing. 90% thì xong rất nhanh, nhưng 10% còn lại thực sự rất khó, và còn phụ thuộc vào việc 90% phía trước đã được làm như thế nào
    • Tôi nghĩ nhiều công ty chỉ cho xem happy path trên demo và giấu đi thực tế thật. Gần như mọi công ty AI dạo này đều như vậy
    • Dạo này tôi nghĩ nếu dùng RL để tích lũy đủ dữ liệu sử dụng thực rồi huấn luyện thì có thể nâng độ chính xác lên. Chỉ dùng prompt thì có giới hạn, nên nếu dạy theo từng tác vụ cụ thể thì sẽ tốt hơn nhiều. Một hướng khả thi khác là sinh song song rồi chọn theo đa số, hoặc để LLM làm giám khảo. Nhưng cuối cùng ở Silicon Valley, hype vẫn vận hành rất mạnh. Vì hype thúc đẩy tăng trưởng công ty nên tôi nghĩ bầu không khí này sẽ chưa thay đổi đâu
    • Mức độ hoàn thiện của demo cũng không cao. Thực tế ngay cả trong video chat live có Sam Altman tham gia, bộ lập kế hoạch tour sân bóng chày cũng rất cẩu thả, vẽ đường bừa bãi, bỏ qua hẳn bờ Đông rồi lao xuống Vịnh Mexico. Dù đó còn là video quay sẵn phát như live mà chất lượng đã như vậy
  • Trước đây vấn đề lớn của các CLI agent là không giữ được session, còn lần này có vẻ phần đó đã được giải quyết khá tốt. Ngày xưa nếu chạy claude code trên terminal local thì có thể dễ dàng đưa vào ngữ cảnh cần thiết, nhưng hễ gập laptop hoặc mất kết nối là mọi thứ dừng hết.
    Cách chữa cháy là dùng Amphetamine trên MacOS để dù gập máy tiến trình vẫn tiếp tục chạy, nhưng lại có vấn đề nóng máy và lãng phí pin. Cách khác là clone repo lên cloud instance rồi kết nối bằng tmux để chạy claude. Tuy vậy về UX thì chuyện khó nạp lại context vẫn luôn còn đó. Nhờ sandboxing cũng có thể kỳ vọng phần nào về bảo mật, và cũng có cách chạy bằng quyền của một tài khoản cụ thể.
    Tôi thấy thú vị khi OpenAI có vẻ đang suy nghĩ về một Agent UX mà cả người không phải developer cũng dùng được

    • Lightning.ai cung cấp dev box miễn phí chỉ có CPU, nên tôi chạy Claude code ở đó
    • Tôi đang chạy những tác vụ kéo dài vài phút trở lên mà không cần can thiệp giữa chừng
    • Thà làm dev trên một server không bị ngắt kết nối còn hơn
  • Tôi đã dùng OpenAI operator lâu rồi, nhưng dạo này nó bị chặn trên LinkedIn và Amazon. Hai trang đó vốn là những nơi dùng cốt lõi cho nộp đơn xin việc và mua sắm. Operator dùng tương đối kín đáo, nhưng khi Agent nổi tiếng hơn thì có vẻ sẽ còn nhiều website chặn hơn nữa. Cuối cùng có lẽ họ sẽ phải hỗ trợ cấu hình proxy

    • Tôi nghĩ đây mới thật sự là vấn đề cốt lõi. Tôi đã tưởng sẽ có cách chạy trực tiếp ở local hoặc ít nhất là cấu hình proxy, nhưng chẳng thấy nhắc đến. Có lẽ kinh nghiệm từ Deepseek R1 distill, nơi người ta cũng thận trọng khi công bố kết quả trung gian hay bí quyết, đã ảnh hưởng đến chuyện này. Ngay từ thời operator đầu tiên, đã có rất nhiều site chặn truy cập từ IP datacenter; tôi từng gắn thêm proxy thủ công mới thử được, nhưng rồi hạn chế ngày càng nặng mà hiệu năng thì không cải thiện. Giờ tôi thấy nó gần như vô dụng. Cuối cùng nếu không bắt tay với những nơi như eastdakota thì nỗ lực duyệt web trực tiếp từ server có lẽ sẽ không mấy ý nghĩa. "Sử dụng máy tính" theo nghĩa thông thường thì đa phần file/phần mềm local tiện hơn nhiều, và điều mỉa mai là rốt cuộc việc remote agent làm cũng lại dựa trên CLI
    • Đây là chiến lược kiểu Silicon Valley: cứ tung ra thị trường trước rồi thu thập hiệu ứng phía sau. Tôi kỳ vọng chẳng bao lâu nữa OpenAI sẽ bắt tay với LinkedIn và Amazon. Thậm chí tôi nghĩ LinkedIn có thể thêm một tier trả phí mới cho truy cập qua OpenAI
    • Nếu người dùng thực sự đặt mua hàng thật thông qua Agent hay operator, tôi nghĩ các site như Amazon sẽ không còn lý do để tiếp tục chặn nữa
    • Tôi đã phát triển một công cụ tương tự, chạy desktop trên residential proxy nên phần lớn đều có thể vượt qua.
      agenttutor.com
    • Thói quen để agents tuân thủ robots.txt có lẽ sắp chấm dứt. Người dùng có vẻ sẽ đi theo hướng cài browser extension hoặc cả trình duyệt đầy đủ để nó hoạt động bằng cookie và IP của chính họ
  • Theo dự đoán của nhóm AI 2027: giữa năm 2025 sẽ xuất hiện ‘những agent chập chững’. Những AI agent đầu tiên sẽ được công khai cho đại chúng.
    Sẽ tràn ngập quảng cáo về agent kiểu trợ lý cá nhân dùng máy tính thay bạn. Việc dùng prompt như "hãy đặt một burrito trên DoorDash cho tôi", "hãy cho tôi biết tổng tháng này trong bảng tính ngân sách" sẽ được nhấn mạnh. Dù tiến bộ hơn operator trước đó, họ dự đoán sẽ vẫn khó phổ biến đại trà

    • Dự đoán trước có 4 tháng thì cũng không phải điều gì ghê gớm lắm
    • Cốt lõi của AI 2027 là dự đoán gia tốc tăng trưởng theo hàm mũ của công nghệ. Tôi xem "agent" như việc đóng gói công nghệ sẵn có của OpenAI trong một frontend mới. Có lẽ phải đến đầu 2026 mới đánh giá tử tế được
    • Tại thời điểm viết báo cáo thì việc các tập đoàn lớn đang phát triển sản phẩm agent đã là điều ai cũng biết. Nó thiên về mức thường thức hơn là một dự đoán đột phá
  • Đến giờ vẫn chưa có tính năng đơn giản mà tôi muốn, đó là chỉnh sửa tài liệu trong project. Tôi làm nhiều loại tài liệu theo từng project như bài viết, nghiên cứu, script, v.v. Tôi muốn tiếp tục công việc với sự hỗ trợ của ChatGPT theo từng câu. Thậm chí tôi còn hình dung lúc đang đi dạo có thể làm việc bằng giọng nói với tài liệu kiểu: "Tài liệu tôi vừa làm đến đoạn nào rồi? Đọc lại hai đoạn cuối xem... Từ đây tôi sẽ viết dài hơn một chút." Hỗ trợ coding thì phát triển rực rỡ, còn viết lách vẫn mắc kẹt ở mức copy-paste là điều đáng tiếc

    • Nhiều lúc việc cứ phải sao chép qua clipboard rất phiền. Vì vậy ngay cả mở ChatGPT lên tôi cũng thấy bất tiện và chần chừ dùng. Khi đã quen với NLE, plugin hay công việc theo timecode, workflow bị đứt đoạn còn khó chịu hơn
    • Aider thực ra đã làm được kiểu việc này từ lâu với model miễn phí. Nhưng các dịch vụ lớn thì ngay cả trả phí cũng không cung cấp. Có lúc tôi nghĩ hay là tự làm dịch vụ, nhưng rồi lại bỏ vì cảm giác sớm muộn gì các công ty lớn cũng sẽ làm, mình chỉ tốn công vô ích
  • Đã có nhiều nỗ lực cung cấp VPS cho LLM, nhưng cách triển khai lần này của OpenAI khiến tôi thấy UI thực sự rất mạnh. Text overlay, con trỏ chuột dễ nhìn, UI được tùy biến giúp người dùng hiểu ngay tiến trình và lý do. Tôi nghĩ đội UI của OpenAI làm sản phẩm cực tốt. Việc bổ sung lớp thông tin thị giác mới cho cách dùng LLM khá thú vị, và có vài phần tôi muốn tham khảo cho project cá nhân.
    Về mặt chức năng, tôi không thấy khác biệt lớn với Claude+XFCE, nhưng về độ hoàn thiện hình ảnh thì OpenAI tiện hơn. Trong khi đó các cách triển khai trước đây đọc rất mệt

  • Tôi khó mà hình dung agent ở trình độ hiện tại lại thật sự hữu ích trong đời sống hằng ngày của tôi. Nếu muốn lên kế hoạch date night với vợ thì phải kiểm tra lịch, gợi ý nhà hàng hợp gu, đặt người trông trẻ, và còn rất nhiều thứ khác phải làm đúng, nghĩa là cần mức độ tin cậy rất cao. Tôi thấy hào hứng khi công nghệ này cứ tiến bộ dần, nhưng hiện tại nó vẫn chỉ mới trông có lý trên demo. Để triển khai thực chiến sẽ cần tích hợp hệ thống khổng lồ, và tôi nghĩ nếu Apple hay Microsoft tận dụng được vị thế tích hợp đó thì họ có thể làm ra agent thực sự hữu ích

    • Có lẽ "bài học nền tảng của việc ra quyết định hành động" là những bài toán khó trong đời sống thực ra không khó vì xử lý thông tin, mà vì giá trị cá nhân và các mối quan hệ con người quá phức tạp. Ví dụ đặt chỗ nhà hàng thì dễ, nhưng chọn nhà hàng nào cho hôm đó mới là vấn đề cực khó. LLM đâu có nhớ chỗ hẹn hò đầu tiên của bạn, hay biết rằng lần ăn sushi gần nhất vợ bạn bị ngộ độc thực phẩm. Nó không theo kịp mức siêu cá nhân hóa đó. Ngay cả concierge con người cũng thấy khó.
      Tôi không nghĩ những tác vụ như lên kế hoạch tiệc sinh nhật cho con gái sẽ được giải quyết trước cả việc giải các bài toán toán học nan giải
    • Điểm hay của loại agent này là nó giống việc một người bận rộn thuê trợ lý cá nhân, nhưng rẻ hơn rất nhiều. Như một trợ lý hỏi "người giữ trẻ này hay nhà hàng này thì sao? Tôi đặt nhé?", việc yêu cầu tự nhiên qua một giao diện duy nhất giúp giảm gánh nặng tinh thần đáng kể. Chỉ cần nói "ừ, đặt đi" là xong.
      Theo tôi, mô hình "thực hiện một phát xong luôn" của agent lại sai về mặt UX. Thứ thực sự ăn vào đời sống là kiểu đơn giản, bất đồng bộ, trao đổi những phần cần thiết như chat, thay vì bắt nó chạy vòng quanh nhiều app
    • Thực ra agents chỉ là core chat model + system prompt + parse phản hồi và thực thi action + đưa kết quả vào prompt tiếp theo + hướng dẫn model về danh sách action. Đây không phải đổi mới mang tính nền tảng, và tự làm cũng khá đơn giản. Tôi nghĩ cốt lõi là thiết kế wrapper và system instruction. Ví dụ nếu tạo một guide chat tích hợp cả lịch, lịch sử vị trí, đặt người giữ trẻ thì hoàn toàn có thể tự động hóa
    • Tôi nghĩ đây mới là hình mẫu "agent cá nhân" lý tưởng thật sự. Apple từng hứa đúng kiểu này ở WWDC năm ngoái nên tôi cũng thất vọng khá nhiều. Ngay cả thử Gemini trên Pixel 9 pro cũng còn rất xa mức tích hợp đó. Trên hết, niềm tin vẫn là rào cản lớn. LLM trả lời sai nhưng quá tự tin, nên việc để nó gửi tin nhắn thay mình hoặc thêm ai đó vào lịch mà mình không biết rõ khiến tôi bất an; tôi chưa muốn giao toàn bộ cho nó một cách hoàn toàn tự chủ
    • Đặc biệt trong du lịch, nó hữu ích cho việc thu thập và so sánh thông tin, nhưng các cuộc hội thoại tùy biến theo thời gian thực về vị trí hiện tại của tôi, thời gian, thời tiết, đặt chỗ/thanh toán vẫn còn bất tiện. Nếu sau này phát triển thành trợ lý du lịch cá nhân hóa thật sự (hoặc cho cả nhóm) thì sẽ rất tuyệt
  • Điều thực sự gây ấn tượng với tôi là họ nhấn mạnh rất mạnh các rủi ro khi cho phép truy cập vào thông tin tài khoản thật và dữ liệu nhạy cảm

    • Tôi cũng ngạc nhiên khi bình luận này chỉ xuất hiện ở khá thấp bên dưới. Có lẽ vì tôi sống ngoài nước Mỹ nên góc nhìn có phần khác biệt