- ChatGPT Agent sử dụng máy tính ảo riêng để xử lý các tác vụ phức tạp của người dùng từ đầu đến cuối
- Một hệ thống agent mới kết hợp khả năng tương tác website của Operator với năng lực phân tích thông tin của nghiên cứu chuyên sâu, cho phép thực hiện linh hoạt từ nhấp chuột, nhập liệu đến chạy mã
- Người dùng có thể ra lệnh để agent thay mặt thực hiện các tác vụ như gửi biểu mẫu, đặt chỗ, tạo tệp, và có thể can thiệp bất cứ lúc nào
- Đã chứng minh hiệu năng vượt trội so với các mô hình trước đó trên nhiều benchmark thực tế như SpreadsheetBench, DSBench, BrowseComp
- Người dùng Pro, Plus và Team có thể sử dụng từ hôm nay, đồng thời các tính năng kiểm soát dữ liệu người dùng và bảo mật cũng được thiết kế chặt chẽ
ChatGPT Agent kết nối nghiên cứu và hành động
Giới thiệu tính năng agent
- ChatGPT được mở rộng để có thể thực hiện các tác vụ phức tạp thay cho người dùng thông qua máy tính ảo riêng
- ChatGPT Agent tích hợp khả năng phân tích của Operator (tương tác dựa trên trình duyệt từ xa) và nghiên cứu chuyên sâu (công cụ suy luận web nhiều bước) vào một mô hình agent duy nhất
- Operator mạnh ở các thao tác trên web như cuộn, nhấp và điền biểu mẫu, nhưng có giới hạn trong phân tích chuyên sâu hoặc soạn báo cáo
- Ngược lại, nghiên cứu chuyên sâu chuyên về phân tích và tóm tắt, nhưng không thể tương tác website theo thời gian thực hoặc truy cập nội dung yêu cầu xác thực
- Bằng cách hợp nhất các ưu điểm bổ trợ của hai công cụ, hệ thống cung cấp hiệu quả cao trong một môi trường thống nhất, từ nhấp chuột, lọc đến thu thập dữ liệu
- Có thể chuyển đổi linh hoạt giữa hội thoại và yêu cầu ngay trong giao diện chat
- Ví dụ:
- “Phân tích ba đối thủ cạnh tranh và tạo một slideshow cho tôi”
- “Tóm tắt cuộc họp tiếp theo dựa trên tin tức gần đây”
Cách hoạt động và tương tác
- ChatGPT Agent được trang bị nhiều công cụ truy cập web như trình duyệt trực quan dựa trên GUI, trình duyệt dựa trên văn bản và kết nối API trực tiếp
- Khi thực thi tác vụ, hệ thống kết hợp trình duyệt, API và suy luận văn bản theo cách phù hợp nhất để động chọn lộ trình tối ưu
- Có thể thực hiện tác vụ end-to-end như nhấp vào website, lọc thông tin, hướng dẫn đăng nhập, chạy mã, tóm tắt kết quả và tạo slide
- Người dùng có thể can thiệp bất cứ lúc nào trong quá trình làm việc, và có thể trực tiếp nhận quyền điều khiển trình duyệt
- Có thể thêm chỉ dẫn, đổi hướng công việc, dừng lại và yêu cầu kết quả hiện tại vào bất kỳ lúc nào
- Tác vụ đang chạy có thể dừng rồi khởi động lại bất cứ lúc nào, đồng thời duy trì tính nhất quán nhờ chia sẻ ngữ cảnh
- Khi không chắc chắn, ChatGPT sẽ chủ động yêu cầu thêm thông tin
- Thông qua quy trình xác thực đăng nhập của người dùng, hệ thống cũng có thể truy cập an toàn vào dữ liệu doanh nghiệp hoặc dữ liệu cá nhân
Hiệu năng nổi bật và các trường hợp sử dụng
- Đạt điểm vượt trội so với các mô hình trước trên những benchmark uy tín
- Humanity’s Last Exam: đạt 43.1 điểm ở các câu hỏi cấp độ chuyên gia
- DSBench: vượt trội áp đảo so với các mô hình trước trong các tác vụ khoa học dữ liệu
- SpreadsheetBench:
- đạt 45.5% trong chỉnh sửa trực tiếp bảng tính
.xlsx, vượt xa GPT‑4o (13.38%) và Excel Copilot (20%)
- WebArena: cũng vượt qua mô hình Operator trước đây trong các tác vụ tương tác web thực tế
- BrowseComp: lập kỷ lục cao nhất với 68.9 điểm ở khả năng thu thập thông tin web khó tìm
- Trong các tác vụ của nhà phân tích ngân hàng đầu tư và phân tích dữ liệu phức tạp, hệ thống cho ra kết quả chính xác và bao quát hơn các công cụ trước đây
- Có tính ứng dụng cao cho công việc thực tế và tự động hóa đời sống hằng ngày
- Công việc:
- tự động tạo bản trình bày
- điều phối lịch họp
- cập nhật bảng tính dựa trên dữ liệu tài chính
- Đời sống hằng ngày:
- lập kế hoạch và đặt chỗ cho chuyến đi
- lên kế hoạch sự kiện và kết nối tư vấn chuyên gia
Kích hoạt, trường hợp sử dụng, giới hạn
- Sau khi chọn ‘chế độ agent’, chỉ cần nhập mô tả tác vụ bằng tiếng Hàn hoặc tiếng Anh là hệ thống sẽ tự động bắt đầu thực hiện
- Cung cấp thuyết minh trên màn hình trong suốt quá trình, và có thể chuyển sang điều khiển thủ công khi cần
- Giới thiệu hệ thống credit linh hoạt như đặt lịch tự động cho công việc lặp lại và giới hạn số lượt tác vụ theo tháng
- Người dùng Operator/nghiên cứu chuyên sâu hiện tại sẽ dùng tạm dưới 30 ngày rồi được hợp nhất chuyển sang agent
- Một số tính năng mới như tạo slideshow hiện đang ở trạng thái beta, và chất lượng đầu ra cùng mức độ hoàn thiện sẽ tiếp tục được cải thiện sau này
An toàn, bảo vệ quyền riêng tư, ngăn chặn hành vi độc hại
- Trước khi thực hiện các tác vụ có thể tạo thay đổi trong thế giới thực, hệ thống luôn yêu cầu xác nhận người dùng danh nghĩa và xin phép hành động
- Với các tác vụ nhạy cảm cần giám sát chủ động, hệ thống yêu cầu phê duyệt theo từng bước, đồng thời từ chối các giao dịch rủi ro cao và tương tác pháp lý
- Đã thiết kế cơ chế phát hiện và phòng vệ trước các tấn công độc hại từ bên thứ ba như prompt injection; khi không rõ ràng sẽ cảnh báo rủi ro, đưa ra lựa chọn và chỉ hoạt động sau khi người dùng xác nhận cuối cùng
- Để ngăn lạm dụng, các chính sách an toàn hiện có của ChatGPT được áp dụng ở mức sâu hơn, và điều khoản sử dụng cùng chính sách của OpenAI được thực thi bắt buộc
- Để tăng cường bảo vệ quyền riêng tư, dữ liệu trình duyệt từ xa không được lưu trên máy chủ riêng
- Quyền kiểm soát toàn bộ dữ liệu duyệt web và phiên làm việc thuộc hoàn toàn về người dùng, có thể xóa ngay hoặc đăng xuất bất cứ lúc nào
- Ở chế độ điều khiển trực tiếp, ChatGPT không thể nhìn thấy thông tin đầu vào cá nhân
Triển khai agent, chính sách và hướng dẫn sử dụng
- Người dùng Pro, Plus và Team có thể sử dụng ngay lập tức; người dùng doanh nghiệp/giáo dục dự kiến được mở rộng trong tháng 7
- Gói Pro gần như không giới hạn, còn các gói khác có thể dùng hệ thống 50 lượt mỗi tháng + credit bổ sung
- Có thể liên kết workflow và connector của từng người dùng để tận dụng cho nhiều mục đích như tóm tắt thông tin chỉ đọc hoặc phân tích lịch trình
- Bản nghiên cứu preview của Operator sẽ kết thúc sau 30 ngày; nghiên cứu chuyên sâu có thể được kích hoạt riêng khi cần
- ChatGPT Agent vẫn đang được cải tiến liên tục, và khả năng xử lý workflow chuyên sâu, linh hoạt cũng như chất lượng đầu ra sẽ dần được nâng cao
Tính năng slideshow và định hướng tiếp theo
- Tạo slideshow hiện đang ở giai đoạn beta; nếu không bao gồm tài liệu sẵn có thì mức độ hoàn thiện và định dạng có thể còn chưa tốt
- Hệ thống cấu thành các yếu tố như văn bản, biểu đồ và hình ảnh dưới dạng vector dễ chỉnh sửa, nhằm tăng tính cấu trúc và độ linh hoạt
- Tính năng tải lên hiện có thể áp dụng cho bảng tính, nhưng với slideshow sẽ được bổ sung sau
- Trong tương lai, với nhiều tính năng và định dạng đa dạng hơn cùng đầu ra được tinh chỉnh, năng lực tự động hóa được kỳ vọng sẽ tiếp tục tăng lên
So sánh hiệu năng khác và tiêu chí đánh giá
| Mô hình |
Theo ô |
Theo sheet |
Tổng điểm |
| GPT‑4o |
15.86% |
18.33% |
16.81% |
| OpenAI o3 |
22.40% |
24.60% |
23.25% |
| ChatGPT Agent |
38.27% |
30.48% |
35.27% |
| ChatGPT (.xlsx) |
50.56% |
37.51% |
45.54% |
| Con người |
75.56% |
65.00% |
71.33% |
- Theo bảng benchmark hiệu năng, dù ChatGPT Agent trong môi trường .xlsx và đánh giá LibreOffice vẫn chưa đạt mức điểm của con người, nhưng trong số các mô hình AI thì đây là mức vượt trội áp đảo
- Do khác biệt môi trường đánh giá, một số sai lệch nhỏ về số liệu có thể xuất hiện; tuy vậy, hệ thống đã chứng minh năng lực tổng thể qua toàn bộ 912 câu hỏi đánh giá bảng tính
1 bình luận
Ý kiến trên Hacker News
Tôi thấy video ví dụ về "bảng tính" khá thú vị. Bình thường để làm một báo cáo phức tạp với nhiều dữ liệu thì mất 4–8 tiếng, nhưng giờ chỉ cần giao cho agent rồi đi dạo một vòng là có dữ liệu mang về. Họ nói kết quả phản ánh chính xác 98%, chỉ cần copy/paste vài chỗ là xong. Tôi nghĩ như vậy tiết kiệm được 90–95% thời gian. Nhưng tôi cũng cảm thấy chính việc tìm ra 2% lỗi đó mới thực sự có thể tốn rất nhiều thời gian. Đặc biệt với các công việc phức tạp hoặc liên quan đến tiền bạc, kiểu "gần như đúng" có thể trở thành một rắc rối lớn. Nếu những lỗi tinh vi trong 2% đó ẩn trong nhiều bước thì thực sự rất nguy hiểm
Tôi thực sự thấy các mối đe dọa bảo mật rất đáng sợ. Ví dụ nếu cấp quyền truy cập email và lịch thì nó có thể biết toàn bộ bí mật của tôi. Bài viết cũng thừa nhận rủi ro prompt injection. Nếu một trang web độc hại giấu prompt trong các phần tử vô hình hoặc metadata mà agent không phát hiện được, dữ liệu cá nhân có thể bị rò rỉ cho kẻ tấn công. Tôi nghĩ website độc hại hoàn toàn có thể lấy cắp bí mật của tôi. Điều tôi thắc mắc là bài viết nói trước những hành động quan trọng thì luôn phải có xác nhận của người dùng, nhưng rốt cuộc AI đánh giá thế nào là 'hành động quan trọng'? Tôi lo liệu có thể xảy ra chuyện nó thanh toán nhầm mà không hỏi xác nhận người dùng hay không
Nghiên cứu liên quan đến agentic misalignment
Họ phân tích rằng nó có thể hoạt động theo dạng tương tự một mối đe dọa nội bộ, khi một đồng nghiệp vốn được tin tưởng đột nhiên hành động trái với chính sách công ty
Có lẽ vì tôi đang trực tiếp xây dựng business về agent, nên tôi thấy rất rõ rằng bước nhảy từ 90% lên 99% là một bài toán last mile cực khó trong lĩnh vực LLM. Tính đa dụng càng cao thì khả năng thất bại hay gây thất vọng càng lớn. Thực tế tôi có cảm giác họ chỉ tối ưu những phần trông dễ trên demo và giấu đi hiện thực bất tiện. Nhưng điều đó không có nghĩa agent là vô giá trị; chỉ là cần phân biệt giữa tác động tiềm năng và kỳ vọng bị thổi phồng
Nhưng tôi nghĩ "agent" chỉ là một thuật ngữ marketing, và còn thiếu nền tảng đủ mạnh để dùng đa dụng như LLM. Dữ liệu liên quan cũng hầu như không có
Trước đây vấn đề lớn của các CLI agent là không giữ được session, còn lần này có vẻ phần đó đã được giải quyết khá tốt. Ngày xưa nếu chạy claude code trên terminal local thì có thể dễ dàng đưa vào ngữ cảnh cần thiết, nhưng hễ gập laptop hoặc mất kết nối là mọi thứ dừng hết.
Cách chữa cháy là dùng Amphetamine trên MacOS để dù gập máy tiến trình vẫn tiếp tục chạy, nhưng lại có vấn đề nóng máy và lãng phí pin. Cách khác là clone repo lên cloud instance rồi kết nối bằng tmux để chạy claude. Tuy vậy về UX thì chuyện khó nạp lại context vẫn luôn còn đó. Nhờ sandboxing cũng có thể kỳ vọng phần nào về bảo mật, và cũng có cách chạy bằng quyền của một tài khoản cụ thể.
Tôi thấy thú vị khi OpenAI có vẻ đang suy nghĩ về một Agent UX mà cả người không phải developer cũng dùng được
Tôi đã dùng OpenAI operator lâu rồi, nhưng dạo này nó bị chặn trên LinkedIn và Amazon. Hai trang đó vốn là những nơi dùng cốt lõi cho nộp đơn xin việc và mua sắm. Operator dùng tương đối kín đáo, nhưng khi Agent nổi tiếng hơn thì có vẻ sẽ còn nhiều website chặn hơn nữa. Cuối cùng có lẽ họ sẽ phải hỗ trợ cấu hình proxy
agenttutor.com
Theo dự đoán của nhóm AI 2027: giữa năm 2025 sẽ xuất hiện ‘những agent chập chững’. Những AI agent đầu tiên sẽ được công khai cho đại chúng.
Sẽ tràn ngập quảng cáo về agent kiểu trợ lý cá nhân dùng máy tính thay bạn. Việc dùng prompt như "hãy đặt một burrito trên DoorDash cho tôi", "hãy cho tôi biết tổng tháng này trong bảng tính ngân sách" sẽ được nhấn mạnh. Dù tiến bộ hơn operator trước đó, họ dự đoán sẽ vẫn khó phổ biến đại trà
Đến giờ vẫn chưa có tính năng đơn giản mà tôi muốn, đó là chỉnh sửa tài liệu trong project. Tôi làm nhiều loại tài liệu theo từng project như bài viết, nghiên cứu, script, v.v. Tôi muốn tiếp tục công việc với sự hỗ trợ của ChatGPT theo từng câu. Thậm chí tôi còn hình dung lúc đang đi dạo có thể làm việc bằng giọng nói với tài liệu kiểu: "Tài liệu tôi vừa làm đến đoạn nào rồi? Đọc lại hai đoạn cuối xem... Từ đây tôi sẽ viết dài hơn một chút." Hỗ trợ coding thì phát triển rực rỡ, còn viết lách vẫn mắc kẹt ở mức copy-paste là điều đáng tiếc
Đã có nhiều nỗ lực cung cấp VPS cho LLM, nhưng cách triển khai lần này của OpenAI khiến tôi thấy UI thực sự rất mạnh. Text overlay, con trỏ chuột dễ nhìn, UI được tùy biến giúp người dùng hiểu ngay tiến trình và lý do. Tôi nghĩ đội UI của OpenAI làm sản phẩm cực tốt. Việc bổ sung lớp thông tin thị giác mới cho cách dùng LLM khá thú vị, và có vài phần tôi muốn tham khảo cho project cá nhân.
Về mặt chức năng, tôi không thấy khác biệt lớn với Claude+XFCE, nhưng về độ hoàn thiện hình ảnh thì OpenAI tiện hơn. Trong khi đó các cách triển khai trước đây đọc rất mệt
Tôi khó mà hình dung agent ở trình độ hiện tại lại thật sự hữu ích trong đời sống hằng ngày của tôi. Nếu muốn lên kế hoạch date night với vợ thì phải kiểm tra lịch, gợi ý nhà hàng hợp gu, đặt người trông trẻ, và còn rất nhiều thứ khác phải làm đúng, nghĩa là cần mức độ tin cậy rất cao. Tôi thấy hào hứng khi công nghệ này cứ tiến bộ dần, nhưng hiện tại nó vẫn chỉ mới trông có lý trên demo. Để triển khai thực chiến sẽ cần tích hợp hệ thống khổng lồ, và tôi nghĩ nếu Apple hay Microsoft tận dụng được vị thế tích hợp đó thì họ có thể làm ra agent thực sự hữu ích
Tôi không nghĩ những tác vụ như lên kế hoạch tiệc sinh nhật cho con gái sẽ được giải quyết trước cả việc giải các bài toán toán học nan giải
Theo tôi, mô hình "thực hiện một phát xong luôn" của agent lại sai về mặt UX. Thứ thực sự ăn vào đời sống là kiểu đơn giản, bất đồng bộ, trao đổi những phần cần thiết như chat, thay vì bắt nó chạy vòng quanh nhiều app
Điều thực sự gây ấn tượng với tôi là họ nhấn mạnh rất mạnh các rủi ro khi cho phép truy cập vào thông tin tài khoản thật và dữ liệu nhạy cảm