- OpenAI đã giới thiệu vào ChatGPT tính năng dạng tác tử mới mang tên "nghiên cứu chuyên sâu"
- Tính năng này thu thập, phân tích và tổng hợp lượng lớn thông tin trên internet để tự động giải quyết các tác vụ phức tạp trong vòng vài chục phút
- Là một bước then chốt hướng tới việc đạt được AGI trong tương lai, năng lực "tổng hợp tri thức" có thể tạo ra kiến thức mới là yếu tố thiết yếu
Lý do tạo ra Deep research
- Được phát triển cho những người dùng cần kết quả nghiên cứu kỹ lưỡng và đáng tin cậy, từ lao động tri thức chuyên sâu (tài chính, khoa học, chính sách, kỹ thuật...) đến việc nghiên cứu trước khi mua các mặt hàng tiêu dùng giá trị lớn
- Có thể nhanh chóng tìm ra và hệ thống hóa cả những thông tin ngách hoặc các dữ kiện không trực quan, vốn khó nhận thấy từ nhiều nguồn trực tuyến khác nhau
- Giúp tự động hóa nghiên cứu ở cấp độ chuyên môn, từ đó nâng cao đáng kể năng suất công việc
Cách sử dụng Deep research
- Chọn chế độ Deep research trong ô nhập tin nhắn của ChatGPT
- Có thể đính kèm các tệp hoặc bảng tính cần thiết cùng với yêu cầu (ví dụ: phân tích đối thủ cạnh tranh, đề xuất sản phẩm cá nhân hóa...)
- Deep research sẽ duyệt internet từ 5 phút đến tối đa 30 phút để soạn một báo cáo chi tiết
- Trong quá trình chạy, có thể theo dõi tiến trình qua thanh bên hiển thị tóm tắt theo từng bước và các nguồn tham chiếu
- Kết quả cuối cùng được cung cấp dưới dạng báo cáo kèm trích dẫn phong phú; trong tương lai sẽ bao gồm cả hình ảnh và trực quan hóa dữ liệu
Cơ chế hoạt động
- Sử dụng mô hình thế hệ tiếp theo (dựa trên OpenAI o3), mở rộng khả năng suy luận của OpenAI o1 để xử lý các tác vụ duyệt web và phân tích phức tạp
- Tự thực hiện nhiều bước như lập kế hoạch, thu thập thông tin và phản ánh phản hồi trung gian
- Cũng có thể truy cập các tệp do người dùng tải lên và thực hiện phân tích như vẽ biểu đồ bằng công cụ Python
- Trích dẫn nguồn ở cấp độ từng câu cụ thể để tăng độ chính xác và tính minh bạch
Đánh giá Humanity’s Last Exam
- Trong Humanity’s Last Exam, một bài đánh giá diện rộng mới được công bố gần đây, hệ thống đạt tỷ lệ trả lời đúng 26,6%, cho thấy hiệu năng vượt trội so với các mô hình trước đó
- Bài đánh giá này gồm hơn 3.000 câu hỏi cấp độ chuyên gia, bao phủ nhiều lĩnh vực học thuật khác nhau
- Đã cho thấy cải thiện lớn so với các mô hình trước đó trong các lĩnh vực hóa học, nhân văn-xã hội và toán học
- Các mô hình được đem ra so sánh gồm GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking, OpenAI o1..., và mô hình Deep research đạt độ chính xác cao nhất với 26,6%
- GPT-4o khoảng 3,3%, Claude 3.5 Sonnet là 4,3%, còn OpenAI o1 là 9,1%
Benchmark GAIA
- GAIA là thước đo đánh giá các câu hỏi trong thế giới thực, đòi hỏi đồng thời khả năng duyệt web, xử lý đa phương thức và sử dụng công cụ
- Mô hình Deep research đã thiết lập mức hiệu năng tốt nhất mới trên benchmark này
- Các bài toán GAIA được chia theo độ khó từ cấp 1 đến cấp 3, và Deep research đạt điểm cao hơn kỷ lục trước đó ở mọi mức độ
- Cụ thể, so với kỷ lục cũ, mức cải thiện ở mỗi cấp vào khoảng 6~8%, đồng thời mức trung bình tổng thể cũng tăng lên
Tác vụ cấp độ chuyên gia
- Trong đánh giá nội bộ, hệ thống cho thấy mức độ tự động hóa đủ cao để thay thế các cuộc nghiên cứu thủ công kéo dài hàng giờ
- Hiệu năng của mô hình tăng lên khi nó có nhiều thời gian duyệt tài liệu và suy nghĩ hơn, vì vậy việc cấp đủ thời gian tính toán là rất quan trọng
Hạn chế
- Vẫn có thể xảy ra một số lỗi sai về mặt sự kiện hoặc suy luận sai (hallucination)
- Hệ thống gặp khó khăn trong việc phân biệt tin đồn với nguồn đáng tin cậy, và cách diễn đạt mức độ không chắc chắn có thể chưa chính xác
- Ở giai đoạn đầu phát hành, định dạng báo cáo hoặc trích dẫn có thể chưa thật mượt mà, và đôi khi thời gian thực thi có thể kéo dài
Truy cập và sử dụng
- Hiện tại Deep research có chi phí tính toán cao nên trước mắt được ưu tiên cung cấp cho người dùng Pro, với tối đa 100 lần mỗi tháng
- Sắp tới cũng sẽ được mở dần cho người dùng Plus và Team
- Có kế hoạch mở rộng hỗ trợ sau này cho người dùng tại Vương quốc Anh, Thụy Sĩ và Khu vực Kinh tế châu Âu (EEA)
- Trong tương lai, thông qua phiên bản mô hình nhỏ hơn, nhanh hơn và hiệu quả hơn, giới hạn yêu cầu cho mọi tài khoản trả phí sẽ được tăng mạnh
Kế hoạch sắp tới
- Trước mắt Deep research có thể dùng trên phiên bản web của ChatGPT, và cũng sẽ sớm có mặt trên ứng dụng di động và desktop
- Trong tương lai, hệ thống cũng sẽ kết nối với dữ liệu thuê bao hoặc tài nguyên nội bộ để cung cấp kết quả mang tính cá nhân hóa cao hơn
- Khi kết hợp Deep research với Operator, có thể xây dựng trải nghiệm tác tử nâng cao có khả năng tự động thực hiện cả các công việc thực tế ngoại tuyến/trực tuyến
3 bình luận
Các báo cáo thực tế được viết bằng DeepResearch
Ý kiến trên Hacker News
Một người dùng cho biết họ đã thử tạo một báo cáo về chính mình nhưng xuất hiện nhiều lỗi. Ví dụ, hệ thống nhận diện sai danh tiếng của họ trên Stack Overflow và cũng lấy trích dẫn phỏng vấn từ nhầm người.
Một người dùng khác chỉ ra rằng có khoảng 10% trường hợp mô hình ngôn ngữ không thể đưa ra câu trả lời hoàn toàn chính xác, điều này có thể làm suy giảm độ tin cậy. Họ cũng nhấn mạnh rằng thời gian cần để kiểm chứng độ chính xác của câu trả lời là một yếu tố quan trọng.
Một người dùng nhận xét rằng tính năng này giống với dự án tạo báo cáo mà Standard mới ra mắt gần đây.
Có ý kiến nhắc rằng Gemini đã cung cấp tính năng này từ vài tháng trước dưới tên gọi "Deep Research". Người này đặt câu hỏi về hiện tượng trùng lặp tên gọi trong thế giới AI.
Một người dùng lo ngại rằng dù có thừa nhận các vấn đề về lỗi và ảo giác, nhiều người vẫn sẽ bỏ qua và chèn kết quả vào bài thuyết trình PowerPoint của mình. Họ cảnh báo rằng những công cụ như vậy càng mạnh thì mức độ bóp méo thông tin càng nghiêm trọng.
Có ý kiến cho biết mô hình o3 chưa phát hành đang hỗ trợ tính năng này và đây là một mô hình khá ấn tượng. Họ nhấn mạnh đây là mô hình dẫn đầu từ Google, DeepSeek và Perplexity.
Một người nói đây là công cụ thú vị đối với những người làm trong học thuật, muốn thử nghiệm nhưng thấy chi phí quá cao. Họ đề nghị ai đó thử giúp bằng một prompt cụ thể.
Có ý kiến đặt câu hỏi về năng lực này như một điều kiện tiên quyết của AGI và ASI. Người này hoài nghi về tầm quan trọng của nghiên cứu và lo ngại về việc phụ thuộc vào câu trả lời thay vì kết quả thực thi.
Một người dùng cho biết trong thử nghiệm nội bộ, tính năng này chỉ đạt tỷ lệ vượt qua 20%, đồng thời chỉ ra rằng việc rà soát một lượng lớn văn bản thiếu chính xác rất tốn thời gian. Họ cho rằng cần một quy trình lặp đi lặp lại nhiều hơn.
Có ý kiến đặt câu hỏi liệu các chuyên gia nổi tiếng hoặc những người muốn được chú ý có tiếp tục viết blog hay không. Họ lo ngại về một tình huống mà toàn bộ độc giả đều là bot.
Mình đang cực kỳ mong chờ.. Không ngờ đây lại không phải là one more thing..
Vụ DeepSeek liệu sẽ bị chuyện này làm lu mờ chăng