OpenAI công bố Deep Research

xguru · 2025-02-03T13:41:21+09:00

OpenAI đã giới thiệu vào ChatGPT tính năng dạng tác tử mới mang tên "nghiên cứu chuyên sâu" Tính năng này thu thập, phân tích và tổng hợp lượng lớn thông tin trên internet để tự động giải quyết các tác vụ phức tạp trong vòng vài chục phút Là một bước then chốt hướng tới việc đạt được AGI trong tương lai, năng lực "tổng hợp tri thức" có thể tạo ra kiến thức mới là yếu tố thiết yếu Lý do tạo ra Deep research Được phát triển cho những người dùng cần kết quả nghiên cứu kỹ lưỡng và đáng tin cậy, từ lao động tri thức chuyên sâu (tài chính, khoa học, chính sách, kỹ thuật...) đến việc nghiên cứu trước khi mua các mặt hàng tiêu dùng giá trị lớn Có thể nhanh chóng tìm ra và hệ thống hóa cả những thông tin ngách hoặc các dữ kiện không trực quan, vốn khó nhận thấy từ nhiều nguồn trực tuyến khác nhau Giúp tự động hóa nghiên cứu ở cấp độ chuyên môn, từ đó nâng cao đáng kể năng suất công việc Cách sử dụng Deep research Chọn chế độ Deep research trong ô nhập tin nhắn của ChatGPT Có thể đính kèm các tệp hoặc bảng tính cần thiết cùng với yêu cầu (ví dụ: phân tích đối thủ cạnh tranh, đề xuất sản phẩm cá nhân hóa...) Deep research sẽ duyệt internet từ 5 phút đến tối đa 30 phút để soạn một báo cáo chi tiết Trong quá trình chạy, có thể theo dõi tiến trình qua thanh bên hiển thị tóm tắt theo từng bước và các nguồn tham chiếu Kết quả cuối cùng được cung cấp dưới dạng báo cáo kèm trích dẫn phong phú; trong tương lai sẽ bao gồm cả hình ảnh và trực quan hóa dữ liệu Cơ chế hoạt động Sử dụng mô hình thế hệ tiếp theo (dựa trên OpenAI o3), mở rộng khả năng suy luận của OpenAI o1 để xử lý các tác vụ duyệt web và phân tích phức tạp Tự thực hiện nhiều bước như lập kế hoạch, thu thập thông tin và phản ánh phản hồi trung gian Cũng có thể truy cập các tệp do người dùng tải lên và thực hiện phân tích như vẽ biểu đồ bằng công cụ Python Trích dẫn nguồn ở cấp độ từng câu cụ thể để tăng độ chính xác và tính minh bạch Đánh giá Humanity’s Last Exam Trong Humanity’s Last Exam, một bài đánh giá diện rộng mới được công bố gần đây, hệ thống đạt tỷ lệ trả lời đúng 26,6%, cho thấy hiệu năng vượt trội so với các mô hình trước đó Bài đánh giá này gồm hơn 3.000 câu hỏi cấp độ chuyên gia, bao phủ nhiều lĩnh vực học thuật khác nhau Đã cho thấy cải thiện lớn so với các mô hình trước đó trong các lĩnh vực hóa học, nhân văn-xã hội và toán học Các mô hình được đem ra so sánh gồm GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking, OpenAI o1..., và mô hình Deep research đạt độ chính xác cao nhất với 26,6% GPT-4o khoảng 3,3%, Claude 3.5 Sonnet là 4,3%, còn OpenAI o1 là 9,1% Benchmark GAIA GAIA là thước đo đánh giá các câu hỏi trong thế giới thực, đòi hỏi đồng thời khả năng duyệt web, xử lý đa phương thức và sử dụng công cụ Mô hình Deep research đã thiết lập mức hiệu năng tốt nhất mới trên benchmark này Các bài toán GAIA được chia theo độ khó từ cấp 1 đến cấp 3, và Deep research đạt điểm cao hơn kỷ lục trước đó ở mọi mức độ Cụ thể, so với kỷ lục cũ, mức cải thiện ở mỗi cấp vào khoảng 6~8%, đồng thời mức trung bình tổng thể cũng tăng lên Tác vụ cấp độ chuyên gia Trong đánh giá nội bộ, hệ thống cho thấy mức độ tự động hóa đủ cao để thay thế các cuộc nghiên cứu thủ công kéo dài hàng giờ Hiệu năng của mô hình tăng lên khi nó có nhiều thời gian duyệt tài liệu và suy nghĩ hơn, vì vậy việc cấp đủ thời gian tính toán là rất quan trọng Hạn chế Vẫn có thể xảy ra một số lỗi sai về mặt sự kiện hoặc suy luận sai (hallucination) Hệ thống gặp khó khăn trong việc phân biệt tin đồn với nguồn đáng tin cậy, và cách diễn đạt mức độ không chắc chắn có thể chưa chính xác Ở giai đoạn đầu phát hành, định dạng báo cáo hoặc trích dẫn có thể chưa thật mượt mà, và đôi khi thời gian thực thi có thể kéo dài Truy cập và sử dụng Hiện tại Deep research có chi phí tính toán cao nên trước mắt được ưu tiên cung cấp cho người dùng Pro, với tối đa 100 lần mỗi tháng Sắp tới cũng sẽ được mở dần cho người dùng Plus và Team Có kế hoạch mở rộng hỗ trợ sau này cho người dùng tại Vương quốc Anh, Thụy Sĩ và Khu vực Kinh tế châu Âu (EEA) Trong tương lai, thông qua phiên bản mô hình nhỏ hơn, nhanh hơn và hiệu quả hơn, giới hạn yêu cầu cho mọi tài khoản trả phí sẽ được tăng mạnh Kế hoạch sắp tới Trước mắt Deep research có thể dùng trên phiên bản web của ChatGPT, và cũng sẽ sớm có mặt trên ứng dụng di động và desktop Trong tương lai, hệ thống cũng sẽ kết nối với dữ liệu thuê bao hoặc tài nguyên nội bộ để cung cấp kết quả mang tính cá nhân hóa cao hơn Khi kết hợp Deep research với Operator, có thể xây dựng trải nghiệm tác tử nâng cao có khả năng tự động thực hiện cả các công việc thực tế ngoại tuyến/trực tuyến

(openai.com)

13 điểm bởi xguru 2025-02-03 | 3 bình luận | Chia sẻ qua WhatsApp

OpenAI đã giới thiệu vào ChatGPT tính năng dạng tác tử mới mang tên "nghiên cứu chuyên sâu"
Tính năng này thu thập, phân tích và tổng hợp lượng lớn thông tin trên internet để tự động giải quyết các tác vụ phức tạp trong vòng vài chục phút
Là một bước then chốt hướng tới việc đạt được AGI trong tương lai, năng lực "tổng hợp tri thức" có thể tạo ra kiến thức mới là yếu tố thiết yếu

Lý do tạo ra Deep research

Được phát triển cho những người dùng cần kết quả nghiên cứu kỹ lưỡng và đáng tin cậy, từ lao động tri thức chuyên sâu (tài chính, khoa học, chính sách, kỹ thuật...) đến việc nghiên cứu trước khi mua các mặt hàng tiêu dùng giá trị lớn
Có thể nhanh chóng tìm ra và hệ thống hóa cả những thông tin ngách hoặc các dữ kiện không trực quan, vốn khó nhận thấy từ nhiều nguồn trực tuyến khác nhau
Giúp tự động hóa nghiên cứu ở cấp độ chuyên môn, từ đó nâng cao đáng kể năng suất công việc

Cách sử dụng Deep research

Chọn chế độ Deep research trong ô nhập tin nhắn của ChatGPT
Có thể đính kèm các tệp hoặc bảng tính cần thiết cùng với yêu cầu (ví dụ: phân tích đối thủ cạnh tranh, đề xuất sản phẩm cá nhân hóa...)
Deep research sẽ duyệt internet từ 5 phút đến tối đa 30 phút để soạn một báo cáo chi tiết
Trong quá trình chạy, có thể theo dõi tiến trình qua thanh bên hiển thị tóm tắt theo từng bước và các nguồn tham chiếu
Kết quả cuối cùng được cung cấp dưới dạng báo cáo kèm trích dẫn phong phú; trong tương lai sẽ bao gồm cả hình ảnh và trực quan hóa dữ liệu

Cơ chế hoạt động

Sử dụng mô hình thế hệ tiếp theo (dựa trên OpenAI o3), mở rộng khả năng suy luận của OpenAI o1 để xử lý các tác vụ duyệt web và phân tích phức tạp
Tự thực hiện nhiều bước như lập kế hoạch, thu thập thông tin và phản ánh phản hồi trung gian
Cũng có thể truy cập các tệp do người dùng tải lên và thực hiện phân tích như vẽ biểu đồ bằng công cụ Python
Trích dẫn nguồn ở cấp độ từng câu cụ thể để tăng độ chính xác và tính minh bạch

Đánh giá Humanity’s Last Exam

Trong Humanity’s Last Exam, một bài đánh giá diện rộng mới được công bố gần đây, hệ thống đạt tỷ lệ trả lời đúng 26,6%, cho thấy hiệu năng vượt trội so với các mô hình trước đó
- Bài đánh giá này gồm hơn 3.000 câu hỏi cấp độ chuyên gia, bao phủ nhiều lĩnh vực học thuật khác nhau
Đã cho thấy cải thiện lớn so với các mô hình trước đó trong các lĩnh vực hóa học, nhân văn-xã hội và toán học
Các mô hình được đem ra so sánh gồm GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking, OpenAI o1..., và mô hình Deep research đạt độ chính xác cao nhất với 26,6%
- GPT-4o khoảng 3,3%, Claude 3.5 Sonnet là 4,3%, còn OpenAI o1 là 9,1%

Benchmark GAIA

GAIA là thước đo đánh giá các câu hỏi trong thế giới thực, đòi hỏi đồng thời khả năng duyệt web, xử lý đa phương thức và sử dụng công cụ
Mô hình Deep research đã thiết lập mức hiệu năng tốt nhất mới trên benchmark này
Các bài toán GAIA được chia theo độ khó từ cấp 1 đến cấp 3, và Deep research đạt điểm cao hơn kỷ lục trước đó ở mọi mức độ
Cụ thể, so với kỷ lục cũ, mức cải thiện ở mỗi cấp vào khoảng 6~8%, đồng thời mức trung bình tổng thể cũng tăng lên

Tác vụ cấp độ chuyên gia

Trong đánh giá nội bộ, hệ thống cho thấy mức độ tự động hóa đủ cao để thay thế các cuộc nghiên cứu thủ công kéo dài hàng giờ
Hiệu năng của mô hình tăng lên khi nó có nhiều thời gian duyệt tài liệu và suy nghĩ hơn, vì vậy việc cấp đủ thời gian tính toán là rất quan trọng

Hạn chế

Vẫn có thể xảy ra một số lỗi sai về mặt sự kiện hoặc suy luận sai (hallucination)
Hệ thống gặp khó khăn trong việc phân biệt tin đồn với nguồn đáng tin cậy, và cách diễn đạt mức độ không chắc chắn có thể chưa chính xác
Ở giai đoạn đầu phát hành, định dạng báo cáo hoặc trích dẫn có thể chưa thật mượt mà, và đôi khi thời gian thực thi có thể kéo dài

Truy cập và sử dụng

Hiện tại Deep research có chi phí tính toán cao nên trước mắt được ưu tiên cung cấp cho người dùng Pro, với tối đa 100 lần mỗi tháng
Sắp tới cũng sẽ được mở dần cho người dùng Plus và Team
Có kế hoạch mở rộng hỗ trợ sau này cho người dùng tại Vương quốc Anh, Thụy Sĩ và Khu vực Kinh tế châu Âu (EEA)
Trong tương lai, thông qua phiên bản mô hình nhỏ hơn, nhanh hơn và hiệu quả hơn, giới hạn yêu cầu cho mọi tài khoản trả phí sẽ được tăng mạnh

Kế hoạch sắp tới

Trước mắt Deep research có thể dùng trên phiên bản web của ChatGPT, và cũng sẽ sớm có mặt trên ứng dụng di động và desktop
Trong tương lai, hệ thống cũng sẽ kết nối với dữ liệu thuê bao hoặc tài nguyên nội bộ để cung cấp kết quả mang tính cá nhân hóa cao hơn
Khi kết hợp Deep research với Operator, có thể xây dựng trải nghiệm tác tử nâng cao có khả năng tự động thực hiện cả các công việc thực tế ngoại tuyến/trực tuyến

3 bình luận

xguru 2025-02-09

Các báo cáo thực tế được viết bằng DeepResearch

GN⁺ 2025-02-04

Ý kiến trên Hacker News

Một người dùng cho biết họ đã thử tạo một báo cáo về chính mình nhưng xuất hiện nhiều lỗi. Ví dụ, hệ thống nhận diện sai danh tiếng của họ trên Stack Overflow và cũng lấy trích dẫn phỏng vấn từ nhầm người.
Một người dùng khác chỉ ra rằng có khoảng 10% trường hợp mô hình ngôn ngữ không thể đưa ra câu trả lời hoàn toàn chính xác, điều này có thể làm suy giảm độ tin cậy. Họ cũng nhấn mạnh rằng thời gian cần để kiểm chứng độ chính xác của câu trả lời là một yếu tố quan trọng.
Một người dùng nhận xét rằng tính năng này giống với dự án tạo báo cáo mà Standard mới ra mắt gần đây.
Có ý kiến nhắc rằng Gemini đã cung cấp tính năng này từ vài tháng trước dưới tên gọi "Deep Research". Người này đặt câu hỏi về hiện tượng trùng lặp tên gọi trong thế giới AI.
Một người dùng lo ngại rằng dù có thừa nhận các vấn đề về lỗi và ảo giác, nhiều người vẫn sẽ bỏ qua và chèn kết quả vào bài thuyết trình PowerPoint của mình. Họ cảnh báo rằng những công cụ như vậy càng mạnh thì mức độ bóp méo thông tin càng nghiêm trọng.
Có ý kiến cho biết mô hình o3 chưa phát hành đang hỗ trợ tính năng này và đây là một mô hình khá ấn tượng. Họ nhấn mạnh đây là mô hình dẫn đầu từ Google, DeepSeek và Perplexity.
Một người nói đây là công cụ thú vị đối với những người làm trong học thuật, muốn thử nghiệm nhưng thấy chi phí quá cao. Họ đề nghị ai đó thử giúp bằng một prompt cụ thể.
Có ý kiến đặt câu hỏi về năng lực này như một điều kiện tiên quyết của AGI và ASI. Người này hoài nghi về tầm quan trọng của nghiên cứu và lo ngại về việc phụ thuộc vào câu trả lời thay vì kết quả thực thi.
Một người dùng cho biết trong thử nghiệm nội bộ, tính năng này chỉ đạt tỷ lệ vượt qua 20%, đồng thời chỉ ra rằng việc rà soát một lượng lớn văn bản thiếu chính xác rất tốn thời gian. Họ cho rằng cần một quy trình lặp đi lặp lại nhiều hơn.
Có ý kiến đặt câu hỏi liệu các chuyên gia nổi tiếng hoặc những người muốn được chú ý có tiếp tục viết blog hay không. Họ lo ngại về một tình huống mà toàn bộ độc giả đều là bot.

devil1032 2025-02-03

Mình đang cực kỳ mong chờ.. Không ngờ đây lại không phải là one more thing..
Vụ DeepSeek liệu sẽ bị chuyện này làm lu mờ chăng