6 điểm bởi GN⁺ 2025-03-06 | 2 bình luận | Chia sẻ qua WhatsApp
  • Gần đây, các phòng thí nghiệm AI đang sử dụng thuật ngữ ‘Deep Research’ để công bố nhiều tính năng khác nhau
  • Google đã ra mắt Gemini 1.5 Deep Research vào tháng 12 năm 2024, OpenAI ra mắt Deep Research vào tháng 2 năm 2025, và Perplexity công bố Deep Research của riêng mình ngay sau đó
  • Ngoài ra, DeepSeek, Qwen của Alibaba, xAI của Elon Musk và các bên khác cũng đã đưa các tính năng SearchDeep Search vào trợ lý chatbot
  • Trên GitHub, đã xuất hiện hàng chục bản triển khai ‘Deep Research’ mã nguồn mở
  • Điều này cho thấy, tương tự như Retrieval-Augmented Generation (RAG) của năm 2025, thuật ngữ ‘Deep Research’ đang được sử dụng mà không có định nghĩa rõ ràng

Deep Research, Deep Search, hay chỉ là Search

> Google : “Deep Research sử dụng AI để khám phá các chủ đề phức tạp, cung cấp các báo cáo toàn diện và dễ đọc, đồng thời cho thấy Gemini ngày càng thành thạo hơn trong việc xử lý các tác vụ phức tạp để tiết kiệm thời gian.” -
> OpenAI : “Deep Research là tác nhân thế hệ tiếp theo của OpenAI; khi người dùng đưa ra prompt, ChatGPT sẽ tìm kiếm, phân tích và tổng hợp hàng trăm nguồn trực tuyến để tạo ra các báo cáo toàn diện ở cấp độ của một nhà phân tích nghiên cứu.”
> Perplexity : “Khi bạn đặt một câu hỏi Deep Research, Perplexity sẽ thực hiện hàng chục lượt tìm kiếm, đọc hàng trăm nguồn và suy luận trên tài liệu để tự động cung cấp một báo cáo toàn diện.”

  • Nếu bỏ qua các thuật ngữ marketing, có thể định nghĩa Deep Research như sau
    > Một hệ thống tạo báo cáo nhận truy vấn của người dùng, dùng mô hình ngôn ngữ lớn (LLM) như một tác nhân để lặp đi lặp lại việc tìm kiếm và phân tích thông tin, rồi xuất ra một báo cáo chi tiết
  • Trong thuật ngữ xử lý ngôn ngữ tự nhiên (NLP), điều này được gọi là ‘report generation

Cách triển khai

  • Kể từ khi ChatGPT xuất hiện, tạo báo cáo hay ‘Deep Research’ đã trở thành một trọng tâm lớn của AI engineering
  • Tác giả đã thử nghiệm điều này tại một hackathon vào đầu năm 2023, thời điểm AI engineering mới bắt đầu nổi lên
  • Các công cụ như LangChain, AutoGPT, GPT-Researcher, prompt engineering cùng vô số bản demo đã thu hút sự chú ý lớn trên Twitter và LinkedIn
  • Tuy nhiên, thách thức thực sự nằm ở các chi tiết triển khai
  • Phần dưới đây sẽ khám phá các mẫu phổ biến để xây dựng hệ thống tạo báo cáo, nhấn mạnh sự khác biệt giữa chúng và phân loại những gì các vendor khác nhau đang cung cấp

Không huấn luyện: đồ thị có hướng không chu trình (DAG)

  • Ban đầu, người ta nhận thấy việc yêu cầu các LLM như GPT-3.5 tạo toàn bộ báo cáo từ đầu là không thực tế
  • Thay vào đó, họ sử dụng Composite pattern để nối nhiều lần gọi LLM lại với nhau
  • Phân rã truy vấn của người dùng để tạo dàn ý báo cáo
  • Với mỗi phần, tìm kiếm và tóm tắt thông tin liên quan từ công cụ tìm kiếm hoặc cơ sở tri thức
  • Cuối cùng, dùng LLM để kết hợp các phần thành một báo cáo nhất quán
  • GPT-Researcher là một ví dụ
    • Tất cả prompt trong hệ thống này đều được tinh chỉnh cẩn thận thông qua ‘prompt engineering’
    • Việc đánh giá phụ thuộc vào kiểm tra đầu ra mang tính chủ quan, và chất lượng báo cáo không nhất quán
    • Khi hoạt động tốt thì rất ấn tượng, nhưng không phải lúc nào cũng ổn định

Không huấn luyện: máy trạng thái hữu hạn (FSM)

  • Để cải thiện chất lượng báo cáo, các kỹ sư đã bổ sung độ phức tạp vào cách tiếp cận DAG
  • Thay vì quy trình một lượt, họ đưa vào các mẫu có cấu trúc như Reflexion và self-reflection để LLM tự xem xét và cải thiện đầu ra của chính nó
  • Điều này biến DAG đơn giản thành một máy trạng thái hữu hạn (FSM), trong đó LLM một phần sẽ hướng dẫn việc chuyển trạng thái
    • Cũng như cách DAG, mọi prompt đều được viết thủ công và việc đánh giá mang tính chủ quan
    • Vì hệ thống được tinh chỉnh thủ công nên chất lượng báo cáo vẫn dao động đáng kể

Có huấn luyện: end-to-end

  • Những hạn chế của các phương pháp trước đó — prompt engineering mang tính ngẫu hứng và thiếu các chỉ số đánh giá có thể đo lường — đã thúc đẩy nhu cầu thay đổi
  • STORM của Stanford giải quyết các vấn đề này bằng cách tối ưu hóa toàn bộ hệ thống end-to-end với DSPy
    • Kết quả là STORM tạo ra các báo cáo có chất lượng sánh ngang với các bài viết trên Wikipedia

Có huấn luyện: mô hình suy luận quy mô lớn

  • Nhờ năng lực suy luận của LLM được cải thiện, các mô hình suy luận quy mô lớn trở thành một lựa chọn hấp dẫn cho Deep Research
  • Ví dụ, OpenAI huấn luyện mô hình Deep Research của mình theo cách sau
    • Đánh giá đầu ra bằng LLM-as-a-judge và các rubric đánh giá
  • Trợ lý chat Gemini của Google và Perplexity cũng cung cấp tính năng ‘Deep Research’, nhưng họ không công bố tài liệu về cách tối ưu hóa mô hình hay hệ thống, cũng như các đánh giá định lượng thực chất
  • Tuy nhiên, quản lý sản phẩm Deep Research của Google đã nói trong một cuộc phỏng vấn podcast rằng: “Chúng tôi có quyền truy cập đặc biệt. Gần như là cùng một mô hình (Gemini 1.5). Tất nhiên, chúng tôi có thực hiện thêm công việc huấn luyện hậu kỳ riêng.”
  • Điều này cho thấy phần tinh chỉnh có thể không chiếm tỷ trọng lớn
  • Trong khi đó, Grok của xAI tỏ ra nổi bật trong việc tạo báo cáo, nhưng dường như không tìm kiếm vượt quá hai vòng lặp
  • Nó tìm kiếm vài lần cho phần dàn ý và vài lần cho từng phần

Cục diện cạnh tranh

  • Để đánh giá năng lực của nhiều dịch vụ cung cấp tính năng Deep Research, tác giả đã xây dựng một bản đồ khái niệm
  • Trục dọc: độ sâu nghiên cứu (số chu kỳ lặp để thu thập thêm thông tin dựa trên các kết quả trước đó)
  • Trục ngang: mức độ huấn luyện (từ hệ thống tinh chỉnh thủ công đến hệ thống được huấn luyện hoàn toàn bằng các kỹ thuật machine learning)
  • Các hệ thống có huấn luyện tiêu biểu:
    • OpenAI Deep Research: hệ thống dựa trên reinforcement learning được tối ưu hóa cho tác vụ nghiên cứu
    • DeepSeek: được huấn luyện cho suy luận tổng quát và sử dụng công cụ, có thể thích ứng với yêu cầu nghiên cứu
    • Google Gemini: một LLM được huấn luyện rộng rãi nhưng không chuyên biệt cho nghiên cứu
    • Stanford STORM: hệ thống tối ưu hóa toàn bộ quy trình nghiên cứu theo cách end-to-end
  • Khung này giúp hiểu cách mỗi dịch vụ cân bằng giữa độ sâu của nghiên cứu lặp và phương pháp huấn luyện

Kết luận

  • Công nghệ Deep Research đang phát triển rất nhanh; những kỹ thuật vài tháng trước còn chưa hiệu quả hoặc chưa được triển khai thì nay đã được áp dụng thành công
  • Tuy nhiên, cách dùng thuật ngữ còn mơ hồ đang làm gia tăng sự nhầm lẫn
  • Hy vọng bài viết này sẽ giúp làm rõ các khác biệt về mặt kỹ thuật và giúp người đọc không bị cuốn theo các thuật ngữ marketing

2 bình luận

 
halfenif 2025-03-10

> Một đồng nghiệp đã đùa rằng "AlphaGO đã thắng Lee Sedol, nhưng Lee Sedol có thuật toán xe tự hành tốt hơn nhiều"

Nhưng chỉ có một Lee Sedol và không thể sao chép được

 
GN⁺ 2025-03-06
Ý kiến trên Hacker News
  • Cách Han Xiao đề xuất để phân biệt giữa DeepSearch và DeepResearch rất thú vị

    • DeepSearch là quá trình lặp lại việc tìm kiếm, đọc và suy luận cho đến khi tìm ra câu trả lời tối ưu
    • DeepResearch bổ sung một framework có cấu trúc lên trên DeepSearch để tạo ra một báo cáo nghiên cứu dài
    • Tôi nghĩ DeepSearch là mô thức có giá trị và thú vị hơn
    • DeepResearch chỉ là hiệu ứng trang điểm khi đóng gói kết quả thành một "báo cáo", và rất dễ dẫn đến kết quả thiếu chính xác hoặc gây hiểu lầm
  • Một đồng nghiệp đã đùa rằng "AlphaGO đã thắng Lee Sedol, nhưng Lee Sedol lại có thuật toán xe tự lái tốt hơn nhiều"

    • Điều này nhấn mạnh khoảng cách lớn theo thời gian giữa các hệ thống AI tiên tiến nhất và "năng lực trung bình" của một con người thông thường
  • Có vẻ như điều này nắm bắt khá đúng sự khác biệt trong những gì OpenAI và các công ty khác đang cung cấp

    • Gemini 2.0 Flash của Google cũng được tích hợp native với Google Search
    • DR của OpenAI có xu hướng huấn luyện mô hình cho các tác vụ cụ thể
    • Họ đang tiến tới hướng cung cấp mô hình + huấn luyện RL hậu kỳ như một sản phẩm
    • genspark MOA tạo ra báo cáo chuyên sâu cho prompt được đưa vào
  • AI đang ngày càng trở nên đa dạng hơn và có khả năng sẽ xuất hiện nhiều tác tử khác nhau

  • Nghe nói Grok rất giỏi trong việc tạo báo cáo, vì có thể yêu cầu nó trả lời theo dạng bảng để dễ so sánh

    • Amazon chọn các sản phẩm để so sánh, nhưng các tiêu chí so sánh lại không tốt
    • Có thể dùng Grok để thêm hoặc bớt cột, và rút ngắn câu trả lời
  • DR là một cách tốt để thu thập thông tin và thực hiện nghiên cứu thực sự từ một điểm xuất phát đã được tập trung

    • Việc LLM làm được điều đó không có nghĩa là nó đã trở nên thông minh hơn
    • LLM không hiểu chủ đề sâu hơn
    • Cần có năng lực sâu hơn để tích hợp và áp dụng thông tin
    • Do giới hạn của kiến trúc transformer, việc học theo thời gian thực là khó khăn
  • Khi so sánh OpenAI Deep Research với Deep Research của Perplexity, có sự khác biệt kiểu "hẹp nhưng sâu" so với "nông nhưng rộng"

    • OpenAI chọn các nguồn chất lượng cao và đi sâu vào một chủ đề cụ thể
    • Perplexity dùng nhiều nguồn để phác ra một không gian vấn đề ở mức bề mặt
    • OpenAI mất nhiều thời gian hơn
  • Tôi đã thử nhiều workflow khác nhau thông qua Deep Search/Research

    • Có cách tiếp cận mệnh lệnh (tự chọn trực tiếp các nguồn để tạo báo cáo) và khai báo (dùng thuật toán DFS/BFS)
    • Tôi bị cuốn hút bởi luồng end-to-end của các hệ thống như STORM
  • STORM được đánh giá cao, còn GPT Researcher thì không

    • Có thể cấu hình GPT Researcher để phù hợp với nhiều mức ngân sách khác nhau
  • Đây là những nền tảng tổ chức thông tin lớn nhất trên Internet, nhưng người ta vẫn không tìm ra được từ nào khác để mô tả sản phẩm này