21 điểm bởi xguru 2025-02-05 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • DeepResearch do OpenAI công bố có thể tóm tắt nội dung và thực hiện hỏi đáp thông qua tìm kiếm web
    • Công cụ này thu hút chú ý khi đạt điểm cao trên benchmark GAIA
    • Nó kết hợp một LLM mạnh mẽ với framework tác tử nội bộ để từng bước sử dụng nhiều công cụ khác nhau như duyệt web
  • Do OpenAI không công khai chi tiết framework tác tử, tác giả đã tiến hành thử nghiệm trong 24 giờ để tái tạo nó bằng mã nguồn mở

Framework tác tử là gì và vì sao nó quan trọng?

  • Framework tác tử là một cấu trúc bổ sung thêm một lớp phía trên LLM để cho phép thực hiện nhiều hành động như duyệt web, đọc PDF
  • So với việc chỉ dùng LLM dưới dạng chat đơn thuần, khi kết hợp với hệ thống tác tử thì nó trở nên mạnh hơn rất nhiều
  • Ngay cả khi chỉ áp dụng một framework tác tử đơn giản thông qua các thư viện như smolagents, hiệu năng cũng được cải thiện đáng kể
  • OpenAI DeepResearch cũng đạt hiệu năng vượt trội bằng cách tận dụng phương pháp này

Benchmark GAIA

  • GAIA là một benchmark rất khó dùng để đánh giá hiệu năng của tác tử
  • Ví dụ, benchmark này có thể đưa ra một câu hỏi phức tạp như yêu cầu liên kết loại trái cây xuất hiện trong “Embroidery from Uzbekistan” với thực đơn bữa sáng cũ của một con tàu cụ thể rồi liệt kê chúng theo đúng thứ tự
  • Chỉ với một LLM đơn lẻ thì mức đạt được chỉ khoảng 7%, trong khi DeepResearch vượt 67%, cho thấy khoảng cách rất lớn
  • Vì các câu hỏi của GAIA đòi hỏi suy luận nhiều bước, truy xuất thông tin và xử lý đa phương thức, đây là bài kiểm tra rất phù hợp để thể hiện giá trị thực sự của cách tiếp cận tác tử

Xây dựng Open Deep Research

  • Để tái tạo cách làm của DeepResearch, tác giả đã thử nghiệm kết hợp LLM mã nguồn mở với framework tác tử
  • Mục tiêu là nâng hiệu năng trên GAIA bằng trình duyệt web dạng văn bản đơn giản và công cụ xem tệp
  • Sử dụng CodeAgent
    • Cách tiếp cận CodeAgent biểu diễn hành động dưới dạng mã thay vì JSON
    • Theo nghiên cứu của Wang et al. (2024), biểu diễn bằng mã có ưu điểm là súc tích, trực quan và được tối ưu cho LLM
    • Nó giúp giảm số bước nên có hiệu quả tiết kiệm chi phí, đồng thời thuận lợi hơn trong quản lý trạng thái đa phương thức
  • Tạo các công cụ phù hợp
    • Công cụ đầu tiên: trình duyệt web dạng văn bản
      • Dù chưa triển khai các tính năng phong phú như Operator, ở giai đoạn đầu công cụ này chỉ cung cấp chức năng duyệt web cơ bản
    • Công cụ thứ hai: trình kiểm tra để mở các định dạng tệp văn bản
      • Công cụ xử lý tài liệu đơn giản này hỗ trợ đọc nội dung
    • Trong tương lai, tác giả dự định hỗ trợ định dạng tệp chi tiết hơn, tích hợp mô hình thị giác khi duyệt web và đưa vào tác tử GUI

Kết quả

  • Thử nghiệm tái tạo trong vòng 24 giờ đã đạt khoảng 54% trên benchmark GAIA
  • Khi dùng biểu diễn bằng mã thay cho JSON, điểm số tăng từ 33% lên 54%
  • Vì sử dụng framework smolagents và các công cụ mở, bất kỳ ai cũng có thể tái tạo
  • Vẫn còn nhiều dư địa để cải thiện hơn nữa bằng cách kết hợp trình duyệt cấp độ Operator hoặc các mô hình cục bộ mạnh hơn

Các bản tái hiện từ cộng đồng

  • Cộng đồng đã xuất hiện nhiều triển khai khác nhau từ dzhng, assafelovic, nickscamara, jina-ai, mshumer và nhiều người khác
  • Mỗi bản triển khai sử dụng thư viện khác nhau hoặc thử những cách tìm kiếm/lập chỉ mục khác nhau
  • Về sau, tác giả muốn tiếp tục chia sẻ và phát triển các kết quả tái tạo bằng cách tận dụng open LLM, mô hình thị giác và biểu diễn hành động dựa trên mã

Bước tiếp theo quan trọng nhất

  • Một nhiệm vụ quan trọng là xây dựng tác tử GUI để hỗ trợ các chức năng duyệt web nâng cao như OpenAI Operator
  • Mục tiêu là cung cấp mã nguồn mở cho khả năng nhìn màn hình và thao tác bằng chuột cùng bàn phím
  • Tác giả có kế hoạch tích hợp với smolagents, OpenAI Operator và các công cụ tương tự để nâng cao mức độ hoàn thiện
  • Các bài toán chính gồm cải thiện điểm GAIA, tận dụng open LLM và triển khai duyệt web trực quan

Chưa có bình luận nào.

Chưa có bình luận nào.