Tongyi DeepResearch – mô hình MoE 30B mã nguồn mở sánh ngang OpenAI DeepResearch

(tongyi-agent.github.io)

10 điểm bởi GN⁺ 2025-11-04 | 1 bình luận | Chia sẻ qua WhatsApp

Tongyi DeepResearch là tác tử web mã nguồn mở hoàn toàn đầu tiên đạt hiệu năng ngang với OpenAI DeepResearch, ghi nhận kết quả hàng đầu trên các benchmark truy vấn thông tin phức tạp
- Tongyi Lab là một trong những bộ phận nghiên cứu và phát triển AI của Alibaba Group, tập trung vào mô hình ngôn ngữ lớn (LLM), mô hình đa phương thức và công nghệ tác tử (Agent), đồng thời là nơi tạo ra mô hình QWEN
Xây dựng pipeline huấn luyện end-to-end tích hợp Agentic Continual Pre-training(CPT), Supervised Fine-Tuning(SFT) và Reinforcement Learning(RL)
Tăng cường năng lực suy luận dài hạn và lập kế hoạch thông qua việc tạo QA quy mô lớn dựa hoàn toàn trên dữ liệu tổng hợp và mô hình IterResearch
Hỗ trợ chế độ ReAct và chế độ Heavy, đáp ứng từ suy luận đơn giản đến nghiên cứu đa bước phức tạp, đồng thời bảo đảm hiệu năng ổn định bằng học tăng cường dựa trên thuật toán GRPO
Đã được áp dụng thực tế vào các dịch vụ trong và ngoài Alibaba như Gaode Mate và Tongyi FaRui, chứng minh tính thực dụng và khả năng mở rộng của tác tử nghiên cứu AI mã nguồn mở

Từ chatbot đến tác tử tự chủ

Tongyi DeepResearch là tác tử web mã nguồn mở hoàn toàn đầu tiên đạt hiệu năng ở mức OpenAI DeepResearch
- Ghi nhận Humanity’s Last Exam(HLE) 32.9, BrowseComp 43.4, BrowseComp-ZH 46.7, xbench-DeepSearch 75 điểm
- Vượt qua mọi tác tử Deep Research thương mại và mã nguồn mở trước đây
Ngoài mô hình, nhóm còn công bố toàn bộ phương pháp huấn luyện dựa trên dữ liệu tổng hợp
- Cung cấp hạ tầng tạo dữ liệu tự động và học tăng cường cho toàn bộ quy trình, bao gồm Agentic CPT, SFT và RL
Thể hiện năng lực nội tại mạnh mẽ với khung ReAct ngay cả khi không cần prompt engineering
- Heavy Mode cho thấy giới hạn của khả năng lập kế hoạch và suy luận phức tạp

Tiền huấn luyện liên tục và hậu huấn luyện dựa trên dữ liệu tổng hợp

Giới thiệu Agentic CPT để xây dựng mô hình nền tảng kiểu tác tử
- Triển khai tổng hợp dữ liệu quy mô lớn và vòng lặp dữ liệu tuần hoàn thông qua hệ thống AgentFounder
Ở giai đoạn tái cấu trúc dữ liệu và tạo câu hỏi, hệ thống tích hợp tài liệu, dữ liệu crawling, đồ thị tri thức và bản ghi gọi công cụ
- Sau đó tái cấu trúc chúng thành bộ nhớ tri thức thế giới mở lấy thực thể làm trung tâm, rồi tạo ra các cặp (câu hỏi, câu trả lời) ở nhiều dạng khác nhau
Tạo dữ liệu hành động bậc một và bậc cao thông qua Action Synthesis
- Mô hình hóa cấu trúc ra quyết định nhiều bước để tăng cường năng lực ra quyết định
Dữ liệu hậu huấn luyện(Post-training)
- Xây dựng pipeline tạo QA tổng hợp hoàn toàn tự động
  - Thông qua một chuỗi nghiên cứu như WebWalker, WebSailor, WebShaper, hệ thống tạo ra dữ liệu QA tổng hợp dựa trên đồ thị và có kiểm soát độ khó
- Đảm bảo cấu trúc thông tin thực tế bằng cách kết hợp đồ thị tri thức dựa trên random walk với dữ liệu bảng
  - Điều chỉnh độ khó một cách có hệ thống bằng các “phép toán nguyên tử” như gộp thực thể
- Hình thức hóa bài toán dựa trên lý thuyết tập hợp để giảm thiểu sai lệch giữa cấu trúc thông tin và cấu trúc suy luận
  - Nâng cao hiệu quả kiểm chứng tính nhất quán của QA
- Công cụ dữ liệu tự động tạo ra các câu hỏi nghiên cứu ở trình độ tiến sĩ
  - Bắt đầu từ nền tảng tri thức liên ngành rồi tạo QA độ khó cao qua vòng lặp tăng dần độ phức tạp
- Học nhiều mẫu suy luận khác nhau bằng khung ReAct và IterResearch
  - IterResearch tái cấu trúc không gian làm việc sau mỗi vòng để tăng cường khả năng lập kế hoạch dài hạn

Chế độ rollout

Mô hình hỗ trợ hai cách thực thi: chế độ ReAct và chế độ Heavy
Native ReAct Mode
- Tuân theo cấu trúc lặp Thought–Action–Observation, đạt hiệu năng cao ngay cả khi không cần prompt engineering
  - Với độ dài ngữ cảnh 128K, có thể xử lý nhiều vòng tương tác
- Tính đơn giản và tính phổ dụng cung cấp tiêu chuẩn rõ ràng để đánh giá năng lực nội tại của mô hình
- Áp dụng phương pháp luận tổng quát có thể mở rộng theo nguyên tắc “The Bitter Lesson”
Heavy Mode
- Thực hiện các nhiệm vụ nghiên cứu đa bước phức tạp dựa trên mô hình IterResearch
  - Ở mỗi vòng chỉ giữ lại các kết quả cốt lõi rồi tái cấu trúc không gian làm việc mới
  - Liên tục cập nhật báo cáo trung tâm để duy trì suy luận chất lượng cao
- Thông qua khung Research–Synthesis, hệ thống khám phá song song kết quả của nhiều tác tử nghiên cứu rồi tổng hợp lại
  - Nhờ đó mở rộng được phạm vi khám phá trong bối cảnh ngữ cảnh bị giới hạn

Pipeline huấn luyện tác tử end-to-end

Xây dựng vòng lặp huấn luyện tích hợp hoàn chỉnh từ Agentic CPT → SFT → RL
Ở giai đoạn học tăng cường on-policy(RL), sử dụng thuật toán Group Relative Policy Optimization(GRPO)
- Bảo đảm tính ổn định bằng token-level policy gradient loss, chiến lược leave-one-out và lọc mẫu âm
- Trong quá trình huấn luyện, phần thưởng tăng lên trong khi entropy chính sách vẫn cao để duy trì khả năng khám phá
Dữ liệu tổng hợp cung cấp phân phối nhất quán hơn dữ liệu do con người chú thích như BrowseComp, từ đó nâng cao hiệu quả huấn luyện
Cấu hình hạ tầng
- Môi trường huấn luyện tổng hợp: xây dựng môi trường mô phỏng bằng Wikipedia DB ngoại tuyến và bộ công cụ tùy biến
- Sandbox công cụ ổn định: ngăn lỗi gọi công cụ bằng caching, retry và API dự phòng
- Tuyển chọn dữ liệu tự động: cải thiện độ ổn định và hiệu năng bằng cách tổng hợp, lọc dữ liệu theo thời gian thực dựa trên động lực học huấn luyện
- Khung on-policy bất đồng bộ: triển khai vòng lặp RL bất đồng bộ theo từng bước dựa trên rLLM
- Qua quá trình này, hệ thống hoàn thiện vòng lặp huấn luyện tác tử AI tự tiến hóa, cho phép giải quyết vấn đề ổn định ngay cả trong môi trường động phức tạp

Các trường hợp ứng dụng thực tế

Gaode Mate (tác tử bản đồ và điều hướng)
- Phát triển AI copilot ‘Xiao Gao’ cùng với đội ngũ Amap
- Thực hiện các kế hoạch phức hợp như lịch trình du lịch hay lộ trình bao gồm chỗ ở thân thiện với thú cưng bằng suy luận đa bước
Tongyi FaRui (tác tử nghiên cứu pháp lý)
- Thực hiện nghiên cứu đa bước ở cấp độ luật sư như tìm kiếm án lệ, đối chiếu chéo điều luật và tổng hợp phân tích
- Mọi kết luận đều dựa trên tài liệu tư pháp có thể kiểm chứng và đi kèm trích dẫn chính xác

Giới hạn và nhiệm vụ tiếp theo

Giới hạn ngữ cảnh 128K khiến việc xử lý các nhiệm vụ cực dài còn bị hạn chế
Cần kiểm chứng khả năng mở rộng lên mô hình MoE quy mô từ 30B trở lên
Có kế hoạch nghiên cứu partial rollout và học off-policy để cải thiện hiệu quả học tăng cường

Chuỗi nghiên cứu

Đã công bố 11 bài báo liên quan như WebWalker, WebDancer, WebSailor, WebShaper, WebWatcher
Trong 6 tháng gần đây, nhóm phát hành báo cáo kỹ thuật hằng tháng; lần này công bố đồng thời 6 báo cáo mới cùng với mô hình Tongyi DeepResearch‑30B‑A3B
Sẽ tiếp tục phát triển thế hệ mô hình kiểu tác tử tiếp theo

1 bình luận

GN⁺ 2025-11-04

Ý kiến Hacker News

Thật đáng mừng khi có mô hình 30B MoE được công khai cho mục đích “deep research”
Cấu trúc chạy song song nhiều agent, trong đó mô hình nhẹ đảm nhiệm tìm kiếm·trích xuất còn mô hình 30B phụ trách lập kế hoạch·định tuyến công cụ·kiểm chứng, là một cách tiếp cận hiệu quả
Cấu trúc chuyên môn hóa của MoE rất phù hợp với AI agent phân tán, nhưng vẫn cần orchestration để retry·đồng thuận·đánh giá nghiên cứu web nhiều bước
Không rõ liệu thời gian tới LLM chuyên biệt có bùng nổ mạnh hay không
Nếu các mô hình lớn trở nên quá đồ sộ và chạm tới giới hạn của tiền huấn luyện, có thể sẽ xuất hiện nhiều mô hình theo mục đích hơn
Nhìn việc GPT‑3.5 từng chơi cờ vua tốt nhưng các mô hình gần đây lại không như vậy, có vẻ tồn tại trade-off trong dữ liệu huấn luyện
- Hiện tại, các mô hình lớn đa dụng vẫn vượt trội gần như trên mọi phương diện
  Fine-tune mô hình nhỏ cho tác vụ cụ thể tốn kém, còn tốc độ tiến hóa của mô hình lớn lại quá nhanh nên rất dễ bị bỏ lại phía sau
  Tuy nhiên, nếu tốc độ phát triển chậm lại thì huấn luyện mô hình nhỏ có thể lại trở nên có ý nghĩa
- Muốn xem benchmark của các LLM giỏi cờ vua
  Từ lâu đã nghĩ sẽ rất hay nếu có các mô hình 4B~8B chỉ thật sự giỏi một framework cụ thể như SvelteKit
  Không chắc chất lượng của mô hình lớn lúc nào cũng tốt hơn, và nếu mô hình nhỏ chạy được trên một GPU thì có lẽ sẽ thực tế hơn nhiều
  Trước đây đã từng gợi ý với anh trai ý tưởng làm một website so sánh LLM chơi cờ vua, nhưng đến giờ vẫn chưa làm
- Không đồng ý với nhận định GPT‑3.5 giỏi cờ vua
  Thử thực tế thì thấy có quá nhiều nước đi ảo giác
- Chia sẻ liên kết seed‑tars.com/game‑tars
- Chẳng phải đây chính là cốt lõi của kiến trúc MoE sao?
  Ưu điểm là có thể huấn luyện và cải thiện từng phần cần thiết một cách riêng lẻ
Tò mò không biết các công cụ deep research kiểu này có thực sự hữu ích không
Theo kinh nghiệm của tôi, chúng không vượt quá mức tóm tắt của công cụ tìm kiếm và chỉ tạo ra những bản báo cáo nhạt nhòa
- Tôi điều hành một website nhỏ ở Anh và đã thử dùng nó để hỗ trợ tuân thủ pháp lý; nếu cung cấp ngữ cảnh thì nó cho ra kết quả khá tùy biến
  Chưa đạt mức luật sư, nhưng với những dự án không có ngân sách thì rất hữu ích
- Tôi cũng có trải nghiệm tương tự
  Nó giống các báo cáo tư vấn được viết để “trông có vẻ chất lượng” hơn là dành cho người thực sự muốn học, nên giá trị thực tiễn không cao
- Báo cáo thì nhạt, nhưng lại hữu ích khi lần theo nguồn tài liệu
  Với những câu hỏi như “chủ đề này đã từng được nghiên cứu chưa?”, nó giúp tìm ví dụ tham khảo khá tốt
- Tôi dùng ChatGPT thường xuyên, và khi nêu câu hỏi thì nó tổng hợp nguồn liên quan khá tốt
  Nó chưa thể thay thế hoàn toàn việc tự nghiên cứu, nhưng rất hữu ích trong giai đoạn sắp xếp thông tin ban đầu
- Dù chỉ ở mức tóm tắt kiểu công cụ tìm kiếm, nó vẫn đủ hữu dụng để tìm ra ý tưởng mới hoặc các unknown unknowns
Trước đây đã công bố mô hình Qwen3 4B distill cùng bộ dữ liệu tổng hợp trên Hugging Face
- Sẽ hay nếu có thêm một Hugging Face Space để dùng thử ngay trên trình duyệt
  Qwen3 4B chạy tốt ngay cả trên GPU tích hợp Intel của tôi nên khá ấn tượng
  Trước đây tôi từng nghĩ đến ý tưởng về một “mô hình siêu rẻ để phát hiện nội dung độc hại”, và có vẻ những LLM nhỏ như thế này có thể đảm nhiệm vai trò đó
  Ngoài ra cũng có thể dùng cho việc routing
- Tôi đã thử chạy nó với MCP tìm kiếm web của mình, và đây là lần đầu tiên thấy chất lượng deep research như vậy trên một mô hình nhỏ đến thế
Nhìn chung đây là một loạt bài thú vị
Chỉ là thuộc tính CSS word-break: break-word; khiến việc đọc quá khó chịu
- Tôi cũng đã thử đọc, nhưng có cảm giác các từ không kết nối với nhau
Sáng Chủ nhật, tôi tự hỏi nếu muốn tự host như một thú vui kỹ sư thì phải làm thế nào
Muốn thử chạy nó thật chậm trên 2080Ti với 128GB VRAM(?)
Tôi nghĩ chính những ràng buộc đó lại làm nó thú vị hơn
- Nếu muốn có nhiều VRAM với giá rẻ thì AMD MI50 là lựa chọn khá ổn
  Bản 32GB có thể mua trên AliExpress với giá 150~250 USD, và nếu ghép nhiều card lại thì có thể có cấu hình 128GB VRAM
  Không nhanh bằng GPU đời mới nhất nhưng vẫn đủ dùng
- Nếu muốn chạy local thật nhanh để thử thì ứng dụng Ollama là cách đơn giản nhất
  Có thể cài từ ollama.com
  Nhưng nếu là 2080Ti với 128GB VRAM thì tôi cũng rất tò mò đó là cách nào
- Tôi chạy mô hình bằng MacBook Pro với 128GB bộ nhớ hợp nhất
  Tốc độ chậm nhưng hoạt động tốt cả khi offline, và còn có thể dùng ở quán cà phê
  Vì dùng Ollama nên phải chờ các mô hình mới được port sang
- Cấu hình tôi tự lắp với ngân sách giới hạn như sau
  Ryzen 9 9950X, 96GB RAM, hai RTX 3090, PSU 1600W
  Có thể chạy khá ổn các mô hình 30B lượng tử hóa FP8
- Có lẽ ý ở đây là RAM chứ không phải VRAM
  Mô hình này là 30B MoE nhưng số tham số kích hoạt chỉ khoảng 3B nên khá giống Qwen3 MoE
  Tôi đang chạy mô hình lượng tử hóa 4bit trên i5‑6600 đã 11 năm tuổi cùng Radeon 6600 (8GB), và đạt khoảng 12tps với ngữ cảnh 16k
  Cũng chia sẻ ví dụ script chạy
Mô hình Tongyi cũng có trên OpenRouter, và còn có bản miễn phí
openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
Có người đùa rằng liệu “Deep research” có bị dịch thành “đồng ý” hay không
- Thực ra tên tiếng Trung là 通义千问(Tongyi Qianwen), mang nghĩa “biết mọi câu hỏi”
  Nó phát âm giống “同意(đồng ý)” nhưng ý nghĩa khác
  Tham khảo trang chính thức của Alibaba Qwen
Mô hình này thực ra đã công khai trọng số từ một tháng trước
- Dù vậy, không phải ai cũng theo dõi mọi thứ theo thời gian thực, nên ngay cả mô hình ra từ một tháng trước vẫn còn hữu ích
- Nếu vậy thì cũng tò mò so sánh hiệu năng của nó với các mô hình khác ra sao
“Deep research” của OpenAI không phải là một mô hình cụ thể mà gần hơn với một mẫu tính năng
Kết quả sẽ khác nhau tùy dùng GPT‑5, GPT‑4o, o3 hay mô hình nào khác
- Hiện giờ gần như nơi nào cũng cung cấp mẫu nghiên cứu tương tự, như OpenAI, Perplexity, Google Gemini, Anthropic hay Grok
  Đây là các tác vụ chạy dài dựa trên tìm kiếm, thu thập tài liệu trong 5~10 phút rồi tạo báo cáo kèm trích dẫn
  Mô hình Tongyi được tối ưu riêng cho kiểu vòng lặp tìm kiếm·viết báo cáo này

Tongyi DeepResearch – mô hình MoE 30B mã nguồn mở sánh ngang OpenAI DeepResearch

Từ chatbot đến tác tử tự chủ

Tiền huấn luyện liên tục và hậu huấn luyện dựa trên dữ liệu tổng hợp

Dữ liệu hậu huấn luyện(Post-training)

Chế độ rollout

Native ReAct Mode

Heavy Mode

Pipeline huấn luyện tác tử end-to-end

Cấu hình hạ tầng

Các trường hợp ứng dụng thực tế

Giới hạn và nhiệm vụ tiếp theo

Chuỗi nghiên cứu

Bài viết liên quan

1 bình luận

Ý kiến Hacker News