- Tongyi DeepResearch là tác tử web mã nguồn mở hoàn toàn đầu tiên đạt hiệu năng ngang với OpenAI DeepResearch, ghi nhận kết quả hàng đầu trên các benchmark truy vấn thông tin phức tạp
- Tongyi Lab là một trong những bộ phận nghiên cứu và phát triển AI của Alibaba Group, tập trung vào mô hình ngôn ngữ lớn (LLM), mô hình đa phương thức và công nghệ tác tử (Agent), đồng thời là nơi tạo ra mô hình QWEN
- Xây dựng pipeline huấn luyện end-to-end tích hợp Agentic Continual Pre-training(CPT), Supervised Fine-Tuning(SFT) và Reinforcement Learning(RL)
- Tăng cường năng lực suy luận dài hạn và lập kế hoạch thông qua việc tạo QA quy mô lớn dựa hoàn toàn trên dữ liệu tổng hợp và mô hình IterResearch
- Hỗ trợ chế độ ReAct và chế độ Heavy, đáp ứng từ suy luận đơn giản đến nghiên cứu đa bước phức tạp, đồng thời bảo đảm hiệu năng ổn định bằng học tăng cường dựa trên thuật toán GRPO
- Đã được áp dụng thực tế vào các dịch vụ trong và ngoài Alibaba như Gaode Mate và Tongyi FaRui, chứng minh tính thực dụng và khả năng mở rộng của tác tử nghiên cứu AI mã nguồn mở
Từ chatbot đến tác tử tự chủ
- Tongyi DeepResearch là tác tử web mã nguồn mở hoàn toàn đầu tiên đạt hiệu năng ở mức OpenAI DeepResearch
- Ghi nhận Humanity’s Last Exam(HLE) 32.9, BrowseComp 43.4, BrowseComp-ZH 46.7, xbench-DeepSearch 75 điểm
- Vượt qua mọi tác tử Deep Research thương mại và mã nguồn mở trước đây
- Ngoài mô hình, nhóm còn công bố toàn bộ phương pháp huấn luyện dựa trên dữ liệu tổng hợp
- Cung cấp hạ tầng tạo dữ liệu tự động và học tăng cường cho toàn bộ quy trình, bao gồm Agentic CPT, SFT và RL
- Thể hiện năng lực nội tại mạnh mẽ với khung ReAct ngay cả khi không cần prompt engineering
- Heavy Mode cho thấy giới hạn của khả năng lập kế hoạch và suy luận phức tạp
Tiền huấn luyện liên tục và hậu huấn luyện dựa trên dữ liệu tổng hợp
- Giới thiệu Agentic CPT để xây dựng mô hình nền tảng kiểu tác tử
- Triển khai tổng hợp dữ liệu quy mô lớn và vòng lặp dữ liệu tuần hoàn thông qua hệ thống AgentFounder
- Ở giai đoạn tái cấu trúc dữ liệu và tạo câu hỏi, hệ thống tích hợp tài liệu, dữ liệu crawling, đồ thị tri thức và bản ghi gọi công cụ
- Sau đó tái cấu trúc chúng thành bộ nhớ tri thức thế giới mở lấy thực thể làm trung tâm, rồi tạo ra các cặp (câu hỏi, câu trả lời) ở nhiều dạng khác nhau
- Tạo dữ liệu hành động bậc một và bậc cao thông qua Action Synthesis
- Mô hình hóa cấu trúc ra quyết định nhiều bước để tăng cường năng lực ra quyết định
-
Dữ liệu hậu huấn luyện(Post-training)
- Xây dựng pipeline tạo QA tổng hợp hoàn toàn tự động
- Thông qua một chuỗi nghiên cứu như WebWalker, WebSailor, WebShaper, hệ thống tạo ra dữ liệu QA tổng hợp dựa trên đồ thị và có kiểm soát độ khó
- Đảm bảo cấu trúc thông tin thực tế bằng cách kết hợp đồ thị tri thức dựa trên random walk với dữ liệu bảng
- Điều chỉnh độ khó một cách có hệ thống bằng các “phép toán nguyên tử” như gộp thực thể
- Hình thức hóa bài toán dựa trên lý thuyết tập hợp để giảm thiểu sai lệch giữa cấu trúc thông tin và cấu trúc suy luận
- Nâng cao hiệu quả kiểm chứng tính nhất quán của QA
- Công cụ dữ liệu tự động tạo ra các câu hỏi nghiên cứu ở trình độ tiến sĩ
- Bắt đầu từ nền tảng tri thức liên ngành rồi tạo QA độ khó cao qua vòng lặp tăng dần độ phức tạp
- Học nhiều mẫu suy luận khác nhau bằng khung ReAct và IterResearch
- IterResearch tái cấu trúc không gian làm việc sau mỗi vòng để tăng cường khả năng lập kế hoạch dài hạn
Chế độ rollout
- Mô hình hỗ trợ hai cách thực thi: chế độ ReAct và chế độ Heavy
-
Native ReAct Mode
- Tuân theo cấu trúc lặp Thought–Action–Observation, đạt hiệu năng cao ngay cả khi không cần prompt engineering
- Với độ dài ngữ cảnh 128K, có thể xử lý nhiều vòng tương tác
- Tính đơn giản và tính phổ dụng cung cấp tiêu chuẩn rõ ràng để đánh giá năng lực nội tại của mô hình
- Áp dụng phương pháp luận tổng quát có thể mở rộng theo nguyên tắc “The Bitter Lesson”
-
Heavy Mode
- Thực hiện các nhiệm vụ nghiên cứu đa bước phức tạp dựa trên mô hình IterResearch
- Ở mỗi vòng chỉ giữ lại các kết quả cốt lõi rồi tái cấu trúc không gian làm việc mới
- Liên tục cập nhật báo cáo trung tâm để duy trì suy luận chất lượng cao
- Thông qua khung Research–Synthesis, hệ thống khám phá song song kết quả của nhiều tác tử nghiên cứu rồi tổng hợp lại
- Nhờ đó mở rộng được phạm vi khám phá trong bối cảnh ngữ cảnh bị giới hạn
Pipeline huấn luyện tác tử end-to-end
- Xây dựng vòng lặp huấn luyện tích hợp hoàn chỉnh từ Agentic CPT → SFT → RL
- Ở giai đoạn học tăng cường on-policy(RL), sử dụng thuật toán Group Relative Policy Optimization(GRPO)
- Bảo đảm tính ổn định bằng token-level policy gradient loss, chiến lược leave-one-out và lọc mẫu âm
- Trong quá trình huấn luyện, phần thưởng tăng lên trong khi entropy chính sách vẫn cao để duy trì khả năng khám phá
- Dữ liệu tổng hợp cung cấp phân phối nhất quán hơn dữ liệu do con người chú thích như BrowseComp, từ đó nâng cao hiệu quả huấn luyện
-
Cấu hình hạ tầng
- Môi trường huấn luyện tổng hợp: xây dựng môi trường mô phỏng bằng Wikipedia DB ngoại tuyến và bộ công cụ tùy biến
- Sandbox công cụ ổn định: ngăn lỗi gọi công cụ bằng caching, retry và API dự phòng
- Tuyển chọn dữ liệu tự động: cải thiện độ ổn định và hiệu năng bằng cách tổng hợp, lọc dữ liệu theo thời gian thực dựa trên động lực học huấn luyện
- Khung on-policy bất đồng bộ: triển khai vòng lặp RL bất đồng bộ theo từng bước dựa trên rLLM
- Qua quá trình này, hệ thống hoàn thiện vòng lặp huấn luyện tác tử AI tự tiến hóa, cho phép giải quyết vấn đề ổn định ngay cả trong môi trường động phức tạp
Các trường hợp ứng dụng thực tế
- Gaode Mate (tác tử bản đồ và điều hướng)
- Phát triển AI copilot ‘Xiao Gao’ cùng với đội ngũ Amap
- Thực hiện các kế hoạch phức hợp như lịch trình du lịch hay lộ trình bao gồm chỗ ở thân thiện với thú cưng bằng suy luận đa bước
- Tongyi FaRui (tác tử nghiên cứu pháp lý)
- Thực hiện nghiên cứu đa bước ở cấp độ luật sư như tìm kiếm án lệ, đối chiếu chéo điều luật và tổng hợp phân tích
- Mọi kết luận đều dựa trên tài liệu tư pháp có thể kiểm chứng và đi kèm trích dẫn chính xác
Giới hạn và nhiệm vụ tiếp theo
- Giới hạn ngữ cảnh 128K khiến việc xử lý các nhiệm vụ cực dài còn bị hạn chế
- Cần kiểm chứng khả năng mở rộng lên mô hình MoE quy mô từ 30B trở lên
- Có kế hoạch nghiên cứu partial rollout và học off-policy để cải thiện hiệu quả học tăng cường
Chuỗi nghiên cứu
- Đã công bố 11 bài báo liên quan như WebWalker, WebDancer, WebSailor, WebShaper, WebWatcher
- Trong 6 tháng gần đây, nhóm phát hành báo cáo kỹ thuật hằng tháng; lần này công bố đồng thời 6 báo cáo mới cùng với mô hình Tongyi DeepResearch‑30B‑A3B
- Sẽ tiếp tục phát triển thế hệ mô hình kiểu tác tử tiếp theo
1 bình luận
Ý kiến Hacker News
Cấu trúc chạy song song nhiều agent, trong đó mô hình nhẹ đảm nhiệm tìm kiếm·trích xuất còn mô hình 30B phụ trách lập kế hoạch·định tuyến công cụ·kiểm chứng, là một cách tiếp cận hiệu quả
Cấu trúc chuyên môn hóa của MoE rất phù hợp với AI agent phân tán, nhưng vẫn cần orchestration để retry·đồng thuận·đánh giá nghiên cứu web nhiều bước
Nếu các mô hình lớn trở nên quá đồ sộ và chạm tới giới hạn của tiền huấn luyện, có thể sẽ xuất hiện nhiều mô hình theo mục đích hơn
Nhìn việc GPT‑3.5 từng chơi cờ vua tốt nhưng các mô hình gần đây lại không như vậy, có vẻ tồn tại trade-off trong dữ liệu huấn luyện
Fine-tune mô hình nhỏ cho tác vụ cụ thể tốn kém, còn tốc độ tiến hóa của mô hình lớn lại quá nhanh nên rất dễ bị bỏ lại phía sau
Tuy nhiên, nếu tốc độ phát triển chậm lại thì huấn luyện mô hình nhỏ có thể lại trở nên có ý nghĩa
Từ lâu đã nghĩ sẽ rất hay nếu có các mô hình 4B~8B chỉ thật sự giỏi một framework cụ thể như SvelteKit
Không chắc chất lượng của mô hình lớn lúc nào cũng tốt hơn, và nếu mô hình nhỏ chạy được trên một GPU thì có lẽ sẽ thực tế hơn nhiều
Trước đây đã từng gợi ý với anh trai ý tưởng làm một website so sánh LLM chơi cờ vua, nhưng đến giờ vẫn chưa làm
Thử thực tế thì thấy có quá nhiều nước đi ảo giác
Ưu điểm là có thể huấn luyện và cải thiện từng phần cần thiết một cách riêng lẻ
Theo kinh nghiệm của tôi, chúng không vượt quá mức tóm tắt của công cụ tìm kiếm và chỉ tạo ra những bản báo cáo nhạt nhòa
Chưa đạt mức luật sư, nhưng với những dự án không có ngân sách thì rất hữu ích
Nó giống các báo cáo tư vấn được viết để “trông có vẻ chất lượng” hơn là dành cho người thực sự muốn học, nên giá trị thực tiễn không cao
Với những câu hỏi như “chủ đề này đã từng được nghiên cứu chưa?”, nó giúp tìm ví dụ tham khảo khá tốt
Nó chưa thể thay thế hoàn toàn việc tự nghiên cứu, nhưng rất hữu ích trong giai đoạn sắp xếp thông tin ban đầu
Qwen3 4B chạy tốt ngay cả trên GPU tích hợp Intel của tôi nên khá ấn tượng
Trước đây tôi từng nghĩ đến ý tưởng về một “mô hình siêu rẻ để phát hiện nội dung độc hại”, và có vẻ những LLM nhỏ như thế này có thể đảm nhiệm vai trò đó
Ngoài ra cũng có thể dùng cho việc routing
Chỉ là thuộc tính CSS
word-break: break-word;khiến việc đọc quá khó chịuMuốn thử chạy nó thật chậm trên 2080Ti với 128GB VRAM(?)
Tôi nghĩ chính những ràng buộc đó lại làm nó thú vị hơn
Bản 32GB có thể mua trên AliExpress với giá 150~250 USD, và nếu ghép nhiều card lại thì có thể có cấu hình 128GB VRAM
Không nhanh bằng GPU đời mới nhất nhưng vẫn đủ dùng
Có thể cài từ ollama.com
Nhưng nếu là 2080Ti với 128GB VRAM thì tôi cũng rất tò mò đó là cách nào
Tốc độ chậm nhưng hoạt động tốt cả khi offline, và còn có thể dùng ở quán cà phê
Vì dùng Ollama nên phải chờ các mô hình mới được port sang
Ryzen 9 9950X, 96GB RAM, hai RTX 3090, PSU 1600W
Có thể chạy khá ổn các mô hình 30B lượng tử hóa FP8
Mô hình này là 30B MoE nhưng số tham số kích hoạt chỉ khoảng 3B nên khá giống Qwen3 MoE
Tôi đang chạy mô hình lượng tử hóa 4bit trên i5‑6600 đã 11 năm tuổi cùng Radeon 6600 (8GB), và đạt khoảng 12tps với ngữ cảnh 16k
Cũng chia sẻ ví dụ script chạy
openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
Nó phát âm giống “同意(đồng ý)” nhưng ý nghĩa khác
Tham khảo trang chính thức của Alibaba Qwen
Kết quả sẽ khác nhau tùy dùng GPT‑5, GPT‑4o, o3 hay mô hình nào khác
Đây là các tác vụ chạy dài dựa trên tìm kiếm, thu thập tài liệu trong 5~10 phút rồi tạo báo cáo kèm trích dẫn
Mô hình Tongyi được tối ưu riêng cho kiểu vòng lặp tìm kiếm·viết báo cáo này