- Fara-7B là một mô hình ngôn ngữ dạng tác tử (SLM) siêu nhỏ gồm 7 tỷ tham số, với kiến trúc Computer Use Agent thực hiện tác vụ bằng cách thao tác trực tiếp trên trình duyệt web thực tế
- Dự đoán trực tiếp đầu vào chuột và bàn phím để nhận biết và thao tác trên trang web bằng thị giác, tương tác theo cùng cách với con người mà không cần cây truy cập hay mô hình phân tích cú pháp riêng
- Có thể chạy on-device, giúp giảm độ trễ và tăng cường bảo vệ quyền riêng tư, hoàn thành tác vụ trung bình trong 16 bước, cải thiện hiệu quả so với các mô hình cùng hạng
- Ghi nhận hiệu năng vượt trội so với các mô hình cùng hạng và cả mô hình lớn trên nhiều benchmark như WebTailBench, đặc biệt đạt tỷ lệ thành công cao trong tự động hóa web và các tác vụ nhiều bước
- Cùng với bộ dữ liệu WebTailBench do Microsoft công bố, cung cấp môi trường đánh giá tác tử web và thực nghiệm có thể tái lập, góp phần chuẩn hóa nghiên cứu tương tác web thực tế
Tổng quan về Fara-7B
- Là mô hình ngôn ngữ nhỏ (SLM) dạng tác tử chuyên cho sử dụng máy tính đầu tiên của Microsoft, đạt hiệu năng hàng đầu hiện nay ở quy mô 7 tỷ tham số
- Dựa trên Qwen2.5-VL-7B, được huấn luyện bằng dữ liệu tổng hợp (145.000 lộ trình) sử dụng framework đa tác tử Magentic-One
- Gồm 7B tham số nên có thể chạy cục bộ, giảm độ trễ và tăng cường quyền riêng tư dữ liệu
Đặc điểm chính
- Dựa trên thao tác trực quan để nhận biết trang web, mô phỏng hành vi người dùng thực như cuộn, nhấp và nhập liệu
- Sử dụng cùng phương thức đầu vào như con người, không cần mô hình phân tích cú pháp riêng
- Hoàn thành tác vụ trong trung bình 16 bước, hiệu quả hơn so với các mô hình tương tự (trung bình 41 bước)
- Triển khai on-device giúp giảm phụ thuộc vào đám mây và tăng cường bảo vệ dữ liệu cá nhân
Tính năng hỗ trợ
- Tìm kiếm web và tóm tắt kết quả
- Điền biểu mẫu, quản lý tài khoản
- Đặt vé máy bay, phim và nhà hàng
- Mua sắm trực tuyến và so sánh giá
- Tìm kiếm thông tin việc làm và bất động sản
So sánh hiệu năng
- Được đánh giá trên 4 benchmark gồm WebVoyager, Online-M2W, DeepShop, WebTailBench
- Fara-7B ghi nhận tỷ lệ thành công WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4%
- Hiệu năng cao hơn cả mô hình cùng hạng (UI-TARS-1.5-7B) lẫn mô hình lớn (GLM-4.1V-9B)
Benchmark WebTailBench
- Gồm 609 bài toán bao phủ 11 loại tác vụ web thực tế
- Bao gồm tác vụ trên một website (mua sắm, hàng không, khách sạn...) và tác vụ nhiều bước (so sánh mua sắm, tác vụ kết hợp...)
- Fara-7B ghi nhận hiệu năng cao nhất trong các mô hình sử dụng máy tính ở mọi hạng mục
- Ví dụ: khách sạn 53.8%, hàng không 37.9%, mua sắm 52.4%, so sánh mua sắm 32.7%
Hạ tầng đánh giá
- Sử dụng Playwright để tái hiện môi trường trình duyệt thực
- Có thể tích hợp nhiều mô hình khác nhau qua Abstract Web Agent Interface
- Hỗ trợ chạy và kiểm thử mô hình thông qua Fara-Agent Class
- Là bản công khai thử nghiệm, khuyến nghị chạy trong môi trường sandbox và hạn chế dùng dữ liệu nhạy cảm
Cài đặt và chạy
Khả năng tái lập và môi trường đánh giá
- Cung cấp framework
webeval/ để tái lập đánh giá WebVoyager và OnlineMind2Web
- Tích hợp BrowserBase để quản lý phiên trình duyệt ổn định
- Bảo đảm tính nhất quán đánh giá với cập nhật tác vụ nhạy thời gian, xử lý lỗi môi trường và giới hạn 100 bước
- Loại bỏ 48 tác vụ bất khả thi trong bộ dữ liệu WebVoyager, cập nhật 50 mốc ngày trong tương lai
Chạy đánh giá và phân tích
- Chạy script đánh giá trong thư mục
webeval/scripts
- Có thể chọn giữa tự host bằng VLLM hoặc endpoint Azure Foundry
- Kết quả được lưu trong
gpt_eval/, traj/, screenshot_X.png...
- Có thể dùng Jupyter Notebook để phân tích điểm trung bình, nguyên nhân thất bại và các lộ trình bị gián đoạn
Kế hoạch tiếp theo
- Dự kiến công bố pipeline kiểm chứng cho đánh giá LLM-as-a-judge và dữ liệu chú thích thủ công chính thức của WebTailBench
- Nâng cao chất lượng đánh giá thông qua hợp tác với BrowserBase
Thông tin trích dẫn
- Khi sử dụng cho nghiên cứu, khuyến nghị trích dẫn bài báo Fara: Fast and Accurate Web Agent (2025) của Microsoft Research
1 bình luận
Ý kiến trên Hacker News
Tôi nghĩ đây mới là điểm khởi đầu thực sự của cuộc thảo luận lần này. Cũng tò mò không biết các công ty lớn khác đã từng fine-tune mô hình bên ngoài theo kiểu này chưa
Có vẻ giờ đây các công ty Trung Quốc đang dẫn đầu
Có lẽ do hợp đồng với OpenAI nên họ không thể tự làm LLM riêng chăng. Hiện tại chỉ Meta là vẫn tung ra mô hình mã nguồn mở lớn tại Mỹ, còn các công ty Trung Quốc thì tiếp tục phát hành các mô hình mở hoàn chỉnh
Mô hình lần này dùng để điều khiển máy tính nên dữ liệu tổng hợp là phù hợp. Gần như không có bộ dữ liệu thực tế nào cả.
Lý do các công ty Trung Quốc chọn mã nguồn mở phần lớn là để xây dựng niềm tin và khác biệt hóa marketing
Bài báo liên quan: https://arxiv.org/pdf/2504.14772v1
Tôi đã thử dùng Qwen3-VL-30B với Playwright, và nó khá ổn cho tự động hóa trình duyệt. Nhưng với tác vụ lặp lại thì cuối cùng vẫn phải đóng gói bằng code
Điều thú vị là mô hình này nhỏ hơn, nhưng lại được tạo ra cho mục đích chuyên biệt
Không rõ liệu mọi người thật sự đang thuê ngoài việc mua sắm cho AI hay không
Có vẻ Microsoft chỉ đang ném thử đủ loại thí nghiệm AI
Mô hình nhận ảnh chụp màn hình trang và mục tiêu đầu vào, rồi tạo ra lệnh tự động hóa để đi tới mục tiêu đó
Khi thử với Opus3, cảnh nó phun ra những câu như “bắt đầu quy trình thoát hiểm khẩn cấp” rồi làm nổ tung con tàu vũ trụ khá buồn cười
Bài báo liên quan: https://arxiv.org/abs/2511.10395
Cũng đáng xem bài viết phản hồi của Sung Kim
Tôi không biết là vì chúng ta không viết nổi script, hay vì stack phần mềm đã trở nên quá phức tạp
Cảm giác như cố tình tăng lượng token sử dụng vậy
Vì các công ty không cung cấp API cho khả năng tương tác, nên cuối cùng để LLM xử lý UI bằng cách brute-force như con người lại dễ hơn