Fara-7B: Mô hình tác tử hiệu quả cho việc sử dụng máy tính

(github.com/microsoft)

3 điểm bởi GN⁺ 2025-11-28 | 1 bình luận | Chia sẻ qua WhatsApp

Fara-7B là một mô hình ngôn ngữ dạng tác tử (SLM) siêu nhỏ gồm 7 tỷ tham số, với kiến trúc Computer Use Agent thực hiện tác vụ bằng cách thao tác trực tiếp trên trình duyệt web thực tế
Dự đoán trực tiếp đầu vào chuột và bàn phím để nhận biết và thao tác trên trang web bằng thị giác, tương tác theo cùng cách với con người mà không cần cây truy cập hay mô hình phân tích cú pháp riêng
Có thể chạy on-device, giúp giảm độ trễ và tăng cường bảo vệ quyền riêng tư, hoàn thành tác vụ trung bình trong 16 bước, cải thiện hiệu quả so với các mô hình cùng hạng
Ghi nhận hiệu năng vượt trội so với các mô hình cùng hạng và cả mô hình lớn trên nhiều benchmark như WebTailBench, đặc biệt đạt tỷ lệ thành công cao trong tự động hóa web và các tác vụ nhiều bước
Cùng với bộ dữ liệu WebTailBench do Microsoft công bố, cung cấp môi trường đánh giá tác tử web và thực nghiệm có thể tái lập, góp phần chuẩn hóa nghiên cứu tương tác web thực tế

Tổng quan về Fara-7B

Là mô hình ngôn ngữ nhỏ (SLM) dạng tác tử chuyên cho sử dụng máy tính đầu tiên của Microsoft, đạt hiệu năng hàng đầu hiện nay ở quy mô 7 tỷ tham số
Dựa trên Qwen2.5-VL-7B, được huấn luyện bằng dữ liệu tổng hợp (145.000 lộ trình) sử dụng framework đa tác tử Magentic-One
Gồm 7B tham số nên có thể chạy cục bộ, giảm độ trễ và tăng cường quyền riêng tư dữ liệu

Đặc điểm chính

Dựa trên thao tác trực quan để nhận biết trang web, mô phỏng hành vi người dùng thực như cuộn, nhấp và nhập liệu
Sử dụng cùng phương thức đầu vào như con người, không cần mô hình phân tích cú pháp riêng
Hoàn thành tác vụ trong trung bình 16 bước, hiệu quả hơn so với các mô hình tương tự (trung bình 41 bước)
Triển khai on-device giúp giảm phụ thuộc vào đám mây và tăng cường bảo vệ dữ liệu cá nhân

Tính năng hỗ trợ

Tìm kiếm web và tóm tắt kết quả
Điền biểu mẫu, quản lý tài khoản
Đặt vé máy bay, phim và nhà hàng
Mua sắm trực tuyến và so sánh giá
Tìm kiếm thông tin việc làm và bất động sản

So sánh hiệu năng

Được đánh giá trên 4 benchmark gồm WebVoyager, Online-M2W, DeepShop, WebTailBench
Fara-7B ghi nhận tỷ lệ thành công WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4%
Hiệu năng cao hơn cả mô hình cùng hạng (UI-TARS-1.5-7B) lẫn mô hình lớn (GLM-4.1V-9B)

Benchmark WebTailBench

Gồm 609 bài toán bao phủ 11 loại tác vụ web thực tế
Bao gồm tác vụ trên một website (mua sắm, hàng không, khách sạn...) và tác vụ nhiều bước (so sánh mua sắm, tác vụ kết hợp...)
Fara-7B ghi nhận hiệu năng cao nhất trong các mô hình sử dụng máy tính ở mọi hạng mục
- Ví dụ: khách sạn 53.8%, hàng không 37.9%, mua sắm 52.4%, so sánh mua sắm 32.7%

Hạ tầng đánh giá

Sử dụng Playwright để tái hiện môi trường trình duyệt thực
Có thể tích hợp nhiều mô hình khác nhau qua Abstract Web Agent Interface
Hỗ trợ chạy và kiểm thử mô hình thông qua Fara-Agent Class
Là bản công khai thử nghiệm, khuyến nghị chạy trong môi trường sandbox và hạn chế dùng dữ liệu nhạy cảm

Cài đặt và chạy

Cài đặt bằng pip install -e . hoặc uv sync --all-extras
Cần cài đặt trình duyệt Playwright
Hỗ trợ cloud hosting qua Azure Foundry hoặc tự host GPU bằng VLLM

Ví dụ lệnh:

fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";

Khả năng tái lập và môi trường đánh giá

Cung cấp framework webeval/ để tái lập đánh giá WebVoyager và OnlineMind2Web
Tích hợp BrowserBase để quản lý phiên trình duyệt ổn định
Bảo đảm tính nhất quán đánh giá với cập nhật tác vụ nhạy thời gian, xử lý lỗi môi trường và giới hạn 100 bước
Loại bỏ 48 tác vụ bất khả thi trong bộ dữ liệu WebVoyager, cập nhật 50 mốc ngày trong tương lai

Chạy đánh giá và phân tích

Chạy script đánh giá trong thư mục webeval/scripts
Có thể chọn giữa tự host bằng VLLM hoặc endpoint Azure Foundry
Kết quả được lưu trong gpt_eval/, traj/, screenshot_X.png...
Có thể dùng Jupyter Notebook để phân tích điểm trung bình, nguyên nhân thất bại và các lộ trình bị gián đoạn

Kế hoạch tiếp theo

Dự kiến công bố pipeline kiểm chứng cho đánh giá LLM-as-a-judge và dữ liệu chú thích thủ công chính thức của WebTailBench
Nâng cao chất lượng đánh giá thông qua hợp tác với BrowserBase

Thông tin trích dẫn

Khi sử dụng cho nghiên cứu, khuyến nghị trích dẫn bài báo Fara: Fast and Accurate Web Agent (2025) của Microsoft Research

1 bình luận

GN⁺ 2025-11-28

Ý kiến trên Hacker News

Điểm mấu chốt là Microsoft đã fine-tune Qwen2.5-VL-7B
Tôi nghĩ đây mới là điểm khởi đầu thực sự của cuộc thảo luận lần này. Cũng tò mò không biết các công ty lớn khác đã từng fine-tune mô hình bên ngoài theo kiểu này chưa
Cảm giác như chỉ dán nhãn Microsoft lên Qwen2.5-VL
Có vẻ giờ đây các công ty Trung Quốc đang dẫn đầu
- Đúng vậy. Ví dụ Fara-7B trả lời khá tốt về trận Somme trong Thế chiến thứ nhất, nhưng với sự kiện Thiên An Môn thì lại né tránh bằng cách nói “đây là chủ đề chính trị nhạy cảm nên không thể trả lời”
Việc công bố benchmark tác vụ web mới WebTailBench mới là điểm đáng chú ý thực sự
Tôi thắc mắc vì sao Microsoft cứ liên tục chỉ tung ra các mô hình được huấn luyện bằng dữ liệu tổng hợp (synthetic data)
Có lẽ do hợp đồng với OpenAI nên họ không thể tự làm LLM riêng chăng. Hiện tại chỉ Meta là vẫn tung ra mô hình mã nguồn mở lớn tại Mỹ, còn các công ty Trung Quốc thì tiếp tục phát hành các mô hình mở hoàn chỉnh
- Tôi nghĩ chắc không có ràng buộc hợp đồng nào đâu. Chỉ là họ không muốn lãng phí tài nguyên để tạo thêm một mô hình nền tảng (foundation model) nữa
  Mô hình lần này dùng để điều khiển máy tính nên dữ liệu tổng hợp là phù hợp. Gần như không có bộ dữ liệu thực tế nào cả.
  Lý do các công ty Trung Quốc chọn mã nguồn mở phần lớn là để xây dựng niềm tin và khác biệt hóa marketing
- Khả năng cao là đội pháp lý đã yêu cầu như vậy. Các tập đoàn lớn về bản chất có cấu trúc không thể đổi mới
- Các mô hình như Gemma, Phi, OLMO, Mistral, GPT-OSS cũng đủ sức cạnh tranh và chạy tốt trên phần cứng phổ thông
- Huấn luyện bằng dữ liệu tổng hợp hiệu quả hơn nhiều. Dữ liệu thực chỉ biết token tiếp theo, còn dữ liệu tổng hợp biết toàn bộ phân phối xác suất, nên hiệu quả học tăng lên gấp bội
  Bài báo liên quan: https://arxiv.org/pdf/2504.14772v1
- Chỉ dùng dữ liệu tổng hợp còn an toàn hơn. Có thể tránh các vấn đề như nội dung người lớn hoặc roleplay
Có vẻ mô hình này chỉ bị giới hạn trong việc dùng trình duyệt. Ví dụ các chương trình thông thường như KiCAD thì không điều khiển được
Tôi đã thử dùng Qwen3-VL-30B với Playwright, và nó khá ổn cho tự động hóa trình duyệt. Nhưng với tác vụ lặp lại thì cuối cùng vẫn phải đóng gói bằng code
Điều thú vị là mô hình này nhỏ hơn, nhưng lại được tạo ra cho mục đích chuyên biệt
- Nếu muốn chuyển các hành động CUA kiểu này thành script mang tính quyết định, có thể tham khảo hướng dẫn cache của Stagehand
- Có thể làm được nếu giả lập bằng WASM trong trình duyệt. Đây là do ràng buộc sandbox bảo mật hơn là giới hạn của mô hình
- Có người đang xin chia sẻ nếu có công cụ hay đoạn code liên quan
- Thử thực tế thì thấy nó chỉ hoạt động trong môi trường Playwright
Nhìn vào bảng thì tôi không hiểu phần lớn các trường hợp sử dụng. Chỉ việc so sánh mua sắm là còn dễ hiểu
Không rõ liệu mọi người thật sự đang thuê ngoài việc mua sắm cho AI hay không
- Không nhất thiết chỉ dành cho người tiêu dùng. Ví dụ nó hữu ích khi cần tự động hóa những thứ như website công ty bảo hiểm không có API
- Việc gom sản phẩm theo danh mục rồi tóm tắt lại là một tính năng khá hữu ích
- Tôi không thoải mái với việc để AI tự thanh toán hay đặt chỗ. Nhưng tôi muốn giao cho nó phần nghiên cứu và khám phá thôi
- Tôi thật sự đang giao việc mua rượu vang cho AI
Kiểu tự động hóa này thực ra đã làm được từ nhiều năm trước rồi. Cũng không cần GPU, và nếu giao diện thay đổi thì chỉ việc sửa script
Có vẻ Microsoft chỉ đang ném thử đủ loại thí nghiệm AI
- Điểm cốt lõi là bạn có thể tự động hóa trên hơn 1 tỷ website mà không cần tự viết script
  Mô hình nhận ảnh chụp màn hình trang và mục tiêu đầu vào, rồi tạo ra lệnh tự động hóa để đi tới mục tiêu đó
Tôi tò mò liệu loại mô hình này có thể dùng cho điều khiển đầu vào trong video game không. Sẽ rất vui nếu AI chơi Kerbal Space Program
- Những thử nghiệm kiểu này đã có từ trước. Dùng kRPC thì mô hình có thể giao tiếp với game khá dễ
  Khi thử với Opus3, cảnh nó phun ra những câu như “bắt đầu quy trình thoát hiểm khẩn cấp” rồi làm nổ tung con tàu vũ trụ khá buồn cười
- Cũng đáng tham khảo SIMA-2 của DeepMind (không phải mô hình chạy cục bộ)
- AgentEvolver của Alibaba không chuyên cho game, nhưng là một hệ thống tác tử dựa trên vòng lặp OODA khá thú vị
  Bài báo liên quan: https://arxiv.org/abs/2511.10395
  Cũng đáng xem bài viết phản hồi của Sung Kim
- Tôi tò mò nếu cho nó chơi poker online thì sẽ ra sao
Có vẻ Microsoft đã fine-tune Qwen-7B
- Chính xác là Qwen2.5-VL-7B. Khác biệt này khá quan trọng
- Cảm giác như thế cờ đang thay đổi
Thật buồn cười khi việc tự động hóa click trên web lại cần tới mô hình 7 tỷ tham số
Tôi không biết là vì chúng ta không viết nổi script, hay vì stack phần mềm đã trở nên quá phức tạp
- Gần đây tôi xem một video tên là ‘My New Agent Coding Workflow’, trong đó chỉ cần tải một file thôi mà người ta cũng đi prompt cho IDE làm
  Cảm giác như cố tình tăng lượng token sử dụng vậy
- Đây không phải vấn đề kỹ thuật mà là vấn đề hợp tác xã hội.
  Vì các công ty không cung cấp API cho khả năng tương tác, nên cuối cùng để LLM xử lý UI bằng cách brute-force như con người lại dễ hơn
- Một nửa ngành phần mềm và tài chính hiện nay được dựng lên trên những rào cản gia nhập nhân tạo do độ phức tạp quá mức gây ra

Fara-7B: Mô hình tác tử hiệu quả cho việc sử dụng máy tính

Tổng quan về Fara-7B

Đặc điểm chính

Tính năng hỗ trợ

So sánh hiệu năng

Benchmark WebTailBench

Hạ tầng đánh giá

Cài đặt và chạy

Khả năng tái lập và môi trường đánh giá

Chạy đánh giá và phân tích

Kế hoạch tiếp theo

Thông tin trích dẫn

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News