3 điểm bởi GN⁺ 2025-11-28 | 1 bình luận | Chia sẻ qua WhatsApp
  • Fara-7B là một mô hình ngôn ngữ dạng tác tử (SLM) siêu nhỏ gồm 7 tỷ tham số, với kiến trúc Computer Use Agent thực hiện tác vụ bằng cách thao tác trực tiếp trên trình duyệt web thực tế
  • Dự đoán trực tiếp đầu vào chuột và bàn phím để nhận biết và thao tác trên trang web bằng thị giác, tương tác theo cùng cách với con người mà không cần cây truy cập hay mô hình phân tích cú pháp riêng
  • Có thể chạy on-device, giúp giảm độ trễ và tăng cường bảo vệ quyền riêng tư, hoàn thành tác vụ trung bình trong 16 bước, cải thiện hiệu quả so với các mô hình cùng hạng
  • Ghi nhận hiệu năng vượt trội so với các mô hình cùng hạng và cả mô hình lớn trên nhiều benchmark như WebTailBench, đặc biệt đạt tỷ lệ thành công cao trong tự động hóa web và các tác vụ nhiều bước
  • Cùng với bộ dữ liệu WebTailBench do Microsoft công bố, cung cấp môi trường đánh giá tác tử web và thực nghiệm có thể tái lập, góp phần chuẩn hóa nghiên cứu tương tác web thực tế

Tổng quan về Fara-7B

  • mô hình ngôn ngữ nhỏ (SLM) dạng tác tử chuyên cho sử dụng máy tính đầu tiên của Microsoft, đạt hiệu năng hàng đầu hiện nay ở quy mô 7 tỷ tham số
  • Dựa trên Qwen2.5-VL-7B, được huấn luyện bằng dữ liệu tổng hợp (145.000 lộ trình) sử dụng framework đa tác tử Magentic-One
  • Gồm 7B tham số nên có thể chạy cục bộ, giảm độ trễ và tăng cường quyền riêng tư dữ liệu

Đặc điểm chính

  • Dựa trên thao tác trực quan để nhận biết trang web, mô phỏng hành vi người dùng thực như cuộn, nhấp và nhập liệu
  • Sử dụng cùng phương thức đầu vào như con người, không cần mô hình phân tích cú pháp riêng
  • Hoàn thành tác vụ trong trung bình 16 bước, hiệu quả hơn so với các mô hình tương tự (trung bình 41 bước)
  • Triển khai on-device giúp giảm phụ thuộc vào đám mây và tăng cường bảo vệ dữ liệu cá nhân

Tính năng hỗ trợ

  • Tìm kiếm web và tóm tắt kết quả
  • Điền biểu mẫu, quản lý tài khoản
  • Đặt vé máy bay, phim và nhà hàng
  • Mua sắm trực tuyến và so sánh giá
  • Tìm kiếm thông tin việc làm và bất động sản

So sánh hiệu năng

  • Được đánh giá trên 4 benchmark gồm WebVoyager, Online-M2W, DeepShop, WebTailBench
  • Fara-7B ghi nhận tỷ lệ thành công WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4%
  • Hiệu năng cao hơn cả mô hình cùng hạng (UI-TARS-1.5-7B) lẫn mô hình lớn (GLM-4.1V-9B)

Benchmark WebTailBench

  • Gồm 609 bài toán bao phủ 11 loại tác vụ web thực tế
  • Bao gồm tác vụ trên một website (mua sắm, hàng không, khách sạn...) và tác vụ nhiều bước (so sánh mua sắm, tác vụ kết hợp...)
  • Fara-7B ghi nhận hiệu năng cao nhất trong các mô hình sử dụng máy tính ở mọi hạng mục
    • Ví dụ: khách sạn 53.8%, hàng không 37.9%, mua sắm 52.4%, so sánh mua sắm 32.7%

Hạ tầng đánh giá

  • Sử dụng Playwright để tái hiện môi trường trình duyệt thực
  • Có thể tích hợp nhiều mô hình khác nhau qua Abstract Web Agent Interface
  • Hỗ trợ chạy và kiểm thử mô hình thông qua Fara-Agent Class
  • Là bản công khai thử nghiệm, khuyến nghị chạy trong môi trường sandbox và hạn chế dùng dữ liệu nhạy cảm

Cài đặt và chạy

  • Cài đặt bằng pip install -e . hoặc uv sync --all-extras
  • Cần cài đặt trình duyệt Playwright
  • Hỗ trợ cloud hosting qua Azure Foundry hoặc tự host GPU bằng VLLM
  • Ví dụ lệnh:
    fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";
    

Khả năng tái lập và môi trường đánh giá

  • Cung cấp framework webeval/ để tái lập đánh giá WebVoyagerOnlineMind2Web
  • Tích hợp BrowserBase để quản lý phiên trình duyệt ổn định
  • Bảo đảm tính nhất quán đánh giá với cập nhật tác vụ nhạy thời gian, xử lý lỗi môi trườnggiới hạn 100 bước
  • Loại bỏ 48 tác vụ bất khả thi trong bộ dữ liệu WebVoyager, cập nhật 50 mốc ngày trong tương lai

Chạy đánh giá và phân tích

  • Chạy script đánh giá trong thư mục webeval/scripts
  • Có thể chọn giữa tự host bằng VLLM hoặc endpoint Azure Foundry
  • Kết quả được lưu trong gpt_eval/, traj/, screenshot_X.png...
  • Có thể dùng Jupyter Notebook để phân tích điểm trung bình, nguyên nhân thất bại và các lộ trình bị gián đoạn

Kế hoạch tiếp theo

  • Dự kiến công bố pipeline kiểm chứng cho đánh giá LLM-as-a-judgedữ liệu chú thích thủ công chính thức của WebTailBench
  • Nâng cao chất lượng đánh giá thông qua hợp tác với BrowserBase

Thông tin trích dẫn

  • Khi sử dụng cho nghiên cứu, khuyến nghị trích dẫn bài báo Fara: Fast and Accurate Web Agent (2025) của Microsoft Research

1 bình luận

 
GN⁺ 2025-11-28
Ý kiến trên Hacker News
  • Điểm mấu chốt là Microsoft đã fine-tune Qwen2.5-VL-7B
    Tôi nghĩ đây mới là điểm khởi đầu thực sự của cuộc thảo luận lần này. Cũng tò mò không biết các công ty lớn khác đã từng fine-tune mô hình bên ngoài theo kiểu này chưa
  • Cảm giác như chỉ dán nhãn Microsoft lên Qwen2.5-VL
    Có vẻ giờ đây các công ty Trung Quốc đang dẫn đầu
    • Đúng vậy. Ví dụ Fara-7B trả lời khá tốt về trận Somme trong Thế chiến thứ nhất, nhưng với sự kiện Thiên An Môn thì lại né tránh bằng cách nói “đây là chủ đề chính trị nhạy cảm nên không thể trả lời”
  • Việc công bố benchmark tác vụ web mới WebTailBench mới là điểm đáng chú ý thực sự
  • Tôi thắc mắc vì sao Microsoft cứ liên tục chỉ tung ra các mô hình được huấn luyện bằng dữ liệu tổng hợp (synthetic data)
    Có lẽ do hợp đồng với OpenAI nên họ không thể tự làm LLM riêng chăng. Hiện tại chỉ Meta là vẫn tung ra mô hình mã nguồn mở lớn tại Mỹ, còn các công ty Trung Quốc thì tiếp tục phát hành các mô hình mở hoàn chỉnh
    • Tôi nghĩ chắc không có ràng buộc hợp đồng nào đâu. Chỉ là họ không muốn lãng phí tài nguyên để tạo thêm một mô hình nền tảng (foundation model) nữa
      Mô hình lần này dùng để điều khiển máy tính nên dữ liệu tổng hợp là phù hợp. Gần như không có bộ dữ liệu thực tế nào cả.
      Lý do các công ty Trung Quốc chọn mã nguồn mở phần lớn là để xây dựng niềm tinkhác biệt hóa marketing
    • Khả năng cao là đội pháp lý đã yêu cầu như vậy. Các tập đoàn lớn về bản chất có cấu trúc không thể đổi mới
    • Các mô hình như Gemma, Phi, OLMO, Mistral, GPT-OSS cũng đủ sức cạnh tranh và chạy tốt trên phần cứng phổ thông
    • Huấn luyện bằng dữ liệu tổng hợp hiệu quả hơn nhiều. Dữ liệu thực chỉ biết token tiếp theo, còn dữ liệu tổng hợp biết toàn bộ phân phối xác suất, nên hiệu quả học tăng lên gấp bội
      Bài báo liên quan: https://arxiv.org/pdf/2504.14772v1
    • Chỉ dùng dữ liệu tổng hợp còn an toàn hơn. Có thể tránh các vấn đề như nội dung người lớn hoặc roleplay
  • Có vẻ mô hình này chỉ bị giới hạn trong việc dùng trình duyệt. Ví dụ các chương trình thông thường như KiCAD thì không điều khiển được
    Tôi đã thử dùng Qwen3-VL-30B với Playwright, và nó khá ổn cho tự động hóa trình duyệt. Nhưng với tác vụ lặp lại thì cuối cùng vẫn phải đóng gói bằng code
    Điều thú vị là mô hình này nhỏ hơn, nhưng lại được tạo ra cho mục đích chuyên biệt
    • Nếu muốn chuyển các hành động CUA kiểu này thành script mang tính quyết định, có thể tham khảo hướng dẫn cache của Stagehand
    • Có thể làm được nếu giả lập bằng WASM trong trình duyệt. Đây là do ràng buộc sandbox bảo mật hơn là giới hạn của mô hình
    • Có người đang xin chia sẻ nếu có công cụ hay đoạn code liên quan
    • Thử thực tế thì thấy nó chỉ hoạt động trong môi trường Playwright
  • Nhìn vào bảng thì tôi không hiểu phần lớn các trường hợp sử dụng. Chỉ việc so sánh mua sắm là còn dễ hiểu
    Không rõ liệu mọi người thật sự đang thuê ngoài việc mua sắm cho AI hay không
    • Không nhất thiết chỉ dành cho người tiêu dùng. Ví dụ nó hữu ích khi cần tự động hóa những thứ như website công ty bảo hiểm không có API
    • Việc gom sản phẩm theo danh mục rồi tóm tắt lại là một tính năng khá hữu ích
    • Tôi không thoải mái với việc để AI tự thanh toán hay đặt chỗ. Nhưng tôi muốn giao cho nó phần nghiên cứu và khám phá thôi
    • Tôi thật sự đang giao việc mua rượu vang cho AI
  • Kiểu tự động hóa này thực ra đã làm được từ nhiều năm trước rồi. Cũng không cần GPU, và nếu giao diện thay đổi thì chỉ việc sửa script
    Có vẻ Microsoft chỉ đang ném thử đủ loại thí nghiệm AI
    • Điểm cốt lõi là bạn có thể tự động hóa trên hơn 1 tỷ website mà không cần tự viết script
      Mô hình nhận ảnh chụp màn hình trang và mục tiêu đầu vào, rồi tạo ra lệnh tự động hóa để đi tới mục tiêu đó
  • Tôi tò mò liệu loại mô hình này có thể dùng cho điều khiển đầu vào trong video game không. Sẽ rất vui nếu AI chơi Kerbal Space Program
    • Những thử nghiệm kiểu này đã có từ trước. Dùng kRPC thì mô hình có thể giao tiếp với game khá dễ
      Khi thử với Opus3, cảnh nó phun ra những câu như “bắt đầu quy trình thoát hiểm khẩn cấp” rồi làm nổ tung con tàu vũ trụ khá buồn cười
    • Cũng đáng tham khảo SIMA-2 của DeepMind (không phải mô hình chạy cục bộ)
    • AgentEvolver của Alibaba không chuyên cho game, nhưng là một hệ thống tác tử dựa trên vòng lặp OODA khá thú vị
      Bài báo liên quan: https://arxiv.org/abs/2511.10395
      Cũng đáng xem bài viết phản hồi của Sung Kim
    • Tôi tò mò nếu cho nó chơi poker online thì sẽ ra sao
  • Có vẻ Microsoft đã fine-tune Qwen-7B
    • Chính xác là Qwen2.5-VL-7B. Khác biệt này khá quan trọng
    • Cảm giác như thế cờ đang thay đổi
  • Thật buồn cười khi việc tự động hóa click trên web lại cần tới mô hình 7 tỷ tham số
    Tôi không biết là vì chúng ta không viết nổi script, hay vì stack phần mềm đã trở nên quá phức tạp
    • Gần đây tôi xem một video tên là ‘My New Agent Coding Workflow’, trong đó chỉ cần tải một file thôi mà người ta cũng đi prompt cho IDE làm
      Cảm giác như cố tình tăng lượng token sử dụng vậy
    • Đây không phải vấn đề kỹ thuật mà là vấn đề hợp tác xã hội.
      Vì các công ty không cung cấp API cho khả năng tương tác, nên cuối cùng để LLM xử lý UI bằng cách brute-force như con người lại dễ hơn
    • Một nửa ngành phần mềm và tài chính hiện nay được dựng lên trên những rào cản gia nhập nhân tạo do độ phức tạp quá mức gây ra