Tác nhân AI vượt GPT-4o chỉ với 7B tham số: Microsoft Fara-7B
(aisparkup.com)Fara-7B do Microsoft Research phát triển là một tác nhân AI cỡ nhỏ với quy mô 7 tỷ tham số, có thể trực tiếp thực hiện các tác vụ trên máy tính như duyệt web, điền biểu mẫu và đặt chỗ. Trên benchmark WebVoyager, mô hình đạt tỷ lệ thành công 73,5%, vượt GPT-4o (65,1%) và UI-TARS (66,4%). Mô hình này chạy trên PC của người dùng mà không cần đám mây, giúp bảo vệ quyền riêng tư dữ liệu, đồng thời áp dụng phương thức 'chủ quyền pixel' xử lý nhấp chuột, nhập bàn phím, cuộn trang... chỉ bằng ảnh chụp màn hình nên rất hiệu quả (hoàn thành tác vụ trung bình trong 16 bước).
Nguyên lý hoạt động nằm ở việc được huấn luyện bằng dữ liệu tạo và nén từ 145 nghìn lộ trình tác vụ tổng hợp thông qua hệ thống Magentic-One, đồng thời chạy nhanh trên NPU của Copilot+ PC. Về tính năng an toàn, mô hình yêu cầu người dùng phê duyệt tại các 'Critical Point', và có thể theo dõi hoặc can thiệp vào hành vi thông qua Magentic-UI. Mô hình được phát hành trên Hugging Face và Microsoft Foundry theo giấy phép MIT.
Ở các benchmark khác (Online-Mind2Web 34,1%, DeepShop 26,2%...) mô hình cũng cho thấy hiệu năng tốt, nhưng các hạn chế như độ chính xác giảm hoặc hiện tượng ảo giác trong tác vụ phức tạp vẫn được chỉ ra. Microsoft đánh giá đây ở mức 'proof of concept' và dự kiến sẽ mở rộng hệ sinh thái nhà phát triển thông qua việc mã nguồn mở.
Kết luận: Fara-7B cho thấy tiềm năng của các mô hình nhỏ và là một ví dụ quan trọng mở ra kỷ nguyên trợ lý AI cá nhân với mức phụ thuộc vào đám mây thấp hơn. Trong tương lai, mô hình được kỳ vọng sẽ phát triển an toàn và thông minh hơn nhờ học tăng cường.
1 bình luận
Mô hình nhỏ phụ thuộc vào prompt quá nhiều nên khó dùng một cách dễ dàng... liệu chỉ có cách là thử nghiệm lặp đi lặp lại thôi sao?