Ra mắt thế hệ tiếp theo của dòng Falcon 2
- Technology Innovation Institute (TII) đã ra mắt dòng mô hình ngôn ngữ lớn (LLM) thế hệ tiếp theo Falcon 2
- Falcon 2 11B: mô hình 11 tỷ tham số được huấn luyện trên 5,5 nghìn tỷ token, với hiệu quả và khả năng tiếp cận được cải thiện
- Falcon 2 11B VLM: mô hình đa phương thức đầu tiên có khả năng vision-to-language, chuyển đổi đầu vào hình ảnh thành đầu ra văn bản
- Cả hai mô hình đều hỗ trợ đa ngôn ngữ, đặc biệt Falcon 2 11B VLM hiện là mô hình duy nhất trong nhóm các mô hình hàng đầu cung cấp khả năng chuyển đổi hình ảnh-văn bản
Hiệu năng của Falcon 2 11B
- Theo đánh giá của Hugging Face, Falcon 2 11B cho hiệu năng vượt trội hơn Llama 3 8B của Meta và tương đương Gemma 7B của Google (Falcon 2 11B: 64.28 vs Gemma 7B: 64.29)
- Falcon 2 11B và 11B VLM đều sẽ được phát hành mã nguồn mở và mở cho các nhà phát triển sử dụng không hạn chế
- Trong tương lai, dòng Falcon 2 sẽ được mở rộng với các mô hình có nhiều quy mô khác nhau, đồng thời có kế hoạch áp dụng công nghệ Mixture of Experts (MoE) để tiếp tục nâng cao hiệu năng
Đặc điểm của Falcon 2 11B VLM
- Có thể xử lý đa ngôn ngữ như tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha, tiếng Đức và tiếng Bồ Đào Nha
- Được trang bị khả năng vision-to-language để nhận diện và diễn giải hình ảnh cũng như thông tin thị giác từ môi trường
- Có thể được ứng dụng trong nhiều lĩnh vực công nghiệp như y tế, tài chính, thương mại điện tử, giáo dục và pháp lý
- Phạm vi ứng dụng rộng, từ quản lý tài liệu, lưu trữ số, lập chỉ mục theo ngữ cảnh cho đến hỗ trợ người khiếm thị
- Có thể chạy hiệu quả trên một GPU duy nhất nên có khả năng mở rộng tốt và dễ tích hợp vào hạ tầng gọn nhẹ như laptop
Ý kiến của GN⁺
-
Dòng Falcon 2 là thế hệ tiếp theo giúp nâng cao hơn nữa hiệu năng và hiệu quả của các mô hình Falcon hiện có; đặc biệt, Falcon 2 11B VLM có ý nghĩa lớn khi là mô hình multimodal đa ngôn ngữ quy mô lớn đầu tiên được trang bị khả năng vision-to-language. Điều này được kỳ vọng sẽ cho phép xử lý tích hợp dữ liệu thị giác và dữ liệu ngôn ngữ, từ đó tạo ra các tương tác tự nhiên hơn, gần với con người hơn.
-
Tuy vậy, AI multimodal vẫn đang ở giai đoạn đầu và vẫn còn dư địa để cải thiện về độ ổn định cũng như độ vững chắc. Vì thế, để triển khai thực tế, có vẻ sẽ cần một quá trình rà soát và bổ sung kỹ lưỡng đối với các vấn đề như độ lệch dữ liệu, quyền riêng tư và bảo mật, cũng như các điểm yếu trước đầu vào sai lệch.
-
Việc dòng Falcon 2 được công bố dưới dạng mã nguồn mở cũng là một điểm đáng chú ý. Điều này được kỳ vọng sẽ thúc đẩy sự tham gia sôi động của cộng đồng phát triển và có thể tăng tốc quá trình cải tiến cũng như mở rộng mô hình. Tuy nhiên, với mô hình mã nguồn mở cũng tồn tại lo ngại về khả năng bị sử dụng với mục đích xấu, vì vậy việc đưa vào chính sách cấp phép các nội dung như acceptable use policy để định hướng sử dụng AI có trách nhiệm có vẻ là điều phù hợp.
-
Kế hoạch áp dụng công nghệ Mixture of Experts (MoE) cũng là một điểm rất đáng quan tâm. MoE là phương thức kết hợp nhiều mạng nhỏ chuyên biệt để tạo ra kết quả tinh vi và được tùy biến hơn thông qua sự phối hợp giữa các miền chuyên môn, và được dự đoán sẽ đóng góp lớn vào việc cải thiện hiệu năng của dòng Falcon 2 trong tương lai. Hướng nghiên cứu này có thể được đánh giá là một phần trong nỗ lực hiện thực hóa các hệ thống AI hiệu quả và thông minh hơn, vượt ra ngoài cách tiếp cận chỉ đơn thuần tăng quy mô mô hình.
1 bình luận
Ý kiến trên Hacker News
Có ý kiến chỉ ra rằng kết quả benchmark của mẫu Falcon 2 11B ở mức tương tự Mistral 7B và Llama 3 8B. Nếu tính đến việc kích thước mô hình đã tăng lên thì điều này không có vẻ quá ấn tượng.
Có vấn đề với giấy phép. Họ đã sửa giấy phép Apache 2 để thêm các điều khoản bổ sung, trong đó có yêu cầu phải tuân thủ chính sách sử dụng chấp nhận được. Vấn đề là không ai biết chính sách đó sau này sẽ thay đổi thế nào. Bất kể nội dung hiện tại ra sao, về sau nó có thể bị đổi thành bất cứ điều gì và người dùng vẫn phải tuân theo. Xu hướng gọi kiểu giấy phép này là "mã nguồn mở" bị chỉ ra là không phù hợp với định nghĩa của OSI.
Trước tuyên bố rằng "Falcon 2 11B vượt trội hơn Llama 3 8B của Meta và cho hiệu năng ngang với Gemma 7B của Google", có ý kiến phản bác rằng họ có ấn tượng rất rõ ràng rằng Llama 3 8B vượt Gemma 7B ở gần như mọi mặt.
Về cách diễn đạt "mô hình AI duy nhất có khả năng Vision-to-Language", có người đặt câu hỏi liệu điều đó có khác gì nhiều so với những gì GPT-4 Vision hay LLaVA đang làm hay không.
Một lần nữa có ý kiến chỉ ra rằng mô hình Falcon không thực sự cởi mở đến vậy. Ban đầu Falcon cũng không thể hiện hiệu năng tốt như các kết quả benchmark cho thấy. Dù được công bố như một bước nhảy vọt lớn, nhưng người bình luận nói rằng họ không cảm thấy nó vượt qua các mô hình cạnh tranh.
Cảm giác phần PR nói rằng mô hình 11B có hiệu năng tốt hơn các mô hình 7B, 8B "cùng hạng" là hơi cường điệu. Dù vẫn sẽ thử nó cho suy luận cục bộ, nhưng trực giác hiện tại là Llama 3 8B đã fine-tune vẫn là lựa chọn tốt nhất vào lúc này.
Nếu chủ yếu được huấn luyện bằng các bộ dữ liệu công khai và sử dụng phần cứng AWS cùng các thuật toán, kỹ thuật đã quen thuộc, thì có gì khác biệt so với những mô hình khác mà ai có tiền cũng có thể huấn luyện được? Cũng có góc nhìn hoài nghi/chỉ trích cho rằng đây chỉ là nỗ lực để thể hiện tính liên quan và "flex" mà thôi.
Có ý kiến nói Falcon 2 11B tốt hơn Llama 3 8B, nhưng vì số lượng tham số nhiều hơn nên đây không phải so sánh công bằng. Mô hình mã nguồn mở tốt nhất có vẻ là Llama 3 70B, nên người ta đặt câu hỏi vì sao lại tuyên bố vượt Llama 3 trong khi còn chưa vượt được mẫu tốt nhất của dòng này.