TII ra mắt dòng mô hình AI Falcon 2, vượt Llama 3 8B

(tii.ae)

2 điểm bởi GN⁺ 2024-05-14 | 1 bình luận | Chia sẻ qua WhatsApp

TII tại Abu Dhabi công bố dòng Falcon 2, đưa các mô hình đa ngôn ngữ và đa phương thức lên tuyến đầu trong cuộc cạnh tranh LLM mã nguồn mở
Falcon 2 11B là mô hình 11 tỷ tham số được huấn luyện trên 5,5 nghìn tỷ token, vượt Meta Llama 3 8B trên bảng xếp hạng Hugging Face
Falcon 2 11B VLM là mô hình đa phương thức đầu tiên của TII, chuyển đổi đầu vào thị giác thành văn bản, có thể ứng dụng diễn giải hình ảnh trong nhiều ngành
Cả hai mô hình được cung cấp dưới dạng mã nguồn mở, tuân theo TII Falcon License 2.0, và được thiết kế để nhà phát triển dễ triển khai, tích hợp cả trên hạ tầng nhẹ hơn
TII sẽ mở rộng Falcon 2 với nhiều kích cỡ và xem xét Mixture of Experts để nâng cao hiệu năng và chất lượng phản hồi

Công bố Falcon 2 và cấu hình mô hình

Technology Innovation Institute là tổ chức nghiên cứu ứng dụng trực thuộc Advanced Technology Research Council tại Abu Dhabi, đã ra mắt mô hình ngôn ngữ lớn Falcon 2 vào ngày 13/5/2024
Dòng này gồm hai mô hình
- Falcon 2 11B: LLM 11 tỷ tham số được huấn luyện trên 5,5 nghìn tỷ token
- Falcon 2 11B VLM: mô hình thị giác-sang-ngôn ngữ chuyển đổi đầu vào thị giác thành đầu ra văn bản
Cả hai mô hình đều hỗ trợ đa ngôn ngữ, và Falcon 2 11B VLM là mô hình đa phương thức đầu tiên của TII
TII giới thiệu Falcon 2 11B VLM là mô hình duy nhất trong nhóm dẫn đầu thị trường hiện nay có khả năng chuyển đổi hình ảnh thành văn bản

So sánh hiệu năng và phạm vi ứng dụng

Falcon 2 11B được so sánh với nhóm mô hình tiền huấn luyện trên bảng xếp hạng đánh giá Open LLM của Hugging Face
- Ghi nhận hiệu năng cao hơn Meta Llama 3 8B
- Đứng trong nhóm dẫn đầu với điểm số gần như tương đương Google Gemma 7B
- Điểm số ở mức Falcon 2 11B 64,28 và Gemma 7B 64,29
Mô hình Falcon 2 11B xử lý các tác vụ bằng tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha, tiếng Đức, tiếng Bồ Đào Nha và nhiều ngôn ngữ khác
Falcon 2 11B VLM có thể nhận diện và diễn giải hình ảnh cùng dữ liệu thị giác từ môi trường xung quanh
- Các lĩnh vực ứng dụng được nêu gồm y tế, tài chính, thương mại điện tử, giáo dục và pháp lý
- Cũng bao gồm các trường hợp sử dụng như quản lý tài liệu, lưu trữ số, lập chỉ mục theo ngữ cảnh và hỗ trợ người khiếm thị

Cách công bố và kế hoạch tiếp theo

Falcon 2 11B và Falcon 2 11B VLM đều được cung cấp dưới dạng mã nguồn mở để nhà phát triển có thể truy cập
Hai mô hình được giới thiệu là có thể chạy hiệu quả ngay cả trên một GPU, giúp dễ triển khai và tích hợp trên hạ tầng nhẹ hơn như laptop và các thiết bị khác
Falcon 2 11B được cung cấp theo TII Falcon License 2.0, một giấy phép phần mềm cho phép dựa trên Apache 2.0
- Bao gồm chính sách sử dụng được phép nhằm khuyến khích sử dụng AI có trách nhiệm
TII sẽ đa dạng hóa kích thước các mô hình thế hệ tiếp theo của Falcon 2 trong tương lai và xem xét đưa vào Mixture of Experts
- Mixture of Experts là cách kết hợp các mạng nhỏ có chuyên môn khác nhau để tạo ra phản hồi tinh vi và được tùy chỉnh hơn
- TII cho rằng cách tiếp cận này có thể tăng độ chính xác và đẩy nhanh quá trình ra quyết định
Có thể xem thông tin về mô hình mới tại FalconLLM.TII.ae

1 bình luận

GN⁺ 2024-05-14

Ý kiến trên Hacker News

Kết quả benchmark trông có vẻ gần tương đương Mistral 7B và Llama 3 8B, nên xét việc kích thước mô hình lớn hơn thì không có gì quá ấn tượng
https://huggingface.co/tiiuae/falcon-11B
https://huggingface.co/meta-llama/Meta-Llama-3-8B
https://mistral.ai/news/announcing-mistral-7b/
- Đúng vậy. Falcon-180b lúc đầu cũng bị thổi phồng khá nhiều, nhưng cộng đồng sớm nhận ra nó gần như vô dụng, và trong các trường hợp thông thường thì các mô hình ngôn ngữ lớn nhỏ hơn dễ dàng đánh bại nó
  Lần này họ tuyên bố falcon-11b tốt hơn Llama 3 8b, nhưng đã thấy nhiều vấn đề. falcon-11b lớn hơn Llama 3 8b khoảng 40%, nên khó so sánh như cùng một hạng kích thước; còn tuyên bố thì dựa vào benchmark tự động, trong khi từ lâu đã rõ là chỉ benchmark tự động thì không đủ để đưa ra kết luận như vậy
  Một số điểm benchmark tự động thấp hơn Llama 3 8b rất nhiều, và chỉ nhỉnh hơn sít sao ở đúng một benchmark. Có thể làm cho nó trông như tốt nhất từ trước đến nay trên một benchmark, nhưng điều đó hoàn toàn không có nghĩa đây là một mô hình tốt
  Dù không hề có đánh giá của con người, họ vẫn cố tình dùng tiêu đề câu view với tuyên bố vội vàng, nói là tốt hơn Llama 3 nhưng lại hoàn toàn phớt lờ Llama 3 70b
  Thành thật mà nói, thật khó chịu khi tiiuae không đưa ra được thứ hữu ích mà vẫn liên tục dùng kiểu câu view gây hiểu lầm như vậy và nhận quá nhiều chú ý
- Có vẻ các mô hình của họ nói chung đều như vậy. Kích thước thì thật sự lớn, nhưng so với công sức bỏ ra thì thực tế không có cải thiện hiệu năng
  Cũng có thể do tập dữ liệu web đã được lọc của họ bị kiểm duyệt quá nặng. Về mặt đạo đức thì rất bảo thủ, loại bỏ hoàn toàn nội dung khiêu dâm và nhiều chủ đề khác
  Vì vậy sẽ không ngạc nhiên nếu việc lọc bỏ quá nhiều nội dung rồi chỉ đưa thêm những thứ na ná nhau vào là một phần nguyên nhân của vấn đề
- Có thể các chỉ số để so sánh chưa phù hợp
  Đúng là mô hình lớn hơn, nhưng việc huấn luyện cần ít token hơn Llama 3. Vấn đề là nếu không có dataset công khai thì khó so sánh và tái lập cho đúng
  Khó biết nguyên nhân là do kiến trúc mô hình, chất lượng dataset, kích thước mô hình, sự kết hợp của các yếu tố đó, hay lý do nào khác
Giấy phép không tốt: https://falconllm-staging.tii.ae/falcon-2-terms-and-conditio...
Đây là giấy phép Apache 2 đã được sửa đổi kèm điều khoản bổ sung, trong đó có yêu cầu phải tuân theo chính sách sử dụng được chấp nhận: https://falconllm-staging.tii.ae/falcon-2-acceptable-use-pol...
Nhưng trong giấy phép Apache 2 sửa đổi đó có nội dung rằng “chính sách sử dụng được chấp nhận có thể được cập nhật theo thời gian, và bạn phải theo dõi địa chỉ web nơi chính sách được lưu trữ để bảo đảm việc sử dụng Tác phẩm hoặc Tác phẩm phái sinh tuân thủ chính sách đã cập nhật”
Dù hiện tại nhìn nhận chính sách sử dụng được chấp nhận thế nào, họ vẫn giữ quyền thay đổi nó theo ý muốn trong tương lai và người dùng phải tuân theo chính sách mới
Đây là ví dụ rất rõ vì sao tôi không thích xu hướng gọi những giấy phép như vậy là mã nguồn mở dù chúng không tương thích với định nghĩa của OSI
- Về cơ bản, tuyệt đối không thể dùng cho các mục đích không tầm thường. Vì họ có thể cấm use case của bạn bất cứ lúc nào mà không cần thông báo
- Tôi thật sự tò mò liệu điều khoản “giữ quyền thay đổi nó theo ý muốn trong tương lai và người dùng phải tuân theo chính sách mới” có đứng vững trước tòa hay không. Muốn biết có án lệ hay tiền lệ liên quan nào không
- Đây không phải lần đầu có kiểu trò lắt léo giấy phép như vậy. Thời Falcon 1 cũng đã có. Tôi đánh giá cao nỗ lực, nhưng có vẻ họ vẫn đang tiếp tục tìm xem có thể kiếm tiền hay không và bằng cách nào
- Mô hình 40b có vẻ là Apache thuần túy
Có câu “Falcon 2 11B mới vượt qua Llama 3 8B của Meta, và đạt hiệu năng ngang với mô hình Google Gemma 7B hàng đầu”, nhưng tôi nhớ khá chắc rằng Llama 3 8B vượt Gemma 7B ở gần như mọi chỉ số
- Cần lưu ý đây là so sánh mô hình nền tảng, không phải mô hình tinh chỉnh cho chat. Vì hiện tại Falcon-11B chưa có mô hình tinh chỉnh cho chat. Bản tinh chỉnh chat của Meta có vẻ tốt hơn bản tinh chỉnh chat của Gemma
  Dù vậy, theo trải nghiệm của tôi thì mô hình chat Gemma 1.1 khá ổn, và tôi vẫn nghĩ mô hình chat Llama3 8B rõ ràng tốt hơn
  CodeGemma 1.1 7B đặc biệt bị đánh giá thấp khi so với các mô hình coding liên quan. Mô hình nền tảng CodeGemma 7B là một trong những mô hình tốt nhất mà tôi từng thử cho hoàn thiện mã, và mô hình chat của nó cũng là một trong những mô hình tốt nhất mà tôi từng thử cho viết mã
  Các mô hình khác có vẻ tối ưu benchmark tốt hơn, nhưng khi dùng thực tế thì không trụ được bằng CodeGemma. Tôi rất mong xem CodeLlama3 sẽ ra sao, nhưng hiện nó chưa tồn tại
- Dù chỉ là trải nghiệm cá nhân, theo tôi Gemma hoàn toàn vô dụng còn Llama 3 8b thì tốt một cách khác thường so với kích thước. Ý nghĩ Gemma vượt Llama 3 nghe rất lạ. Nếu Gemma dẫn trước trong một số benchmark thì có lẽ có chuyện kiểu nhiễm dữ liệu
- Tôi cũng thấy điểm đó kỳ lạ
  Dạo này tôi không theo dõi benchmark nhiều nữa, mà hoàn toàn tập trung vào bóng rổ
  Nhân tiện, thật ra tôi chơi giỏi hơn Lebron một chút. Lebron còn kém xa con gái ba tuổi của tôi, còn tôi thì thỉnh thoảng thắng con bé. Trong bóng rổ
Thở dài, tôi cứ tưởng đây là bài viết về Falcon AT của Spectrum Holobyte. Theo MyAbandonware.com:
“Về bản chất là Falcon 2 nhưng bằng cách nào đó lại được tiếp thị khác đi, Falcon AT là bản phát hành thứ hai trong loạt mô phỏng bay hardcore Falcon mang tính đột phá của Spectrum Holobyte. Trái với quan niệm phổ biến rằng Falcon 3.0 là khởi đầu của mô phỏng bay hiện đại, Falcon AT đã là một bước tiến lớn so với Falcon, với đồ họa EGA sắc nét, nhiều tùy chọn thực tế và phần chiến dịch được mở rộng đáng kể. Đây là một game mô phỏng không chiến hiện đại với các bài hướng dẫn xuất sắc, nhiều nhiệm vụ đa dạng và cơ chế bay chính xác mà người hâm mộ Falcon đã biết đến và yêu thích. Trong số nhiều đổi mới còn có các tùy chọn multiplayer qua hotseat và modem chơi được tốt đến đáng kinh ngạc. Dù hiện nay phần lớn đã bị lãng quên, Falcon AT giải thích khoảng cách khó lý giải giữa Falcon và Falcon 3.0.”
- Có vẻ đang có xu hướng lấy tên sản phẩm mới từ game máy tính cổ điển. Có thể không phải cố ý. Vừa nãy ở đây cũng có bài về một hệ thống tên Loom, nhưng không phải game phiêu lưu cổ điển. Chắc sẽ có ai đó tung ra một mô hình ngôn ngữ lớn hoặc phần mềm mạng rồi đặt tên là Zork
- Hiện trên trang chính cũng có bài “F-16 Strike Eagle II reverse engineering” <https://news.ycombinator.com/item?id=40347662>, nên cũng góp phần tạo liên tưởng khiến người ta nghĩ theo hướng tương tự
Tôi không hiểu cụm “mô hình AI duy nhất có khả năng thị giác-ngôn ngữ” nghĩa là gì. Chẳng phải đại khái đây là việc GPT-4 Vision và LLaVA đang làm sao?
- Ban đầu tôi tưởng họ đang chơi chữ theo kiểu bẻ nghĩa
  Có thể ý là LLaVA là mô hình ngôn ngữ-thị giác, nhưng diễn giải như vậy cũng không làm câu đó có lý được
  Có khi đơn giản là họ nói dối
- Các mô hình Claude cũng đều thuộc diện này
Tôi hoan nghênh các mô hình mở, nhưng như đã được chỉ ra ở đây, các mô hình Falcon không thực sự mở cho lắm. Falcon ban đầu cũng không hoạt động tốt như các con số benchmark gợi ý. Họ quảng bá nó như một bước tiến lớn, nhưng vào thời điểm ra mắt tôi không thấy nó vượt các mô hình mở cạnh tranh.
Câu quảng bá rằng mô hình 11B vượt các mô hình 7B và 8B “cùng hạng” nghe hơi gượng ép. Tôi sẽ theo dõi, nhưng chắc chắn vẫn định thử nó cho suy luận cục bộ. Tuy vậy, trực giác của tôi là tính đến tuần này, llama 3 8B đã tinh chỉnh có khả năng vẫn là tốt nhất trong cùng phân khúc
- Tôi cũng từng thấy Falcon ban đầu không đạt hiệu năng như các con số benchmark. Có vẻ nó bị huấn luyện thiếu nếu xét theo lượng token trên mỗi tham số. Họ dường như chỉ muốn có một mô hình 40 tỷ tham số, và cách làm gần với thời kỳ trước tối ưu Chinchilla hơn
Những lời nhắc kiểu này, rằng AI sẽ không chỉ được dùng ở các quốc gia dân chủ ít nhất còn có một số nỗ lực giám sát đạo đức, mà còn bởi cả những nhà độc tài tồi tệ nhất, thật sự rùng mình
- MBZ không phải MBS, và Ả Rập Xê Út với UAE là hai nước khác nhau. MBZ là một trong những nhà lãnh đạo được yêu mến nhất thế giới, và người dân của ông thuộc nhóm giàu có nhất
  Đất nước của ông là một trong số ít quốc gia phát triển mà kinh tế vẫn tăng trưởng đều đặn, và có một trong những chính sách nhập cư tự do nhất thế giới, nhưng vẫn là một trong những nước an toàn nhất ngoài Đông Á
  Thay vì là nhà độc tài tệ nhất, ông ấy gần với một ứng viên cho danh hiệu nhà độc tài tốt nhất hơn nhiều
Có điều tôi muốn hiểu. Mô hình này chẳng phải được huấn luyện chủ yếu trên các tập dữ liệu công khai, dùng phần cứng AWS, và sử dụng các thuật toán cùng kỹ thuật đã biết rõ sao? Nó khác gì so với các mô hình khác mà bất kỳ ai có tiền cũng có thể huấn luyện?
Từ góc nhìn hoài nghi, gần như phản đối của tôi, đây chỉ là một màn phô trương và nỗ lực tỏ ra có liên quan. Có điều gì khác trong những nỗ lực kiểu này mà tôi đang bỏ sót không?
- Rất nhiều mô hình thuộc nhóm này. Chủ quyền có giá trị ở một mức độ nào đó, dù là với quốc gia hay doanh nghiệp. Mối đe dọa cạnh tranh cũng là điều tốt cho tất cả
  Dù kết quả cuối cùng phần lớn không có gì đặc biệt thú vị, tôi vẫn vui khi có những người làm các việc như thế này
Trong chốc lát tôi tưởng chuyện này liên quan đến trò mô phỏng bay cổ điển:
https://en.wikipedia.org/wiki/Falcon_4.0
- SpaceX cũng có các tên lửa Falcon 1 và Falcon 9, và còn có Falcon 5 từng được đề xuất nhưng chưa được phát triển
Bài viết thiên vị đến mức lố bịch, kiểu muốn nói UAE làm ơn kín đáo hơn chút đi. “đánh bại llama 3” là một tóm tắt đáng ngờ và chẳng hữu ích, còn phần “mô hình AI duy nhất có khả năng thị giác-ngôn ngữ” thì đơn giản là gây ngỡ ngàng

TII ra mắt dòng mô hình AI Falcon 2, vượt Llama 3 8B

Công bố Falcon 2 và cấu hình mô hình

So sánh hiệu năng và phạm vi ứng dụng

Cách công bố và kế hoạch tiếp theo

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News