Yi - LLM song ngữ mã nguồn mở thế hệ mới

xguru · 2024-03-12T10:03:02+09:00

Mô hình ngôn ngữ lớn mã nguồn mở thế hệ mới được huấn luyện từ đầu bởi các nhà phát triển Được định hướng là mô hình song ngữ và được huấn luyện trên kho ngữ liệu đa ngôn ngữ 3T, cho thấy hiệu năng mạnh mẽ trong hiểu ngôn ngữ, suy luận thường thức, khả năng đọc hiểu, v.v. Dựa trên các mô hình ngôn ngữ tiền huấn luyện 6B và 34B, sau đó mở rộng thành mô hình chatbot, mô hình ngữ cảnh dài 200K, mô hình mở rộng độ sâu và mô hình thị giác-ngôn ngữ Mô hình Yi-34B-Chat Đứng thứ 2 trên bảng xếp hạng AlpacaEval sau GPT-4 Turbo, vượt qua các LLM khác Vượt qua các mô hình mã nguồn mở hiện có ở cả tiếng Anh lẫn tiếng Trung, đồng thời đứng đầu nhiều benchmark Dù áp dụng cùng kiến trúc mô hình với Llama, đây không phải là mô hình phái sinh từ Llama. Không sử dụng trọng số của Llama Được cung cấp với nhiều kích cỡ khác nhau và có thể tinh chỉnh mô hình để phù hợp với các yêu cầu cụ thể Mô hình chat Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits Mô hình base Yi-34B, Yi-34B-200K Yi-9B Yi-6B, Yi-6B-200K

(github.com/01-ai)

9 điểm bởi xguru 2024-03-12 | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình ngôn ngữ lớn mã nguồn mở thế hệ mới được huấn luyện từ đầu bởi các nhà phát triển
Được định hướng là mô hình song ngữ và được huấn luyện trên kho ngữ liệu đa ngôn ngữ 3T, cho thấy hiệu năng mạnh mẽ trong hiểu ngôn ngữ, suy luận thường thức, khả năng đọc hiểu, v.v.
Dựa trên các mô hình ngôn ngữ tiền huấn luyện 6B và 34B, sau đó mở rộng thành mô hình chatbot, mô hình ngữ cảnh dài 200K, mô hình mở rộng độ sâu và mô hình thị giác-ngôn ngữ
Mô hình Yi-34B-Chat
- Đứng thứ 2 trên bảng xếp hạng AlpacaEval sau GPT-4 Turbo, vượt qua các LLM khác
- Vượt qua các mô hình mã nguồn mở hiện có ở cả tiếng Anh lẫn tiếng Trung, đồng thời đứng đầu nhiều benchmark
Dù áp dụng cùng kiến trúc mô hình với Llama, đây không phải là mô hình phái sinh từ Llama. Không sử dụng trọng số của Llama
Được cung cấp với nhiều kích cỡ khác nhau và có thể tinh chỉnh mô hình để phù hợp với các yêu cầu cụ thể
- Mô hình chat
  - Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits
  - Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits
- Mô hình base
  - Yi-34B, Yi-34B-200K
  - Yi-9B
  - Yi-6B, Yi-6B-200K

1 bình luận

xguru 2024-03-12

Ý kiến trên Hacker News

Mô hình Yi-34B-Chat đứng thứ 2 trên bảng xếp hạng AlpacaEval, chỉ sau GPT-4 Turbo, vượt qua các LLM khác như GPT-4, Mixtral và Claude.
Mô hình Yi-34B đứng đầu trong các mô hình mã nguồn mở ở các benchmark tiếng Anh và tiếng Trung. Điều này dựa trên Hugging Face Open LLM Leaderboard (mô hình tiền huấn luyện) và C-Eval.
Mã nguồn trong kho lưu trữ tuân theo giấy phép Apache 2.0, nhưng trọng số thì không.
Mô hình Yi thất bại với một số prompt kiểm thử cụ thể. Dù đã thử nhiều lần, Yi mỗi lần đều chọn một câu trả lời khác nhau làm bên thắng.
Cái tên "01.ai" gợi ý là không mấy cát tường, vì trùng với tên quốc gia AI đầu tiên trong phim 'The Matrix' đã gây chiến với loài người và biến con người thành nô lệ.
Hiệu năng của mô hình Yi được cho là đến từ chất lượng dữ liệu nhờ nỗ lực về kỹ thuật dữ liệu.
Mô hình Yi 34B Chat không đạt kết quả tốt trên benchmark NYT Connections và đứng thứ 22 trên bảng xếp hạng dựa trên Elo của LMSYS. Ở tiếng Trung, mô hình cho thấy hiệu năng tốt hơn.
Khi thấy hiệu năng của các mô hình này tiếp tục cải thiện, người ta có thể hy vọng rằng trong 2-3 năm tới, các LLM ưu tiên di động sẽ cải thiện chuyển văn bản thành giọng nói và dự đoán gõ phím, đồng thời giảm đáng kể mức tiêu thụ pin.
Cũng có một mô hình mới tên là Yi-9B.

Yi - LLM song ngữ mã nguồn mở thế hệ mới

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News