35 điểm bởi xguru 2023-04-14 | 1 bình luận | Chia sẻ qua WhatsApp
  • LLM Instruction-Tuned thực sự mở đầu tiên trên thế giới
  • Công khai toàn bộ mã huấn luyện, bộ dữ liệu và trọng số mô hình. Tức là bất kỳ cá nhân/công ty nào cũng có thể tạo và sở hữu LLM mạnh mẽ của riêng mình
  • Fine-tune bằng bộ dữ liệu databricks-dolly-15k gồm các chỉ thị do con người tạo ra
    • 15.000 cặp prompt/câu trả lời. Bất kỳ ai cũng có thể chỉnh sửa/mở rộng và có thể dùng cho mục đích thương mại
      • (Alpaca, Koala, GPT4All, Vicuna, v.v. đều không thể dùng cho mục đích thương mại)
    • Dữ liệu này do 5.000 nhân viên của Databricks trực tiếp viết
  • Dựa trên mô hình ngôn ngữ 12B tham số pythia của EleutherAI

1 bình luận

 
kuroneko 2023-04-14

Việc họ mở một cuộc trò chuyện để tạo bộ câu hỏi huấn luyện LLM cho nhân viên nội bộ, nhưng vì số người tham gia đông hơn dự kiến quá nhiều nên đã phải đóng sớm do lo ảnh hưởng đến công việc, thực sự rất thú vị.

Dù sao đi nữa, mình thật sự muốn khen ngợi việc một tập đoàn lớn như thế này đã mạnh dạn đầu tư và phát hành bộ dữ liệu chất lượng cao dưới dạng mã nguồn mở hoàn toàn (CC BY-SA 3.0).
Nếu ngày càng có nhiều công ty như vậy xuất hiện và mức độ tham gia tăng dần, biết đâu một ngày nào đó sẽ có một mô hình mã nguồn mở đạt tầm GPT-4 và có thể dùng cho mục đích thương mại?