- Cuộc cách mạng AI mã nguồn mở vẫn chưa thực sự diễn ra
- Dĩ nhiên đã có những mô hình open-weight rất ấn tượng, và xin cảm ơn những người công bố trọng số, nhưng nếu không thể tái tạo mô hình thì đó không phải mã nguồn mở thực sự
- Hãy tưởng tượng trên Linux người ta chỉ phát hành file nhị phân mà không có codebase. Hoặc chỉ phát hành codebase mà không có trình biên dịch đã dùng để tạo ra file nhị phân. Đó chính là tình trạng hiện nay
- Việc này có nhiều nhược điểm
- Không thể tiếp tục đóng góp trở lại cho dự án
- Dự án không được hưởng lợi từ vòng lặp phản hồi của OSS
- Khó xác minh mô hình có cài backdoor hay không (ví dụ: latent agent)
- Không thể kiểm tra dữ liệu và bộ lọc nội dung có phù hợp với chính sách công ty hay không
- Muốn làm mới mô hình thì phải phụ thuộc vào công ty
- Một dự án LLM mã nguồn mở thực sự, nơi mọi thứ từ codebase đến pipeline dữ liệu đều được công khai, có thể tạo ra rất nhiều giá trị và sáng tạo, đồng thời cải thiện bảo mật
- Nhưng việc tái tạo trọng số không đơn giản như biên dịch mã; nó đòi hỏi năng lực tính toán và know-how
- Và việc xem xét đóng góp cũng khó, vì sẽ không biết nó ảnh hưởng đến hiệu năng ra sao cho đến khi chạy đợt huấn luyện tiếp theo
- Nhưng những cá nhân hoặc nhóm có đủ động lực có thể tìm ra các chi tiết này, và dù điều đó có thể trông rất khác OSS truyền thống, thì chính những thách thức mới này là lý do khiến lĩnh vực này trở nên thú vị
3 bình luận
Nói đúng,
Vì vậy, open source giờ đang dần trở thành một Myth hay Urban Legend. Thực tế mà nói, có thể xem là trên các site này hầu như không có model open source nào theo đúng nghĩa thực sự là có thể tái lập hoàn chỉnh. Phần lớn chỉ là marketing stunt.
Tôi cũng hiểu ý đó, nhưng... các mô hình ra mắt dạo gần đây đòi hỏi sức mạnh tính toán và thời gian cần thiết cho việc huấn luyện đến mức cá nhân bình thường khó mà tái tạo được, nên tôi cũng không chắc sẽ thế nào.
Tuy vậy, về việc công khai bộ dữ liệu thì tôi cũng phần nào đồng tình.
Ý kiến trên Hacker News