15 điểm bởi xguru 2024-01-22 | 3 bình luận | Chia sẻ qua WhatsApp
  • Cuộc cách mạng AI mã nguồn mở vẫn chưa thực sự diễn ra
  • Dĩ nhiên đã có những mô hình open-weight rất ấn tượng, và xin cảm ơn những người công bố trọng số, nhưng nếu không thể tái tạo mô hình thì đó không phải mã nguồn mở thực sự
  • Hãy tưởng tượng trên Linux người ta chỉ phát hành file nhị phân mà không có codebase. Hoặc chỉ phát hành codebase mà không có trình biên dịch đã dùng để tạo ra file nhị phân. Đó chính là tình trạng hiện nay
  • Việc này có nhiều nhược điểm
    • Không thể tiếp tục đóng góp trở lại cho dự án
    • Dự án không được hưởng lợi từ vòng lặp phản hồi của OSS
    • Khó xác minh mô hình có cài backdoor hay không (ví dụ: latent agent)
    • Không thể kiểm tra dữ liệu và bộ lọc nội dung có phù hợp với chính sách công ty hay không
    • Muốn làm mới mô hình thì phải phụ thuộc vào công ty
  • Một dự án LLM mã nguồn mở thực sự, nơi mọi thứ từ codebase đến pipeline dữ liệu đều được công khai, có thể tạo ra rất nhiều giá trị và sáng tạo, đồng thời cải thiện bảo mật
    • Nhưng việc tái tạo trọng số không đơn giản như biên dịch mã; nó đòi hỏi năng lực tính toán và know-how
    • Và việc xem xét đóng góp cũng khó, vì sẽ không biết nó ảnh hưởng đến hiệu năng ra sao cho đến khi chạy đợt huấn luyện tiếp theo
  • Nhưng những cá nhân hoặc nhóm có đủ động lực có thể tìm ra các chi tiết này, và dù điều đó có thể trông rất khác OSS truyền thống, thì chính những thách thức mới này là lý do khiến lĩnh vực này trở nên thú vị

3 bình luận

 
coyai 2024-02-07

Nói đúng,

  1. github và huggingface từ lâu đã không còn là kho lưu trữ open source đúng nghĩa mà đã biến chất thành nền tảng marketing.
  2. Một số model thậm chí còn không cung cấp cả binary có thể chạy được (https://github.com/AIGCDesignGroup/ReplaceAnything)
  3. Chỉ cung cấp demo online rồi dùng nó để công khai mỗi Marketing Demo về công nghệ của họ thì đó là nền tảng Open source kiểu gì?
  4. Gitbug và Huggingface rồi cũng đang trở thành những site rác đầy rẫy đồ giả hoặc hàng vớ vẩn như các mạng xã hội trước đây.

Vì vậy, open source giờ đang dần trở thành một Myth hay Urban Legend. Thực tế mà nói, có thể xem là trên các site này hầu như không có model open source nào theo đúng nghĩa thực sự là có thể tái lập hoàn chỉnh. Phần lớn chỉ là marketing stunt.

 
cosine20 2024-01-29

Tôi cũng hiểu ý đó, nhưng... các mô hình ra mắt dạo gần đây đòi hỏi sức mạnh tính toán và thời gian cần thiết cho việc huấn luyện đến mức cá nhân bình thường khó mà tái tạo được, nên tôi cũng không chắc sẽ thế nào.
Tuy vậy, về việc công khai bộ dữ liệu thì tôi cũng phần nào đồng tình.

 
xguru 2024-01-22

Ý kiến trên Hacker News

  • Hãy tưởng tượng nếu Linux chỉ công khai file nhị phân mà không có codebase, hoặc chỉ công khai codebase mà không có trình biên dịch. Đó chính là tình huống hiện tại của chúng ta.

    • Đây là một phép so sánh giải thích rất rõ vấn đề của các "mô hình mã nguồn mở" hiện nay. Qua phép so sánh này, vấn đề của mô hình mã nguồn mở hiện ra rất rõ ràng.
  • Hãy lấy ví dụ của CERN: họ công bố nhiều dữ liệu thí nghiệm theo giấy phép CC0. Đây không chỉ là các bộ dữ liệu nhỏ đơn giản, mà là dữ liệu quy mô lớn như toàn bộ dữ liệu của lần chạy đầu tiên của LHCb.

    • CERN không chỉ công bố dữ liệu rồi để đó, mà còn cung cấp hướng dẫn phân tích và các công cụ cần thiết như ROOT, phần lớn đều là mã nguồn mở. Nhờ vậy, bất kỳ ai cũng có thể khám phá điều mới hoặc mở rộng các phân tích thí nghiệm hiện có. Dữ liệu và công cụ mở như vậy đáp ứng điều kiện về khả năng tái lập, nhưng không nhất thiết phải trực tiếp tái tạo lại dữ liệu. Về lý thuyết có thể xây lại LHC, nhưng điều đó đòi hỏi rất nhiều nhân lực, tiền bạc và thời gian. Trái với mô hình mã nguồn mở, người ta có thể huấn luyện lại mô hình để thu được trọng số, nhưng chi phí để có được dữ liệu và tái tạo trọng số thường là cực kỳ lớn. Cũng cần nhớ rằng CERN công bố phiên bản dữ liệu đã được tinh lọc hơn, chứ không phải dữ liệu thô, vốn phần lớn là nhiễu. Việc tải xuống lượng dữ liệu thô khổng lồ là rất khó, nhưng để huấn luyện thứ gì đó như mô hình ngôn ngữ lớn (LLM), có thể cần toàn bộ bộ dữ liệu, và điều này thường kéo theo các vấn đề riêng như bản quyền.
  • Việc công bố bộ dữ liệu mới là vấn đề lớn nhất. Khi đó, mọi người và các công ty sẽ kiện vì cho rằng bản quyền của họ đã bị xâm phạm.

    • Nếu bộ dữ liệu chứa nội dung có bản quyền, các chủ sở hữu bản quyền có thể khởi kiện. Sẽ không ngạc nhiên nếu mô hình đã bao gồm toàn bộ dữ liệu từ Z-Library hoặc Google Books.
  • Trong năm qua, Open Source Initiative đã thực hiện một loạt hoạt động để thu thập ý kiến từ nhiều bên liên quan về việc AI có phải là mã nguồn mở hay không.

    • Tôi từng tham gia một phiên thảo luận kéo dài cả buổi chiều tại All Things Open. Tôi khuyên nên xem các trao đổi đã và đang diễn ra về vấn đề này. Đây là một câu chuyện phức tạp và nhiều sắc thái hơn rất nhiều so với những gì có thể gói gọn trong một tweet.
  • Việc áp dụng thuật ngữ "mã nguồn mở" cho mô hình AI phức tạp hơn so với khi áp dụng cho phần mềm. Nhiều người xem khả năng tái lập là tiêu chí để được coi là mã nguồn mở.

    • Với mô hình AI, bản thân mô hình, bộ dữ liệu và công thức huấn luyện, ví dụ như quy trình và hyperparameter, thường cũng được công bố như mã nguồn. Nhờ đó, nếu có đủ năng lực tính toán, bạn có thể huấn luyện mô hình để thu được trọng số.
  • Open core cũng vậy — nếu không thể tự host trên hạ tầng của mình thì đó không phải là phần mềm mã nguồn mở thực sự.

    • Nếu không thể tự host trên hạ tầng riêng, thì nó không được xem là phần mềm mã nguồn mở thực sự.
  • "Dự án không hưởng lợi từ vòng phản hồi của OSS" Vì bạn không thể gửi PR cho dữ liệu huấn luyện để giải quyết một vấn đề cụ thể như sửa lỗi, tôi không nghĩ sẽ có nhiều vòng phản hồi như vậy.

    • "Rất khó xác minh rằng mô hình không có backdoor" Xét tới quy mô của bộ dữ liệu và sự thiếu minh bạch của quá trình huấn luyện, sẽ có rất ít người có thể biết được liệu dữ liệu huấn luyện có chứa backdoor hay không.
    • "Khó xác minh dữ liệu và bộ lọc nội dung, cũng như kiểm tra xem chúng có phù hợp với chính sách công ty hay không" Bạn vẫn có thể áp dụng chính sách công ty lên đầu ra của mô hình mà không cần truy cập dữ liệu huấn luyện. Câu hỏi là liệu mọi công ty có phải lọc dữ liệu đầu vào và tự huấn luyện mô hình riêng của mình hay không.
    • "Khi cần làm mới mô hình, bạn sẽ phụ thuộc vào công ty" Với chi phí hiện nay thì điều này trên thực tế đã đúng với đa số mọi người.
    • "Một dự án LLM mã nguồn mở thực sự, nơi mọi thứ từ codebase đến pipeline dữ liệu đều mở, có thể giải phóng rất nhiều giá trị, sáng tạo và cải thiện bảo mật" Với LLM, nhìn chung tôi hoài nghi điều này là đúng. Ngược lại, nó có thể tạo ra bề mặt tấn công lớn hơn cho các tác nhân xấu.
  • "Hình thức được ưu tiên để chỉnh sửa một tác phẩm phải là 'mã nguồn'."

    • Trích dẫn GPLv3
    • Điều thú vị ở các mô hình AI/ML này là trọng số được suy ra từ tập huấn luyện, nhưng khi chỉnh sửa thì không cần truy cập vào tập huấn luyện gốc. Có rất nhiều hướng dẫn về cách fine-tune mà không cần truy cập tập huấn luyện ban đầu.
  • Tôi không đồng ý, và phép so sánh này không phù hợp. Những điều anh ấy liệt kê đều có thể làm được với mô hình đã được huấn luyện. Việc có dữ liệu hay không về cơ bản là một vấn đề không mấy quan trọng. Phần mềm mở/tự do là nói về quyền tự do được thực thi, và nếu bạn có trọng số mô hình cùng code thì bạn có thể thực hiện mọi quyền tự do đó.

  • Có mô hình LLM mã nguồn mở thực sự nào mà toàn bộ dữ liệu huấn luyện đều công khai (với giấy phép tương thích), và phần mềm huấn luyện có thể tái tạo ra mô hình giống hệt từng bit không?

    • Việc huấn luyện có phi quyết định không? Tôi hiểu rằng đầu ra của LLM được cố ý làm cho phi quyết định.