Khoảnh khắc Stable Diffusion đang đến với LLM

xguru · 2023-03-13T11:40:39+09:00

Việc công bố Stable Diffuion (SD) vào tháng 8/2022 là một khoảnh khắc quan trọng, và từ đó đến nay làn sóng đổi mới bùng nổ vẫn đang tiếp diễn Gần đây, ControlNet đã vượt MidJourney và DALL-E về mặt tính năng Việc SD được công bố đã tạo ra sự quan tâm mới đối với AI tạo sinh, và làn sóng đó càng mạnh hơn với sự ra mắt của ChatGPT vào tháng 11 Khoảnh khắc SD cũng đang đến với các mô hình ngôn ngữ lớn (LLM) Giờ đây có thể chạy mô hình ngôn ngữ cấp độ GPT-3 trên laptop cá nhân LLaMA Các LLM như GPT-3 tốn kém hơn rất nhiều so với mô hình tạo ảnh cả trong việc xây dựng lẫn vận hành Những mô hình tốt nhất được xây dựng bởi các công ty như OpenAI và có thể truy cập qua API, nhưng không được công khai để có thể tự chạy trực tiếp Bản thân mô hình cũng rất lớn, nên ngay cả khi có được mô hình GPT-3 thì cũng không thể chạy trên phần cứng thương mại thông thường (cần nhiều GPU hạng A100, mỗi chiếc hơn $8000) Trong vài năm qua đã có nhiều mô hình ngôn ngữ được công bố, nhưng phần lớn không phù hợp để tự chạy trực tiếp Mọi thứ đã thay đổi nhờ mô hình LLaMA của Facebook và LLama.cpp LLaMA không hoàn toàn mở. Để truy cập mô hình, cần đồng ý với một số điều kiện khá nghiêm ngặt Sau đó đã có người đưa lên một PR không chính thức có thể tải bằng torrent, nên việc tải xuống trở nên khả thi llama.cpp Nếu LLaMA khó chạy trên laptop cá nhân thì nó sẽ không thực sự hữu ích Georgi Gerganov người Bulgaria trước đây đã tạo Whisper.cpp, bản port C++ của mô hình nhận diện giọng nói Whisper của OpenAI Anh ấy đã làm điều tương tự với LLaMA Mục tiêu là chạy được cả trên MacBook bằng cách dùng lượng tử hóa 4-bit (kỹ thuật giảm kích thước mô hình để có thể hoạt động trên phần cứng chậm hơn) Giảm kích thước mô hình xuống còn 4GB cho bản 7B, và dưới 8GB cho bản 13B Nó hoạt động rất tốt trên MacBook Giờ đây có thể chạy mô hình 13B mà Facebook tuyên bố có thể cạnh tranh với GPT-3 ngay trên laptop Khi nhìn thấy văn bản được tạo ra trên laptop, tôi có cảm giác thế giới lại đang thay đổi một lần nữa Tôi từng nghĩ sẽ phải chờ vài năm nữa mới có thể chạy được mô hình cấp độ GPT-3 trên thiết bị mình đang có, nhưng tôi đã sai. "Tương lai đã ở đây rồi" Đây có phải là kịch bản tệ nhất? Tôi không lo về những kịch bản kiểu khoa học viễn tưởng. Một LLM chạy trên laptop cũng sẽ không trở thành "AGI thống trị thế giới" Nhưng có nhiều cách công nghệ này có thể bị dùng cho mục đích xấu Tạo spam, lừa đảo tình cảm tự động, trolling và phát ngôn thù ghét, tin giả và thông tin sai lệch, cực đoan hóa tự động Trước khoảnh khắc này, vẫn còn những lớp phòng vệ mỏng như việc các công ty như OpenAI kiểm soát cách mọi người tương tác với các mô hình này Nhưng giờ đây vì ai cũng có thể chạy trên phần cứng của riêng mình, các cơ chế kiểm soát như vậy sẽ biến mất Làm sao để dùng nó cho mục đích tốt? Tôi nghĩ điều này sẽ tạo ra ảnh hưởng lớn đến xã hội. Ưu tiên của tôi là dẫn dắt ảnh hưởng đó theo hướng tích cực Rất dễ rơi vào góc nhìn hoài nghi rằng AI tạo sinh chỉ gây hại hoặc lãng phí thời gian Cá nhân tôi đang dùng các công cụ AI tạo sinh mỗi ngày. Chúng mang lại cải thiện rõ rệt về năng suất, và quan trọng hơn là mở rộng tham vọng của tôi đối với các dự án mình thực hiện Tuần trước tôi đã dùng ChatGPT để học AppleScript cần cho một dự án mới chỉ trong một giờ Tôi sẽ tiếp tục khám phá và chia sẻ những cách áp dụng tích cực của công nghệ này Điều cần theo dõi tiếp theo Nếu Facebook không nới lỏng các điều khoản giấy phép, LLaMA có lẽ sẽ chỉ dừng lại như một PoC cho thấy các mô hình kiểu này có thể chạy trên phần cứng tiêu dùng Giờ đây đã bắt đầu một cuộc đua nhằm phát hành các mô hình ngôn ngữ hoàn toàn mở có thể mang lại chức năng giống ChatGPT ngay trên thiết bị của người dùng

(simonwillison.net)

37 điểm bởi xguru 2023-03-13 | 3 bình luận | Chia sẻ qua WhatsApp

Việc công bố Stable Diffuion (SD) vào tháng 8/2022 là một khoảnh khắc quan trọng, và từ đó đến nay làn sóng đổi mới bùng nổ vẫn đang tiếp diễn
Gần đây, ControlNet đã vượt MidJourney và DALL-E về mặt tính năng
Việc SD được công bố đã tạo ra sự quan tâm mới đối với AI tạo sinh, và làn sóng đó càng mạnh hơn với sự ra mắt của ChatGPT vào tháng 11
Khoảnh khắc SD cũng đang đến với các mô hình ngôn ngữ lớn (LLM)
Giờ đây có thể chạy mô hình ngôn ngữ cấp độ GPT-3 trên laptop cá nhân

LLaMA

Các LLM như GPT-3 tốn kém hơn rất nhiều so với mô hình tạo ảnh cả trong việc xây dựng lẫn vận hành
Những mô hình tốt nhất được xây dựng bởi các công ty như OpenAI và có thể truy cập qua API, nhưng không được công khai để có thể tự chạy trực tiếp
Bản thân mô hình cũng rất lớn, nên ngay cả khi có được mô hình GPT-3 thì cũng không thể chạy trên phần cứng thương mại thông thường (cần nhiều GPU hạng A100, mỗi chiếc hơn $8000)
Trong vài năm qua đã có nhiều mô hình ngôn ngữ được công bố, nhưng phần lớn không phù hợp để tự chạy trực tiếp
Mọi thứ đã thay đổi nhờ mô hình LLaMA của Facebook và LLama.cpp
LLaMA không hoàn toàn mở. Để truy cập mô hình, cần đồng ý với một số điều kiện khá nghiêm ngặt
Sau đó đã có người đưa lên một PR không chính thức có thể tải bằng torrent, nên việc tải xuống trở nên khả thi

llama.cpp

Nếu LLaMA khó chạy trên laptop cá nhân thì nó sẽ không thực sự hữu ích
Georgi Gerganov người Bulgaria trước đây đã tạo Whisper.cpp, bản port C++ của mô hình nhận diện giọng nói Whisper của OpenAI
Anh ấy đã làm điều tương tự với LLaMA
Mục tiêu là chạy được cả trên MacBook bằng cách dùng lượng tử hóa 4-bit (kỹ thuật giảm kích thước mô hình để có thể hoạt động trên phần cứng chậm hơn)
Giảm kích thước mô hình xuống còn 4GB cho bản 7B, và dưới 8GB cho bản 13B
Nó hoạt động rất tốt trên MacBook
Giờ đây có thể chạy mô hình 13B mà Facebook tuyên bố có thể cạnh tranh với GPT-3 ngay trên laptop
Khi nhìn thấy văn bản được tạo ra trên laptop, tôi có cảm giác thế giới lại đang thay đổi một lần nữa
Tôi từng nghĩ sẽ phải chờ vài năm nữa mới có thể chạy được mô hình cấp độ GPT-3 trên thiết bị mình đang có, nhưng tôi đã sai. "Tương lai đã ở đây rồi"

Đây có phải là kịch bản tệ nhất?

Tôi không lo về những kịch bản kiểu khoa học viễn tưởng. Một LLM chạy trên laptop cũng sẽ không trở thành "AGI thống trị thế giới"
Nhưng có nhiều cách công nghệ này có thể bị dùng cho mục đích xấu
- Tạo spam, lừa đảo tình cảm tự động, trolling và phát ngôn thù ghét, tin giả và thông tin sai lệch, cực đoan hóa tự động
Quảng cáo
Trước khoảnh khắc này, vẫn còn những lớp phòng vệ mỏng như việc các công ty như OpenAI kiểm soát cách mọi người tương tác với các mô hình này
Nhưng giờ đây vì ai cũng có thể chạy trên phần cứng của riêng mình, các cơ chế kiểm soát như vậy sẽ biến mất

Làm sao để dùng nó cho mục đích tốt?

Tôi nghĩ điều này sẽ tạo ra ảnh hưởng lớn đến xã hội. Ưu tiên của tôi là dẫn dắt ảnh hưởng đó theo hướng tích cực
Rất dễ rơi vào góc nhìn hoài nghi rằng AI tạo sinh chỉ gây hại hoặc lãng phí thời gian
Cá nhân tôi đang dùng các công cụ AI tạo sinh mỗi ngày. Chúng mang lại cải thiện rõ rệt về năng suất, và quan trọng hơn là mở rộng tham vọng của tôi đối với các dự án mình thực hiện
Tuần trước tôi đã dùng ChatGPT để học AppleScript cần cho một dự án mới chỉ trong một giờ
Tôi sẽ tiếp tục khám phá và chia sẻ những cách áp dụng tích cực của công nghệ này

Điều cần theo dõi tiếp theo

Nếu Facebook không nới lỏng các điều khoản giấy phép, LLaMA có lẽ sẽ chỉ dừng lại như một PoC cho thấy các mô hình kiểu này có thể chạy trên phần cứng tiêu dùng
Giờ đây đã bắt đầu một cuộc đua nhằm phát hành các mô hình ngôn ngữ hoàn toàn mở có thể mang lại chức năng giống ChatGPT ngay trên thiết bị của người dùng

3 bình luận

ffdd270 2023-03-13

Có nội dung nói là chạy được trên MacBook, nên nếu bạn muốn thiết lập LLAMA trên MacBook thì hãy tham khảo mục này: https://dev.l1x.be/posts/2023/03/12/using-llama-with-m1-mac/

(Nếu người khác đăng thành tin tức cũng được đó 'm' b)

dkmin 2023-03-15

Cảm ơn đã chia sẻ

xguru 2023-03-13

Đây là bài viết của Simon Willison, một gương mặt quen thuộc trên GeekNews.
Đúng như lập luận của ông ấy, nếu có thể chạy những mô hình ngôn ngữ như thế này trên thiết bị cá nhân, tôi nghĩ rằng "tham vọng/phạm vi triển khai của dự án sẽ được mở rộng".
Ngay cả khi tôi muốn gắn thêm các tính năng liên quan đến ChatGPT vào GeekNews, chi phí API cũng khiến tôi phải cân nhắc thêm một lần nữa.
Giờ đây đã có thể chạy những LLM khá hữu dụng trên thiết bị cá nhân, nên tôi kỳ vọng sẽ xuất hiện phạm vi ứng dụng đa dạng hơn.

Như tôi cũng đã viết trong GeekNews Weekly phát hành hôm nay,
để một xu hướng công nghệ tiếp tục được nhắc đến, điều quan trọng là các doanh nghiệp thực tế dựa trên công nghệ đó phải được xây dựng và ra mắt ở mức độ thực sự hữu ích với người dùng.