Giờ đây có thể chạy mô hình cấp độ GPT-4 là Llama 3.3 70B trên laptop

xguru · 2024-12-11T10:02:02+09:00

Giờ đây có thể chạy mô hình Llama 3.3 70B của Meta với hiệu năng cấp độ GPT-4 trên laptop phổ thông (MacBook Pro M2 64GB) Đây là một bước tiến lớn đạt được chỉ khoảng 20 tháng sau khi LLaMA ra mắt vào tháng 3/2023 Có thể tải xuống cục bộ 42GB dữ liệu mô hình và chạy qua Ollama (cũng có thể chạy bằng MLX của Apple) Cần 64GB RAM, và do mức sử dụng bộ nhớ cao khi chạy nên nên tắt các ứng dụng khác ngốn nhiều tài nguyên Hiệu năng và benchmark Trong benchmark LiveBench, mô hình đứng hạng 19, cho hiệu năng cao hơn Claude 3 Opus và ở mức tương đương GPT-4 Turbo Đặc biệt ghi nhận hiệu năng hàng đầu trong đánh giá hiểu chỉ dẫn (Instruction Following) Có thể thực hiện nhiều tác vụ như tạo văn bản, viết mã và tạo ảnh SVG Ngày càng có thể chạy các mô hình mạnh hơn trên thiết bị cá nhân Các mô hình LLM chạy cục bộ đáng chú ý khác Qwen2.5-Coder-32B Là mô hình do nhóm nghiên cứu Qwen của Alibaba phát triển và được công bố theo giấy phép Apache 2.0 Thể hiện hiệu năng xuất sắc trong các tác vụ sinh mã và có thể sử dụng tự do Là công cụ càng có ý nghĩa hơn với các nhà phát triển nhờ giấy phép mã nguồn mở QwQ Triển khai mẫu suy luận theo chuỗi (chain-of-thought) tương tự dòng o1 của OpenAI Có thể giải quyết các vấn đề phức tạp theo từng bước Khả năng chạy mượt ngay cả trong môi trường cục bộ là điểm gây ấn tượng Llama 3.2 của Meta Các mô hình kích thước 1B và 3B có thể chạy cả trên các máy tính nhỏ như Raspberry Pi Cung cấp hiệu năng vượt trội so với kích thước, đồng thời cũng bao gồm các mô hình thị giác đa phương thức 11B và 90B có khả năng xử lý hình ảnh Có nhiều lựa chọn đa dạng từ mô hình nhỏ đến mô hình quy mô lớn Những mô hình này cho thấy công nghệ LLM đã thoát khỏi phạm vi phần cứng cấp máy chủ và có thể chạy cả trên máy tính cá nhân thông thường Đặc biệt, sự phát triển của các mô hình mã nguồn mở đang mở rộng môi trường để các nhà phát triển tự do thử nghiệm và ứng dụng Triển vọng sắp tới Dự kiến sẽ có những tiến bộ lớn về đa phương thức và hiệu quả mô hình Được dự báo sẽ tiếp tục phát triển theo hướng tập trung vào việc thực hiện tác vụ thực tiễn và hiệu quả hơn là AGI Ngay cả với các mô hình hiện tại, nhiều khả năng vẫn có thể phục vụ công việc năng suất trong vài năm tới

(simonwillison.net)

22 điểm bởi xguru 2024-12-11 | 13 bình luận | Chia sẻ qua WhatsApp

Giờ đây có thể chạy mô hình Llama 3.3 70B của Meta với hiệu năng cấp độ GPT-4 trên laptop phổ thông (MacBook Pro M2 64GB)
Đây là một bước tiến lớn đạt được chỉ khoảng 20 tháng sau khi LLaMA ra mắt vào tháng 3/2023
Có thể tải xuống cục bộ 42GB dữ liệu mô hình và chạy qua Ollama (cũng có thể chạy bằng MLX của Apple)
- Cần 64GB RAM, và do mức sử dụng bộ nhớ cao khi chạy nên nên tắt các ứng dụng khác ngốn nhiều tài nguyên
Hiệu năng và benchmark
- Trong benchmark LiveBench, mô hình đứng hạng 19, cho hiệu năng cao hơn Claude 3 Opus và ở mức tương đương GPT-4 Turbo
- Đặc biệt ghi nhận hiệu năng hàng đầu trong đánh giá hiểu chỉ dẫn (Instruction Following)
- Có thể thực hiện nhiều tác vụ như tạo văn bản, viết mã và tạo ảnh SVG
Ngày càng có thể chạy các mô hình mạnh hơn trên thiết bị cá nhân
Các mô hình LLM chạy cục bộ đáng chú ý khác
- Qwen2.5-Coder-32B
  - Là mô hình do nhóm nghiên cứu Qwen của Alibaba phát triển và được công bố theo giấy phép Apache 2.0
  - Thể hiện hiệu năng xuất sắc trong các tác vụ sinh mã và có thể sử dụng tự do
  - Là công cụ càng có ý nghĩa hơn với các nhà phát triển nhờ giấy phép mã nguồn mở
- QwQ
  - Triển khai mẫu suy luận theo chuỗi (chain-of-thought) tương tự dòng o1 của OpenAI
  - Có thể giải quyết các vấn đề phức tạp theo từng bước
  - Khả năng chạy mượt ngay cả trong môi trường cục bộ là điểm gây ấn tượng
- Llama 3.2 của Meta
  - Các mô hình kích thước 1B và 3B có thể chạy cả trên các máy tính nhỏ như Raspberry Pi
  - Cung cấp hiệu năng vượt trội so với kích thước, đồng thời cũng bao gồm các mô hình thị giác đa phương thức 11B và 90B có khả năng xử lý hình ảnh
  - Có nhiều lựa chọn đa dạng từ mô hình nhỏ đến mô hình quy mô lớn
- Những mô hình này cho thấy công nghệ LLM đã thoát khỏi phạm vi phần cứng cấp máy chủ và có thể chạy cả trên máy tính cá nhân thông thường
- Đặc biệt, sự phát triển của các mô hình mã nguồn mở đang mở rộng môi trường để các nhà phát triển tự do thử nghiệm và ứng dụng
Triển vọng sắp tới
- Dự kiến sẽ có những tiến bộ lớn về đa phương thức và hiệu quả mô hình
- Được dự báo sẽ tiếp tục phát triển theo hướng tập trung vào việc thực hiện tác vụ thực tiễn và hiệu quả hơn là AGI
- Ngay cả với các mô hình hiện tại, nhiều khả năng vẫn có thể phục vụ công việc năng suất trong vài năm tới

13 bình luận

javaguardian 2024-12-16

Có lẽ vẫn chạy được cả trên M1 Max 64GB chứ nhỉ?

ndrgrd 2024-12-13

Nếu không phải là những người hoàn toàn không quan tâm đến máy tính thì tôi cứ nghĩ với dân trong ngành này, khoảng 64GB đã là mức cơ bản rồi..

plenty 2024-12-13

Nếu không phải xử lý lượng dữ liệu lớn thì sự khác biệt giữa 16 và 64 thực ra không phải là thứ có thể cảm nhận rõ rệt.

savvykang 2024-12-13

Với RAM 8GB vẫn phát triển tốt. Không phải mọi tác vụ đều cần nhiều bộ nhớ đến vậy.

felizgeek 2024-12-13

Có vẻ mức này khá dễ tiếp cận nếu có 64GB RAM.
Dạo này DDR5 16GB cho laptop chỉ khoảng 60.000 won thôi.
Cũng có nhiều laptop 64GB ở tầm giá 800.000 won.

riskatcher 2024-12-13

Mac RAM 64GB có nghĩa tương đương với VRAM 64GB, nên thực tế là phải bắt đầu từ mức 300.

plenty 2024-12-13

Mac dòng M dùng chung RAM giữa CPU và GPU, nên tạo ra hiệu ứng như thể bộ nhớ GPU được tăng lên.

ifmkl 2024-12-11

Sau khi đọc bài gốc thì tôi cũng phần nào hiểu được cái tiêu đề. Vì đây là bài kiểu tác giả nói rằng: tôi đã chạy mô hình Llama trên chính chiếc laptop tôi đang có! Haha

savvykang 2024-12-11

Có phải 64GB là để tính cả việc chạy thêm các chương trình khác không? Tôi nghĩ đây là cấu hình không thực tế để gọi là PC phổ thông hay PC cá nhân.

ffdd270 2024-12-11

Trong bối cảnh này, máy tính cá nhân thường chỉ được hiểu là “đang được bán trên thị trường B2C và có thể mua được (bất kể giá cả)”. Có vẻ vẫn còn khá xa với việc “ai cũng có thể dùng được”.

stargt 2024-12-11

Tình huống rất đa dạng. Tôi cũng dùng MacBook Pro 96GB cho mục đích cá nhân, nhưng ngay cả khi không phát triển liên quan đến LLM thì Swap vẫn thường xuyên bị đầy.

huiya 2024-12-11

Laptop thường mà có 64GB RAM...?? hu hu

dhy0613 2024-12-11

Có lẽ gọi là phần cứng cấp độ tiêu dùng thì sẽ phù hợp hơn một chút.

Giờ đây có thể chạy mô hình cấp độ GPT-4 là Llama 3.3 70B trên laptop

Bài viết liên quan

13 bình luận