3 điểm bởi GN⁺ 2024-04-22 | 1 bình luận | Chia sẻ qua WhatsApp

Hiệu năng của Meta-Llama-3-8B-Instruct

  • Dù là mô hình 8B, nó vẫn cho thấy hiệu năng gần như ngang bằng với Wizard 22B
  • Thể hiện khả năng suy luận vượt trội hơn cả các mô hình 70B trước đó
  • Cho thấy hiệu năng rất xuất sắc ở nhiều lĩnh vực như giải bài toán và năng lực lập trình

Đặc điểm của Meta-Llama-3-8B-Instruct

  • Là kết quả được Meta đầu tư nguồn lực khổng lồ để huấn luyện lâu dài trên lượng dữ liệu lớn hơn
  • Hiệu năng có khác biệt tùy theo nhà phát triển và phần cứng. Kết quả cũng thay đổi theo các tham số suy luận
  • Ở phiên bản FP16, mô hình cho hiệu năng gần như tương đương Q8_0. Với mức này ở 8B, đây là đẳng cấp hàng đầu đối với một mô hình lượng tử hóa
  • Nội dung sinh ra đôi lúc có phần sắc sảo và hóm hỉnh. Mô hình hiểu ý định của câu và phản hồi phù hợp

Ý kiến của GN⁺

  • Với truy vấn đơn lẻ, mô hình đưa ra câu trả lời đáng tin cậy, nhưng trong hội thoại nhiều lượt vẫn còn bộc lộ giới hạn. Cần cải thiện thông qua tối ưu prompt template hoặc tinh chỉnh hyperparameter
  • So với mô hình 3B, hiệu năng của mô hình 8B vượt trội rõ rệt, vì vậy việc fine-tune đa dạng các mô hình cỡ 8B để tạo ra các mô hình chuyên biệt có vẻ đầy hứa hẹn
  • Nhờ khả năng hiểu ngôn ngữ và suy luận nổi bật, mô hình có tiềm năng ứng dụng cao trong các lĩnh vực thâm dụng tri thức hoặc chuyên môn sâu. Có thể phát triển thành các mô hình chuyên biệt cho các domain như y tế, pháp lý và tài chính
  • Việc Meta dùng nguồn lực và năng lực công nghệ của mình để nâng mô hình 8B lên mức này là một thành tựu đáng nể. Trong tương lai, có thể sẽ chạy được các mô hình AI hiệu năng cao ngay trên PC cá nhân
  • Đáng tiếc là chưa có mô hình quy mô trung gian giữa 8B và 70B được công bố. Nếu xuất hiện một mô hình cỡ khoảng 32B, nhiều khả năng nó sẽ cho thấy sự cân bằng tối ưu giữa hiệu năng và hiệu quả

1 bình luận

 
GN⁺ 2024-04-22
Ý kiến Hacker News
  • Mô hình Llama 3 8B trả lời cho câu hỏi điều gì sẽ xảy ra nếu huấn luyện một mô hình nhỏ trong thời gian rất dài. Đây là xu hướng bắt đầu từ các mô hình Mistral, và được đẩy xa hơn ở Llama 3. Việc dùng 15T token cho một mô hình 8B tham số là mức độ chưa từng thấy trước đây.
  • Đây là một bản phát hành làm tăng kỳ vọng về việc cải thiện chất lượng của các mô hình nhỏ.
  • Llama 3 có vẻ hơi dài dòng và dường như đưa ra một số giả định sai. Ví dụ, nó từng tưởng tượng rằng ngửa mặt lên trời và nhổ nước bọt có thể chạm tới mây, rồi tự đính chính rằng thực tế không phải vậy.
  • Có người thắc mắc liệu kết quả này đến từ việc huấn luyện nhiều hơn và năng lực tăng lên theo đó, hay là vì những câu đố kiểu này giờ đã quá nổi tiếng nên được thể hiện rõ trong dữ liệu huấn luyện.
  • Điểm đặc biệt của Llama 3 là đã đầu tư thêm công sức vào việc khử trùng lặp dữ liệu huấn luyện (chất lượng) và tăng lượng dữ liệu huấn luyện (số lượng), đồng thời dùng lượng mã nguồn trong dữ liệu huấn luyện nhiều gấp 4 lần (tốt cho suy luận).
  • Có thể bằng cách đầu tư nhiều hơn vào khâu tuyển chọn và tạo dữ liệu huấn luyện, người ta sẽ kỳ vọng được mức cải thiện hiệu năng rất lớn ngay cả với các mô hình nhỏ như thế này.
  • Llama 3 vẫn không dùng Mixture of Experts (MoE). Điều này gợi ý rằng việc tạo ra các mô hình MoE khổng lồ có thể là lãng phí.
  • Meta đang chi hàng tỷ USD cho chip AI của Nvidia. Trong vòng 5 năm tới, có vẻ sẽ có thể chạy các mô hình 8B ở mức GPT-4 trên điện thoại và laptop.
  • Rất ấn tượng với khả năng suy luận của mô hình 8b-instruct. Tương lai của các mô hình nhỏ thật đáng mong đợi.
  • Vấn đề lớn nhất của LLM chạy cục bộ là mọi người có thể có ấn tượng rất khác nhau tùy theo cách họ sử dụng.
  • Hầu hết các công ty vẫn tiếp tục huấn luyện mô hình, và không có thời điểm nào gọi là huấn luyện xong hẳn. Điều này giải thích vì sao chi phí GPU lại khổng lồ.
  • Nếu muốn chạy ngay mô hình này trên điện thoại hôm nay, trước tiên phải bắt đầu bằng việc chạy llama.cpp trên Termux rồi nạp các tệp mô hình như ggml.
  • Có người ngạc nhiên khi mô hình 8B trả lời sai câu hỏi "1kg sắt và 2kg lông vũ, cái nào nặng hơn?". GPT-3.5 cũng sai, nhưng mô hình 70B và GPT-4 thì trả lời đúng.