3 điểm bởi GN⁺ 2023-09-13 | 1 bình luận | Chia sẻ qua WhatsApp
  • Trên HN, sự quan tâm đến việc tinh chỉnh các LLM mã nguồn mở đang tăng mạnh (ví dụ: bài viết của Anyscale)
  • Chia sẻ kinh nghiệm và hiểu biết tích lũy trong nhiều năm về việc tinh chỉnh mô hình, cùng với mã thực tiễn
  • Cung cấp một bộ notebook bao gồm gán nhãn dữ liệu, tinh chỉnh, chạy suy luận hiệu quả và đánh giá chi phí/hiệu năng
  • Huấn luyện một mô hình 7B đạt mức khớp 95% với nhãn của GPT-4 trên tập kiểm thử
  • Tinh chỉnh là gì? Một hình thức prompting mạnh hơn so với việc viết chỉ dẫn bằng văn bản
  • Huấn luyện mô hình hiện có bằng các cặp đầu vào/đầu ra mẫu để phục vụ việc học của mô hình được tinh chỉnh
  • Ưu và nhược điểm của prompting và tinh chỉnh
  • Ưu điểm lớn của tinh chỉnh: hiệu quả hơn nhiều trong việc định hướng hành vi của mô hình, nên các mô hình nhỏ hơn nhiều cũng có thể xử lý đủ tốt
  • Mô hình Llama 7B đã tinh chỉnh rẻ hơn GPT-3.5 tới 50 lần trên mỗi token, đồng thời cho kết quả tương đương hoặc tốt hơn trong nhiều trường hợp sử dụng
  • Ví dụ: phân loại 2 triệu công thức nấu ăn bằng GPT-4 tốn $23k, nhưng mô hình chúng tôi đã tinh chỉnh cho hiệu năng tương tự GPT-4 và chỉ tốn $19 để chạy toàn bộ tập dữ liệu
  • Đang phát triển một sản phẩm mã nguồn mở tên là OpenPipe
  • Sản phẩm OpenPipe giúp các kỹ sư có thể áp dụng tinh chỉnh một cách đơn giản nhất có thể
  • Bài viết hiện tại nhằm chia sẻ những điều đã học được về tinh chỉnh

1 bình luận

 
GN⁺ 2023-09-13
Ý kiến trên Hacker News
  • Bài viết về việc dùng tinh chỉnh mô hình Llama 2 như một lựa chọn thay thế cho GPT-3.5/4
  • Một số người dùng nhận thấy trong tác vụ dịch thuật, GPT-3.5 rẻ hơn Llama 2 tới 100 lần, còn Llama 7B cho ra bản dịch kém chất lượng
  • Chiến lược giá rất quyết liệt của OpenAI đối với GPT-3.5 được suy đoán là nhằm khuyến khích mọi người phụ thuộc vào mô hình của họ hơn là của các nhà cung cấp khác
  • Có thảo luận về khả năng dùng đầu ra từ GPT và các LLM khác để huấn luyện mô hình thay thế nội bộ, điều này có thể là giải pháp hiệu quả về chi phí cho những người dùng API thông thường ở quy mô sản xuất
  • Có ý kiến nghi ngờ tuyên bố rằng mô hình Llama 7B đã tinh chỉnh rẻ hơn GPT-3.5 tới 50 lần; một số người cho rằng điều này chỉ có thể đạt được khi tự lưu trữ
  • Có ý kiến đặt câu hỏi về hiệu quả của tinh chỉnh so với LoRA
  • Một số người dùng cho rằng việc so sánh giữa Llama đã tinh chỉnh và GPT-3.5 là gây hiểu lầm, viện dẫn các vấn đề về đạt được độ trễ suy luận phù hợp và khả năng mở rộng
  • Chất lượng của mô hình Llama 2 đã tinh chỉnh không nhất thiết vượt trội hơn ChatGPT; tinh chỉnh đòi hỏi bộ dữ liệu chất lượng cao, thứ không dễ xây dựng
  • Có ý kiến đặt câu hỏi về tính nhất quán và tỷ lệ lỗi của tính năng gọi hàm trong GPT
  • Người dùng tò mò về LLM mã nguồn mở tốt nhất để tinh chỉnh mô hình của riêng mình
  • Có yêu cầu làm rõ liệu bộ dữ liệu tinh chỉnh cần là các cặp đầu vào/đầu ra hay có thể ở dạng tự hồi quy
  • Người dùng quan tâm đến tài liệu hướng dẫn cách tinh chỉnh các mô hình này, đặc biệt là cho người mới bắt đầu
  • Bài viết này được xem là tài liệu có giá trị cho những ai mới bắt đầu trong lĩnh vực ML/LLM