Thay thế GPT-3.5/4 bằng Llama 2 được fine-tune trực tiếp

(news.ycombinator.com)

3 điểm bởi GN⁺ 2023-09-13 | 1 bình luận | Chia sẻ qua WhatsApp

Khi fine-tune Llama 2 7B cho ví dụ phân loại công thức, kết quả đạt mức khớp 95% với nhãn GPT-4 trên tập kiểm thử
Fine-tuning là cách huấn luyện trực tiếp vào trọng số mô hình phương thức thực hiện tác vụ mong muốn thông qua các ví dụ đầu vào/đầu ra; có thể làm với 50 ví dụ nhưng thường nhắm tới từ 1.000 ví dụ trở lên
Prompt có lợi thế trong việc lặp cải tiến nhanh và vận hành một mô hình lớn duy nhất, nhưng fine-tuning có thể điều chỉnh cả mô hình nhỏ để rất phù hợp với một tác vụ cụ thể
Llama 7B đã fine-tune có chi phí theo token rẻ hơn GPT-3.5 50 lần, nên với các tác vụ đủ hẹp, hiệu năng trên chi phí có thể tốt hơn rất nhiều
Chi phí phân loại 2 triệu công thức là 23.000 USD với GPT-4 và hơn 1.000 USD với GPT-3.5, trong khi mô hình fine-tune này xử lý toàn bộ tập dữ liệu với 19 USD

Fine-tuning khác prompt ở điểm nào

Trong bối cảnh sự quan tâm đến fine-tuning LLM công khai tăng lên trên Hacker News, một bộ notebook cho ví dụ phân loại công thức đã được công bố
- Notebook có tại ví dụ OpenPipe, bao gồm gán nhãn dữ liệu, fine-tuning, chạy suy luận hiệu quả và đánh giá chi phí/hiệu năng
Fine-tuning có thể được xem là một hình thức chỉ dẫn mạnh hơn prompt
- Thay vì đưa chỉ dẫn văn bản vào prompt mỗi lần, cách này huấn luyện ngay trên mô hình phương thức làm việc thông qua các cặp ví dụ đầu vào/đầu ra
- Có thể hoạt động chỉ với 50 ví dụ, nhưng nếu có thể thì vẫn ưu tiên chuẩn bị từ 1.000 ví dụ trở lên
Prompt vẫn có nhiều lợi thế trong vận hành và thử nghiệm
- Có thể lặp cải tiến chỉ dẫn dễ và nhanh hơn mà không cần gán nhãn hay huấn luyện lại
- So với việc triển khai nhiều mô hình nhỏ đã fine-tune, việc triển khai một mô hình lớn rồi chỉ điều chỉnh hành vi sẽ đơn giản hơn về mặt vận hành
- Các mô hình nhỏ đã fine-tune có thể rơi vào tình trạng mức sử dụng riêng lẻ thấp

Ví dụ về chi phí/hiệu năng và OpenPipe

Lợi ích lớn nhất của fine-tuning là có thể dẫn dắt hành vi mô hình hiệu quả hơn để dùng mô hình nhỏ
- Mô hình nhỏ có thể tăng tốc độ phản hồi và giảm chi phí suy luận
- Mô hình Llama 7B đã fine-tune có chi phí theo token rẻ hơn GPT-3.5 50 lần
Ví dụ phân loại công thức so sánh chi phí trên 2 triệu công thức trong bộ dữ liệu all-recipes
- Phân loại bằng GPT-4 tốn 23.000 USD
- Ngay cả với GPT-3.5 cũng phát sinh chi phí hơn 1.000 USD
- Mô hình fine-tune đạt hiệu năng tương tự GPT-4 và chi phí chạy toàn bộ tập dữ liệu là 19 USD
Trên tập kiểm thử, mô hình 7B đã huấn luyện đạt mức khớp 95% với nhãn GPT-4
- Trong 5% trường hợp không khớp, nhiều trường hợp thực ra đáp án vốn đã mơ hồ
OpenPipe là một sản phẩm mã nguồn mở giúp kỹ sư áp dụng fine-tuning dễ hơn
- Dự án được công khai tại kho GitHub của OpenPipe
- Bản thân thông tin fine-tuning được cung cấp không phụ thuộc vào sản phẩm OpenPipe

1 bình luận

GN⁺ 2023-09-13

Ý kiến trên Hacker News

Bài viết về việc dùng tinh chỉnh mô hình Llama 2 như một lựa chọn thay thế cho GPT-3.5/4
Một số người dùng nhận thấy trong tác vụ dịch thuật, GPT-3.5 rẻ hơn Llama 2 tới 100 lần, còn Llama 7B cho ra bản dịch kém chất lượng
Chiến lược giá rất quyết liệt của OpenAI đối với GPT-3.5 được suy đoán là nhằm khuyến khích mọi người phụ thuộc vào mô hình của họ hơn là của các nhà cung cấp khác
Có thảo luận về khả năng dùng đầu ra từ GPT và các LLM khác để huấn luyện mô hình thay thế nội bộ, điều này có thể là giải pháp hiệu quả về chi phí cho những người dùng API thông thường ở quy mô sản xuất
Có ý kiến nghi ngờ tuyên bố rằng mô hình Llama 7B đã tinh chỉnh rẻ hơn GPT-3.5 tới 50 lần; một số người cho rằng điều này chỉ có thể đạt được khi tự lưu trữ
Có ý kiến đặt câu hỏi về hiệu quả của tinh chỉnh so với LoRA
Một số người dùng cho rằng việc so sánh giữa Llama đã tinh chỉnh và GPT-3.5 là gây hiểu lầm, viện dẫn các vấn đề về đạt được độ trễ suy luận phù hợp và khả năng mở rộng
Chất lượng của mô hình Llama 2 đã tinh chỉnh không nhất thiết vượt trội hơn ChatGPT; tinh chỉnh đòi hỏi bộ dữ liệu chất lượng cao, thứ không dễ xây dựng
Có ý kiến đặt câu hỏi về tính nhất quán và tỷ lệ lỗi của tính năng gọi hàm trong GPT
Người dùng tò mò về LLM mã nguồn mở tốt nhất để tinh chỉnh mô hình của riêng mình
Có yêu cầu làm rõ liệu bộ dữ liệu tinh chỉnh cần là các cặp đầu vào/đầu ra hay có thể ở dạng tự hồi quy
Người dùng quan tâm đến tài liệu hướng dẫn cách tinh chỉnh các mô hình này, đặc biệt là cho người mới bắt đầu
Bài viết này được xem là tài liệu có giá trị cho những ai mới bắt đầu trong lĩnh vực ML/LLM

Thay thế GPT-3.5/4 bằng Llama 2 được fine-tune trực tiếp

Fine-tuning khác prompt ở điểm nào

Ví dụ về chi phí/hiệu năng và OpenPipe

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News