22 điểm bởi xguru 2024-01-23 | 4 bình luận | Chia sẻ qua WhatsApp
  • Đã tạo một ứng dụng khám phá nghề nghiệp dựa trên AI, nhưng khi tăng trưởng bùng nổ, chi phí GPT-4 bắt đầu vượt quá 100 USD mỗi ngày
  • Cách đã dùng để giảm chi phí AI tới 99% trong khi vẫn giảm độ trễ và giữ nguyên chất lượng
    • Trước tiên dùng mô hình mạnh nhất (GPT-4) để tạo ra kết quả, sau đó dùng chính các kết quả đó để fine-tune một mô hình nhỏ hơn
    • Lưu lại để có thể dễ dàng export các yêu cầu/phản hồi AI. Sử dụng Helicone AI. Chỉ cần thay nguyên OpenAI API là các yêu cầu AI sẽ được lưu vào bảng
    • Khi đã lưu được khoảng 100~500 cặp yêu cầu/phản hồi, export ra và tinh lọc dữ liệu để đạt chất lượng tốt
    • Dùng bộ dữ liệu này để fine-tune Mixtral 8x7B thông qua các dịch vụ hosting như Together/Anyscale
    • Thay GPT-4 bằng mô hình mới đã được fine-tune

4 bình luận

 
kuroneko 2024-01-23

Vậy là như thế này thì có nghĩa là đã vi phạm cả điều khoản của GPT-4 lẫn giấy phép của Mixtral đúng không...? @_@

 
xguru 2024-01-23

Chắc là vậy. Có lẽ nhiều người cũng nghĩ thế vì chuyện này không phải kiểu lộ rõ ra bên ngoài.

 
kuroneko 2024-01-23

Trước đây cũng có những trường hợp âm thầm dùng nội bộ hoặc công khai cho mục đích nghiên cứu,
nhưng kiểu quảng bá thẳng thừng rằng “chúng tôi đã dùng nó đây!” như thế này thì đúng là hơi... lạ thật.

Không biết có bị nói gì không nhỉ...?

 
xguru 2024-01-23

Ý kiến Hacker News

  • Hầu hết các công ty công nghệ, ngoài các nghiên cứu cốt lõi, trong ít nhất nửa năm qua đã dùng GPT-4 hoặc 3.5 để tạo dữ liệu huấn luyện, rồi tinh chỉnh QLoRA dựa trên đó và phát hành như một mô hình AI “độc quyền” của mình. Ban lãnh đạo thì tuyên bố đây là thành tựu lớn và nói công ty là bên dẫn đầu trong AI cho “một ngành cụ thể”. Quá trình này gần như không đòi hỏi nhiều kiến thức về machine learning và có thể thực hiện với chi phí cloud computing dưới $1,000. Nhưng trong công việc thực tế, kết quả thu được chỉ ở mức GPT-3.5, và đặc biệt nếu dùng GPU đám mây thì rất khó cạnh tranh với GPT-3.5 về mặt chi phí.
  • Tôi đã thử xem ứng dụng Wanderer của người này, nhưng thấy rất đáng ngờ vì không có điều khoản sử dụng, chính sách quyền riêng tư, mức giá rõ ràng hay bất kỳ nhắc tới nào về AI. Cách tiếp cận dùng GPT-4 rất phù hợp để khiến mô hình trông như thông minh ngang GPT-4, nhưng đến lúc quan trọng thì nó lại lộ ra là một mô hình kém hơn.
  • Theo tài liệu của Together.ai, Mixtral không thể dùng để fine-tune, và có vẻ họ cũng không chạy các mô hình đã fine-tune ở chế độ serverless. Điều này cho thấy câu chuyện không nhất quán.
  • Bỏ qua các vấn đề đạo đức và những điều kiện hạn chế, có thể người đăng bài thậm chí không cần đến GPT-4 để làm việc này. Nếu dùng Mixtral hoặc 3.5 để tạo 100 cặp prompt-phản hồi tốt đầu tiên rồi người đăng tự chỉnh tay, thì liệu có tệ hơn hoặc khó hơn bao nhiêu không?
  • Tôi đang phát triển một ứng dụng dự án phụ để tóm tắt nội dung ở quy mô lớn bằng AI, và hy vọng nó sẽ trở thành một SaaS tạo ra doanh thu. Để ra mắt nhanh, trước mắt tôi định dùng OpenAI, nhưng sau này tôi nghĩ việc chuyển sang tùy chọn LLM tự host sẽ khả thi cả về kinh tế lẫn kỹ thuật. Nếu ai có kinh nghiệm liên quan, rất mong được chia sẻ mẹo hay.
  • Tự hỏi liệu việc này có vi phạm điều khoản sử dụng của OpenAI hay không.
  • Có người yêu cầu giải thích cách chi phí được giảm xuống còn $1. Họ đã thay GPT-4 bằng một phiên bản Mixtral 8x7b đã được tinh chỉnh, nhưng như vậy vẫn cần nhiều GPU. Ngay cả khi đã tự lượng tử hóa mô hình thì vẫn còn chi phí phần cứng và hạ tầng, nên chắc chắn sẽ hơn $1. Hay là đang tự host?
  • Có nhắc đến phương pháp knowledge distillation cổ điển. Người này cho rằng ở đây sẽ không cần tới 8x7b để fine-tune, và chẳng bao lâu nữa các mô hình phi-2 hoặc phixtral sẽ đủ mạnh cho những miền ứng dụng như thế này.
  • Tôi đã có kết quả rất tốt với openhermes 7b chat mà không cần thay đổi gì, nó bao phủ 90% các trường hợp sử dụng GPT-4 và chạy nhanh. Khuyên dùng.