26 điểm bởi xguru 2024-02-29 | 1 bình luận | Chia sẻ qua WhatsApp

Tổng hợp các câu trả lời cho câu hỏi được đăng trên HN

  • Đã giúp hàng chục khách hàng chuyển từ GPT-4/GPT-3.5 trên OpenPipe sang các mô hình tinh chỉnh riêng
    • Phản ứng phổ biến nhất là: "Wow, tôi không ngờ nó lại hoạt động tốt đến vậy với ít công sức như thế"
    • Trong hầu hết tác vụ, Mistral 7B được fine-tune vượt qua GPT-3.5 với chi phí thấp hơn nhiều
    • Trong một số trường hợp sử dụng, hiệu năng tương đương hoặc tốt hơn GPT-4 (đặc biệt với các tác vụ như phân loại, trích xuất thông tin và tóm tắt)
  • Đã dùng Mistral-Instruct-0.1 để tóm tắt cuộc gọi/email, Mixtral cho khai thác hợp đồng, và OpenChat để tăng cường chatbot tác nhân có công cụ RAG
    • Trải nghiệm rất tốt, và đánh đổi với INT8 là chấp nhận được cho đến khi phần cứng FP8(FP4) trở nên phổ biến và rẻ hơn
    • Chi phí on-premise đã được hấp thụ nhờ dùng thiết bị legacy A100 và V100 để chạy hàng triệu lượt tương tác
  • Đang dùng Continue cùng Ollama, và LLM chính là deepseek-coder 7b. Thiết lập này tốt ngang ChatGPT 4, ưu tiên chạy cục bộ, và nhìn chung rất hài lòng
  • Đã tinh chỉnh LLM để thực hiện các tác vụ kỹ thuật và nó hoạt động rất tốt. Tuy nhiên, việc đánh giá LLM lại khó hơn tưởng tượng, và nhận ra rằng GPT-4 nói chung không hẳn xuất sắc đến vậy
  • Khi cần trích xuất hoặc xử lý dữ liệu cho hơn 10.000 bản ghi, thích dùng mô hình cục bộ hơn. Dịch vụ hosted lúc này sẽ chậm và dễ lỗi. Mistral 7B được fine-tune (OpenChat là tốt nhất) xử lý dữ liệu rất nhanh. Dùng ChatGPT-4 để tóm tắt thông tin cho các prompt phức tạp, rồi chạy phần đó trên mô hình cục bộ. Cho rằng tình hình sẽ ngày càng tốt hơn
  • Hỗ trợ cả API của OpenAI và các thư viện on-device (ví dụ: llama.cpp) trong ứng dụng và sản phẩm doanh nghiệp. API và thư viện rất giống nhau nên quá trình chuyển đổi gần như trong suốt với người dùng. Cũng sắp hỗ trợ API của các nền tảng khác, và có thể tích hợp dễ như OpenAI.
  • Đã dùng Mistral 7B trên chuyến bay không có Wi‑Fi; nó khá tốt trong việc tìm thông tin cần thiết, nhưng khi đưa ra hướng dẫn từng bước thì kết quả lúc được lúc không.
  • Trong quá trình xây dựng Double.bot, đã thử nhiều mô hình nhưng cuối cùng quay lại gpt4. Các mô hình khác thú vị, nhưng chỉ cần bỏ lỡ 1 trong 100 câu hỏi mà gpt4 giải được là đã thấy thất vọng. Hiện tại nhận thấy nhiều giá trị hơn ở việc xây dựng tính năng xung quanh mô hình, như khắc phục các vấn đề của GitHub copilot (tự động hoàn thành đóng ngoặc đúng cách, tự động import khi chấp nhận gợi ý, tắt gợi ý khi đang viết chú thích để đỡ gây phiền, hoàn thành giữa dòng, v.v.). Hy vọng trong vòng 6 tháng, các mô hình mã nguồn mở sẽ bắt kịp gpt4.
  • Nhìn chung cho rằng Llama 2 khá tệ, đặc biệt ở các ngôn ngữ không phải tiếng Anh. Đã có kết quả rất tốt với Mixtral cho tác vụ chat. Tất nhiên, so với ChatGPT thực thụ thì tất cả vẫn mang cảm giác như Frankenstein. Có lúc chúng trông tương tự và hoạt động tốt, nhưng cũng có lúc lại sinh ra rác hoặc artifact hoàn toàn lộn xộn, khiến người ta tự hỏi có phải khâu fine-tune đã bị làm qua loa hay không
  • Chúng tôi để mô hình riêng xử lý bước đầu, sau đó nếu kết quả của mô hình riêng không đủ chắc chắn thì mới escalte lên gpt
  • Dự đoán trong năm 2024 sẽ có nhiều người rời OpenAI hơn vì đã trải nghiệm chi phí và độ trễ ở các đối thủ cạnh tranh (ít được kiểm chứng/mở rộng hơn). Tốc độ và chất lượng thường phải đánh đổi với nhau, và đã thấy nhiều nhà cung cấp nhanh hơn OpenAI hơn 3 lần trong khi cho chất lượng ít nhất bằng 1/3
  • Đang dùng Mixtral 8x7b (q5) cho các trường hợp như scripting, tìm ý tưởng và/hoặc các định nghĩa luôn cần fact-check. Hiện đang chạy lmstudio trên M2 với 96GB RAM. Tuy nhiên đang cân nhắc chuyển sang Ollama hoặc một giải pháp OSS khác

1 bình luận

 
nullptr 2024-02-29

Vì là HN nên có lẽ cần lưu ý rằng tiêu chuẩn ở đây là tiếng Anh.