2 điểm bởi GN⁺ 2023-12-09 | 1 bình luận | Chia sẻ qua WhatsApp

1 bình luận

 
GN⁺ 2023-12-09
Ý kiến trên Hacker News
  • Ý kiến của Andrej Karpathy:

    • Giới thiệu về LLM (Large Language Model) mã nguồn mở mới của MistralAI
    • Các thiết lập đáng chú ý trong tệp params.json:
      • hidden_dim / dim = 14336/4096 => MLP mở rộng 3,5 lần
      • n_heads / n_kv_heads = 32/8 => multi-query gấp 4 lần
      • "moe" => Mixture of Experts, gấp 8 với top 2 chuyên gia
    • Có thể xem mã liên quan trên GitHub
    • Không có video quảng bá cường điệu về cuộc cách mạng AI
    • Vì hội nghị deep learning lớn là NeurIPS đang đến gần, nên đang có rất nhiều hoạt động AI diễn ra
  • Tin tức LLM khác:

    • Mistral/Yi đang áp đảo các mô hình khác trên bảng xếp hạng Hugging Face bằng các mô hình được fine-tune bằng kỹ thuật mới gọi là 'neural alignment'
    • Mô hình 7B "đánh bại" phần lớn các mô hình 70B
    • Mô hình 34B đang được thử nghiệm trông rất hứa hẹn
    • Nếu kỹ thuật này được áp dụng cho Mistral Moe, nó có thể trở thành một mô hình cực kỳ xuất sắc
    • Đây có thể là bước ngoặt quan trọng khi OSS chạy được trên máy desktop thách thức GPT-4
  • Cách tiếp cận của Mistral:

    • Mistral không quá chú trọng vào phần giải thích, nhưng phong cách này lại tạo cảm giác đáng tin hơn so với các công bố doanh nghiệp được trau chuốt của Google
  • Cách công bố đơn giản:

    • Ưa thích kiểu công bố đơn giản theo phong cách thập niên 90
  • Thông số mô hình của Mistral:

    • Công khai tệp params.json với kiến trúc Mixture of Experts
  • So sánh cách công bố của Mistral và Google:

    • Cách công bố mô hình của Mistral đối lập với màn ra mắt Gemini của Google
    • Mistral có vẻ được huấn luyện dựa trên Megablocks của Stanford
  • Chiến lược marketing của Mistral:

    • Trong khi các công ty khác tập trung vào landing page và video quảng bá, Mistral chỉ đơn giản công bố mô hình
  • Thông tin được Mistral công khai:

    • Sử dụng kiến trúc Mixture of Experts
    • 8 chuyên gia, mỗi chuyên gia có 7B tham số
    • Tổng cộng 96GB trọng số, không thể chạy trên GPU gia đình thông thường