17 điểm bởi xguru 2023-12-15 | 2 bình luận | Chia sẻ qua WhatsApp
  • SLM: Mô hình ngôn ngữ nhỏ
  • Dù là mô hình 2.7B, vẫn cho hiệu năng ngang bằng hoặc tốt hơn các mô hình lớn hơn tới 25 lần
    • Vượt hiệu năng của Mistral 7B và Llama-7B/13B
    • Trong suy luận nhiều bước như lập trình và toán học, còn vượt cả mô hình Llama-2-70B lớn hơn 25 lần
    • Nhỏ hơn Google Gemini Nano 2, nhưng cho hiệu năng tương đương hoặc tốt hơn
  • Có thể thực hiện các tác vụ tương tự như tạo văn bản và mô tả hình ảnh với ít sức mạnh tính toán hơn so với các mô hình như GPT-4 và Llama-2
  • Nhờ kích thước nhỏ, đây là sân chơi lý tưởng cho các nhà nghiên cứu, bao gồm khả năng diễn giải theo hướng cơ học, cải thiện an toàn hoặc thử nghiệm fine-tuning cho nhiều tác vụ khác nhau

2 bình luận

 
xguru 2023-12-15

Trọng số có tại đây https://huggingface.co/microsoft/phi-2

 
xguru 2023-12-15
Ý kiến trên Hacker News
  • So sánh số lượng tham số giữa GPT-3 và Phi-2
    • GPT-3 có 174 tỷ tham số.
    • Phi-2 có 2,7 tỷ tham số, tức nhỏ hơn GPT-3 khoảng 65 lần.
  • So sánh lượng dữ liệu huấn luyện
    • GPT-3 được huấn luyện với 300 tỷ token.
    • Phi-2 được huấn luyện với 1.400 tỷ token, tức nhiều dữ liệu hơn GPT-3 khoảng 5 lần.
  • Việc con người tiếp thu ngôn ngữ và trí tuệ nhân tạo
    • Một em bé cần khoảng 30 triệu dữ liệu học tập "tương đương token" để học ngôn ngữ.
    • Điều này cho thấy cấu trúc sinh học của con người được chuyên biệt cho việc tiếp thu ngôn ngữ, đồng thời có những "hướng dẫn" hoặc ràng buộc mạnh mẽ giúp thu hẹp không gian giả thuyết của các ngôn ngữ mà con người có thể dùng.
    • Có ý kiến đặt câu hỏi liệu mô hình ngôn ngữ có thể tìm ra một cấu trúc tương tự để học với ít dữ liệu hơn hay không.
  • Việc công khai trọng số của Phi-2
    • Trọng số của Phi-2 đã được công khai, nhưng chỉ có thể tải xuống sau khi đăng nhập vào Azure Studio.
    • Có thể tải xuống bằng cách tìm trang Phi-2 trong Azure AI Studio rồi nhấp vào tab artifacts.
  • Chi phí huấn luyện Phi-2
    • Phi-2 được huấn luyện trong 14 ngày trên 96 GPU A100.
    • Điều này đồng nghĩa chi phí huấn luyện vào khoảng 30.000 USD.
    • Nếu chi phí huấn luyện LLM (Large Language Model) trở nên rẻ hơn cả chi phí mua ô tô, điều đó có thể đóng góp lớn cho việc dân chủ hóa AI.
  • Giới hạn chỉ dùng cho nghiên cứu của Phi-2
    • Dù có giới hạn "chỉ dùng cho nghiên cứu", hiệu năng của Phi-2 vẫn làm tăng khả năng sử dụng cục bộ trên nhiều thiết bị.
    • Có ý kiến cho rằng hiệu năng của nó rất ấn tượng, khiến tương lai vừa hứa hẹn vừa đáng sợ.
  • Cuộc cạnh tranh của các mô hình nhỏ
    • Gần đây đang có sự cạnh tranh rất gay gắt trong lĩnh vực mô hình nhỏ.
    • Mục tiêu chính của các mô hình nhỏ này là được triển khai cục bộ trên điện thoại/laptop, qua đó dẫn dắt thế hệ ứng dụng/giao diện người dùng mới.
  • So sánh hiệu năng giữa Phi-2 và Mistral 7B
    • Việc Phi-2 kích thước 2,7 tỷ cho hiệu năng tốt hơn Mistral 7B kích thước 7 tỷ là điều rất ấn tượng.
  • Vấn đề truy cập website
    • Không thể truy cập website, nhưng có thể xem qua bản cache.
  • Cách phân phối Phi-2
    • Phi-1.5 được phát hành trên huggingface, nhưng Phi-2 chỉ được thêm vào Azure AI Studio, dường như để khuyến khích các nhà phát triển đăng ký.
    • Có ý kiến thắc mắc vì sao Microsoft không tham gia vào "GitHub của ML" như huggingface.
  • Khả năng tải xuống mô hình Phi-2
    • Có câu hỏi liệu có thể tải mô hình Phi-2 về máy cục bộ hay chỉ có thể dùng trên Azure.