1 bình luận

 
GN⁺ 2024-02-21
Ý kiến trên Hacker News
  • Tóm tắt bình luận thứ nhất:

      • Bản demo công nghệ này rất ấn tượng, và thật tuyệt khi đây là một bản demo mở thực sự, ai cũng có thể thử mà không cần tạo tài khoản.
      • Việc tạo token nhanh hơn hẳn những gì từng thấy trước đây đến mức có cảm giác như siêu thực.
      • Người bình luận nói rằng thật bất ngờ vì nó vẫn chưa bị các gã khổng lồ như Microsoft, Apple, Google thâu tóm.
  • Tóm tắt bình luận thứ hai:

      • Vấn đề chính của LPUs của Groq là hoàn toàn không có HBM và chỉ có lượng SRAM siêu nhanh rất ít (230 MiB).
      • Cần đến 256 LPU (tương đương 4 tủ máy chủ) để chạy một mô hình duy nhất.
      • Điều này hữu ích khi có rất nhiều khách hàng cho một mô hình đơn lẻ, nhưng khó áp dụng nếu cần nhiều mô hình và tinh chỉnh.
  • Tóm tắt bình luận thứ ba:

      • Demo rất ấn tượng, nhưng cần thận trọng khi chưa có benchmark.
      • Có cách làm cho mô hình nhanh hơn bằng cách hy sinh chất lượng mô hình, chẳng hạn như lượng tử hóa.
      • Hy vọng mức tiến bộ của LLM theo token/giây sẽ tiếp tục như cách CPU đã tiến hóa hàng chục năm trước.
  • Tóm tắt bình luận thứ tư:

      • Một nhân viên Groq cho biết, nếu có thắc mắc gì thì cứ hỏi bất cứ lúc nào.
      • Anh ấy cho biết một phần đường ống biên dịch của Groq được viết bằng Haskell.
  • Tóm tắt bình luận thứ năm:

      • Demo ấn tượng nhưng yêu cầu phần cứng và chi phí khiến việc tiếp cận chỉ phù hợp với các tập đoàn lớn.
      • Hỏi khi nào giá cả sẽ đủ rẻ để cả người chơi nghiệp dư cũng có thể dùng được.
      • Demo CNN Vapi cũng rất ấn tượng, nhưng cũng chỉ ra rằng có những dịch vụ khác cho phép hội thoại tự nhiên nhờ độ trễ âm thanh thấp hơn.
      • Chia sẻ suy nghĩ về ngưỡng token/giây cho tương tác thời gian thực và cho rằng tốc độ cao hơn mức đó có thể hữu ích cho giao tiếp giữa các AI.
  • Tóm tắt bình luận thứ sáu:

      • Đặt câu hỏi tại sao công nghệ này lại đáng chú ý như vậy và tại sao không tăng công suất tính toán hơn để cải thiện độ trễ phản hồi.
      • Trích dẫn biểu đồ của NVIDIA cho thấy H100 có thể chạy mô hình 70B ở trên 500 token/giây.
  • Tóm tắt bình luận thứ bảy:

      • Chỉ ra rằng nếu không truy cập được một font chữ cụ thể thì trang sẽ không hoạt động và yêu cầu phải được thử đi thử lại.
      • Người dùng nhận ra vấn đề này vì trình duyệt mặc định chặn loại trình theo dõi này.
  • Tóm tắt bình luận thứ tám:

      • Hỏi liệu công nghệ này có liên quan đến mô hình Grok của x.ai không.
      • Thực tế đã dùng thử và rất ấn tượng với tốc độ.
  • Tóm tắt bình luận thứ chín:

      • Khen ngợi Groq và mixtral.
      • Đã trải nghiệm một demo tạo file YAML của GitLab CI bằng prompt cụ thể.
  • Tóm tắt bình luận thứ mười:

      • Hiệu năng API của Groq cũng xấp xỉ mức này.
      • Chia sẻ qua benchmark theo thời gian rằng đã duy trì được trên 400 token/giây liên tục.