1 điểm bởi GN⁺ 2025-12-15 | 1 bình luận | Chia sẻ qua WhatsApp
  • Mô hình Kimi K2 1T đã được chạy trên hai chip M3 Ultra với 512GB bộ nhớ mỗi máy
  • Một bài đăng trên Twitter đề cập đến môi trường chạy và cấu hình phần cứng của mô hình này
  • Điểm đáng chú ý là một mô hình quy mô 1T đã được vận hành trên phần cứng Mac thương mại
  • Đây là một ví dụ cho thấy tiềm năng của tính toán AI hiệu năng cao dựa trên Apple Silicon
  • Một thử nghiệm kỹ thuật gợi mở việc mở rộng giới hạn chạy cục bộ của các mô hình ngôn ngữ lớn

Nội dung bài đăng trên Twitter

  • Bài đăng nêu rõ mô hình Kimi K2 1T đã chạy trên hai máy M3 Ultra (mỗi máy có 512GB bộ nhớ)
  • Không đề cập thêm về các chỉ số hiệu năng hay kết quả cụ thể
  • Ngoài tweet đó, không có thêm bối cảnh hay thông tin kỹ thuật chi tiết nào được cung cấp

1 bình luận

 
GN⁺ 2025-12-15
Ý kiến trên Hacker News
  • Kimi K2 thực sự là một mô hình kỳ lạ
    Nó không thông minh hơn Opus 4.5 hay 5.2-Pro, nhưng phong cách viết rất độc đáo và có giọng điệu thẳng thắn như đang nói chuyện với con người
    Khi viết các đoạn ngắn như email, nó thuộc hàng tốt nhất hiện nay, và không ngần ngại chỉ ra lỗi hoặc chỉnh lại những điều vô nghĩa trong cuộc trò chuyện
    Cảm giác như nó được huấn luyện hoàn toàn khác với các mô hình khác, nên hữu ích cho biên tập hơn nhiều so với phân tích dữ liệu
    Vì vậy tôi thực sự đang trả tiền đăng ký Kimi để dùng
    • Tôi cũng nghĩ vậy. Với giao tiếp ngắn, Kimi K2 là vô đối
      Trí tuệ cảm xúc (emotional intelligence) của nó rất tốt, đọc được sắc thái và ý đồ của tin nhắn, rồi chỉnh câu chữ có xét cả bối cảnh xã hội
      Tôi không biết Moonshot đã huấn luyện nó thế nào, nhưng điểm này thực sự rất đáng chú ý
      Nó đứng đầu bài đánh giá trí tuệ cảm xúc trên EQ-bench, và điều đó khớp chính xác với cảm nhận của tôi
    • Đây là mô hình duy nhất liên tục vượt qua tốt bài test Clocks, một benchmark AI mà tôi rất thích
    • Đây là mô hình duy nhất thành thật chỉ ra khi tôi sai
      Trải nghiệm nhìn thấy một chatbot nói kiểu “hãy cung cấp ví dụ có thể tái hiện được” thật sự rất lạ
      Nhân tiện, bạn cũng có thể dùng Kimi K2 trên Kagi
    • Sonnet 4.5 cũng hay phản bác người dùng theo cách tương tự, nhưng phần lớn là hiểu lầm do thiếu ngữ cảnh
      Tôi tò mò không biết Kimi K2 chính xác đến mức nào ở điểm này
      Cuối cùng lại thấy cốt lõi của mô hình chẳng phải là instruction following hay sao
    • Có lẽ chính vì đặc điểm này mà điểm EQ-bench của nó cao
  • Kimi K2 là một mô hình thực sự ấn tượng
    Nhờ thái độ không tâng bốc quá mức, nó rất hữu ích để kiểm chứng logic
    Các mẫu ChatGPT trước đây hay khen mọi thứ, nhưng Kimi thì nếu yêu cầu có thể phê bình không nương tay đến mức nghi ngờ cả trí tuệ lẫn tổ tiên của bạn
    • Nếu yêu cầu thì nó thật sự chuyển sang chế độ roast. Khá hữu ích để giữ tập trung
    • Trước đây tôi từng bật Grok trong xe Tesla, rồi nhận diện giọng nói bị lỗi nên rơi vào tình huống khá ngượng
      Mô hình đó cũng có tính cách hoàn toàn không nịnh nọt như Kimi
  • Bản M3 Ultra 512GB có giá $9,499
    Liên kết chính thức của Apple
    • Hàng tân trang có thể mua với giá $8,070 tại liên kết này
      Ngoài ra còn có thể giảm thêm 10% bằng gift card
  • Tôi tò mò liệu có phiên bản Linux của cấu hình này không
    Tôi có nghe nói về hỗ trợ RDNA, nhưng không rõ nó phụ thuộc phần cứng đến mức nào (có cần ConnectX hay Apple Thunderbolt không), hay NIC 10G thông thường cũng dùng được
    • Để đạt hiệu năng mức production thì cần phần cứng tương thích RDNA
      Tuy vậy, vLLM cũng hỗ trợ cụm nhiều node dựa trên Ethernet thông thường
  • Như mọi khi, các tuyên bố về hiệu năng gây hiểu lầm vì không nêu rõ độ dài ngữ cảnh hay điều kiện prefill
    Nếu dùng context dài, có thể phải đợi vài phút mới có câu trả lời
  • Tôi cũng muốn mua vài bộ như thế này, nhưng nghĩ đến khấu hao thì có lẽ vẫn còn quá sớm
    Có vẻ chỉ trong vài năm nữa chúng sẽ rẻ hơn rất nhiều
    • Trước khi mua thì nhất định phải kiểm tra benchmark tốc độ thực tế
      Không thể chỉ tin vào câu “nó chạy được”, vì tốc độ xử lý trong bối cảnh context dài là chuyện hoàn toàn khác
    • Cá nhân tôi thấy mua loại thiết bị này không hợp lý về mặt kinh tế
      Với cùng số tiền đó, bạn có thể mua được lượng sử dụng cloud lớn hơn rất nhiều
      Hơn nữa cũng không chạy 24/7 nên hiệu suất sử dụng thấp
      Với mô hình mã nguồn mở, dùng các dịch vụ độ trễ cực thấp như Groq hay Cerebras sẽ tiện hơn nhiều
    • Lý do chạy mô hình cục bộ là vì quyền riêng tư, chứ không phải vì chi phí hay độ trễ
    • Tôi hy vọng bản cập nhật tiếp theo sẽ dùng biến thể chip M5
    • Có lẽ nên đợi đến khi giá RAM ổn định hơn
  • Tôi tò mò hiện nay những benchmark nào còn thực sự có giá trị
    Tôi thử nhiều mô hình trong Cursor, nhưng Deepseek v3.2 hay Kimi K2 không hoạt động tốt vì lỗi định dạng, và cũng thiếu nhiều mô hình khác
    Tôi đặc biệt muốn biết các benchmark cho lĩnh vực ngoài web như C++ hoặc Rust
  • Cần phải nói rõ rằng đây là phiên bản lượng tử hóa 4bit (quant) của mô hình. Dù vậy vẫn rất ấn tượng
    • Kimi K2 ngay từ đầu đã được thiết kế với mục tiêu tối ưu cho 4bit
    • Nếu số lượng tham số đã ở mức hàng nghìn tỷ, thì tôi cho rằng lượng tử hóa vốn đã là tiền đề mặc định
  • Tôi cũng tò mò liệu tăng tốc token pre-fill của Exo Labs có thể chạy trên DGX Spark hay không
    Liệu kết hợp 2 máy Spark với 2 máy Mac Studio có thể đạt tốc độ suy luận tương đương 2 máy M5 Ultra không
  • Tôi đang tự hỏi có phải đây chính là mô hình đã thắng cuộc thi vẽ đồng hồ thời gian thực gần đây không