Mô hình Kimi K2 1T chạy trên hai máy M3 Ultra 512GB

(twitter.com/awnihannun)

1 điểm bởi GN⁺ 2025-12-15 | 1 bình luận | Chia sẻ qua WhatsApp

Mô hình Kimi K2 1T đã được chạy trên hai chip M3 Ultra với 512GB bộ nhớ mỗi máy
Một bài đăng trên Twitter đề cập đến môi trường chạy và cấu hình phần cứng của mô hình này
Điểm đáng chú ý là một mô hình quy mô 1T đã được vận hành trên phần cứng Mac thương mại
Đây là một ví dụ cho thấy tiềm năng của tính toán AI hiệu năng cao dựa trên Apple Silicon
Một thử nghiệm kỹ thuật gợi mở việc mở rộng giới hạn chạy cục bộ của các mô hình ngôn ngữ lớn

Nội dung bài đăng trên Twitter

Bài đăng nêu rõ mô hình Kimi K2 1T đã chạy trên hai máy M3 Ultra (mỗi máy có 512GB bộ nhớ)
Không đề cập thêm về các chỉ số hiệu năng hay kết quả cụ thể
Ngoài tweet đó, không có thêm bối cảnh hay thông tin kỹ thuật chi tiết nào được cung cấp

1 bình luận

GN⁺ 2025-12-15

Ý kiến trên Hacker News

Kimi K2 thực sự là một mô hình kỳ lạ
Nó không thông minh hơn Opus 4.5 hay 5.2-Pro, nhưng phong cách viết rất độc đáo và có giọng điệu thẳng thắn như đang nói chuyện với con người
Khi viết các đoạn ngắn như email, nó thuộc hàng tốt nhất hiện nay, và không ngần ngại chỉ ra lỗi hoặc chỉnh lại những điều vô nghĩa trong cuộc trò chuyện
Cảm giác như nó được huấn luyện hoàn toàn khác với các mô hình khác, nên hữu ích cho biên tập hơn nhiều so với phân tích dữ liệu
Vì vậy tôi thực sự đang trả tiền đăng ký Kimi để dùng
- Tôi cũng nghĩ vậy. Với giao tiếp ngắn, Kimi K2 là vô đối
  Trí tuệ cảm xúc (emotional intelligence) của nó rất tốt, đọc được sắc thái và ý đồ của tin nhắn, rồi chỉnh câu chữ có xét cả bối cảnh xã hội
  Tôi không biết Moonshot đã huấn luyện nó thế nào, nhưng điểm này thực sự rất đáng chú ý
  Nó đứng đầu bài đánh giá trí tuệ cảm xúc trên EQ-bench, và điều đó khớp chính xác với cảm nhận của tôi
- Đây là mô hình duy nhất liên tục vượt qua tốt bài test Clocks, một benchmark AI mà tôi rất thích
- Đây là mô hình duy nhất thành thật chỉ ra khi tôi sai
  Trải nghiệm nhìn thấy một chatbot nói kiểu “hãy cung cấp ví dụ có thể tái hiện được” thật sự rất lạ
  Nhân tiện, bạn cũng có thể dùng Kimi K2 trên Kagi
- Sonnet 4.5 cũng hay phản bác người dùng theo cách tương tự, nhưng phần lớn là hiểu lầm do thiếu ngữ cảnh
  Tôi tò mò không biết Kimi K2 chính xác đến mức nào ở điểm này
  Cuối cùng lại thấy cốt lõi của mô hình chẳng phải là instruction following hay sao
- Có lẽ chính vì đặc điểm này mà điểm EQ-bench của nó cao
Kimi K2 là một mô hình thực sự ấn tượng
Nhờ thái độ không tâng bốc quá mức, nó rất hữu ích để kiểm chứng logic
Các mẫu ChatGPT trước đây hay khen mọi thứ, nhưng Kimi thì nếu yêu cầu có thể phê bình không nương tay đến mức nghi ngờ cả trí tuệ lẫn tổ tiên của bạn
- Nếu yêu cầu thì nó thật sự chuyển sang chế độ roast. Khá hữu ích để giữ tập trung
- Trước đây tôi từng bật Grok trong xe Tesla, rồi nhận diện giọng nói bị lỗi nên rơi vào tình huống khá ngượng
  Mô hình đó cũng có tính cách hoàn toàn không nịnh nọt như Kimi
Bản M3 Ultra 512GB có giá $9,499
Liên kết chính thức của Apple
- Hàng tân trang có thể mua với giá $8,070 tại liên kết này
  Ngoài ra còn có thể giảm thêm 10% bằng gift card
Tôi tò mò liệu có phiên bản Linux của cấu hình này không
Tôi có nghe nói về hỗ trợ RDNA, nhưng không rõ nó phụ thuộc phần cứng đến mức nào (có cần ConnectX hay Apple Thunderbolt không), hay NIC 10G thông thường cũng dùng được
- Để đạt hiệu năng mức production thì cần phần cứng tương thích RDNA
  Tuy vậy, vLLM cũng hỗ trợ cụm nhiều node dựa trên Ethernet thông thường
Như mọi khi, các tuyên bố về hiệu năng gây hiểu lầm vì không nêu rõ độ dài ngữ cảnh hay điều kiện prefill
Nếu dùng context dài, có thể phải đợi vài phút mới có câu trả lời
Tôi cũng muốn mua vài bộ như thế này, nhưng nghĩ đến khấu hao thì có lẽ vẫn còn quá sớm
Có vẻ chỉ trong vài năm nữa chúng sẽ rẻ hơn rất nhiều
- Trước khi mua thì nhất định phải kiểm tra benchmark tốc độ thực tế
  Không thể chỉ tin vào câu “nó chạy được”, vì tốc độ xử lý trong bối cảnh context dài là chuyện hoàn toàn khác
- Cá nhân tôi thấy mua loại thiết bị này không hợp lý về mặt kinh tế
  Với cùng số tiền đó, bạn có thể mua được lượng sử dụng cloud lớn hơn rất nhiều
  Hơn nữa cũng không chạy 24/7 nên hiệu suất sử dụng thấp
  Với mô hình mã nguồn mở, dùng các dịch vụ độ trễ cực thấp như Groq hay Cerebras sẽ tiện hơn nhiều
- Lý do chạy mô hình cục bộ là vì quyền riêng tư, chứ không phải vì chi phí hay độ trễ
- Tôi hy vọng bản cập nhật tiếp theo sẽ dùng biến thể chip M5
- Có lẽ nên đợi đến khi giá RAM ổn định hơn
Tôi tò mò hiện nay những benchmark nào còn thực sự có giá trị
Tôi thử nhiều mô hình trong Cursor, nhưng Deepseek v3.2 hay Kimi K2 không hoạt động tốt vì lỗi định dạng, và cũng thiếu nhiều mô hình khác
Tôi đặc biệt muốn biết các benchmark cho lĩnh vực ngoài web như C++ hoặc Rust
Cần phải nói rõ rằng đây là phiên bản lượng tử hóa 4bit (quant) của mô hình. Dù vậy vẫn rất ấn tượng
- Kimi K2 ngay từ đầu đã được thiết kế với mục tiêu tối ưu cho 4bit
- Nếu số lượng tham số đã ở mức hàng nghìn tỷ, thì tôi cho rằng lượng tử hóa vốn đã là tiền đề mặc định
Tôi cũng tò mò liệu tăng tốc token pre-fill của Exo Labs có thể chạy trên DGX Spark hay không
Liệu kết hợp 2 máy Spark với 2 máy Mac Studio có thể đạt tốc độ suy luận tương đương 2 máy M5 Ultra không
Tôi đang tự hỏi có phải đây chính là mô hình đã thắng cuộc thi vẽ đồng hồ thời gian thực gần đây không

Mô hình Kimi K2 1T chạy trên hai máy M3 Ultra 512GB

Nội dung bài đăng trên Twitter

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News