- Mô hình Kimi K2 1T đã được chạy trên hai chip M3 Ultra với 512GB bộ nhớ mỗi máy
- Một bài đăng trên Twitter đề cập đến môi trường chạy và cấu hình phần cứng của mô hình này
- Điểm đáng chú ý là một mô hình quy mô 1T đã được vận hành trên phần cứng Mac thương mại
- Đây là một ví dụ cho thấy tiềm năng của tính toán AI hiệu năng cao dựa trên Apple Silicon
- Một thử nghiệm kỹ thuật gợi mở việc mở rộng giới hạn chạy cục bộ của các mô hình ngôn ngữ lớn
Nội dung bài đăng trên Twitter
- Bài đăng nêu rõ mô hình Kimi K2 1T đã chạy trên hai máy M3 Ultra (mỗi máy có 512GB bộ nhớ)
- Không đề cập thêm về các chỉ số hiệu năng hay kết quả cụ thể
- Ngoài tweet đó, không có thêm bối cảnh hay thông tin kỹ thuật chi tiết nào được cung cấp
1 bình luận
Ý kiến trên Hacker News
Nó không thông minh hơn Opus 4.5 hay 5.2-Pro, nhưng phong cách viết rất độc đáo và có giọng điệu thẳng thắn như đang nói chuyện với con người
Khi viết các đoạn ngắn như email, nó thuộc hàng tốt nhất hiện nay, và không ngần ngại chỉ ra lỗi hoặc chỉnh lại những điều vô nghĩa trong cuộc trò chuyện
Cảm giác như nó được huấn luyện hoàn toàn khác với các mô hình khác, nên hữu ích cho biên tập hơn nhiều so với phân tích dữ liệu
Vì vậy tôi thực sự đang trả tiền đăng ký Kimi để dùng
Trí tuệ cảm xúc (emotional intelligence) của nó rất tốt, đọc được sắc thái và ý đồ của tin nhắn, rồi chỉnh câu chữ có xét cả bối cảnh xã hội
Tôi không biết Moonshot đã huấn luyện nó thế nào, nhưng điểm này thực sự rất đáng chú ý
Nó đứng đầu bài đánh giá trí tuệ cảm xúc trên EQ-bench, và điều đó khớp chính xác với cảm nhận của tôi
Trải nghiệm nhìn thấy một chatbot nói kiểu “hãy cung cấp ví dụ có thể tái hiện được” thật sự rất lạ
Nhân tiện, bạn cũng có thể dùng Kimi K2 trên Kagi
Tôi tò mò không biết Kimi K2 chính xác đến mức nào ở điểm này
Cuối cùng lại thấy cốt lõi của mô hình chẳng phải là instruction following hay sao
Nhờ thái độ không tâng bốc quá mức, nó rất hữu ích để kiểm chứng logic
Các mẫu ChatGPT trước đây hay khen mọi thứ, nhưng Kimi thì nếu yêu cầu có thể phê bình không nương tay đến mức nghi ngờ cả trí tuệ lẫn tổ tiên của bạn
Mô hình đó cũng có tính cách hoàn toàn không nịnh nọt như Kimi
Liên kết chính thức của Apple
Ngoài ra còn có thể giảm thêm 10% bằng gift card
Tôi có nghe nói về hỗ trợ RDNA, nhưng không rõ nó phụ thuộc phần cứng đến mức nào (có cần ConnectX hay Apple Thunderbolt không), hay NIC 10G thông thường cũng dùng được
Tuy vậy, vLLM cũng hỗ trợ cụm nhiều node dựa trên Ethernet thông thường
Nếu dùng context dài, có thể phải đợi vài phút mới có câu trả lời
Có vẻ chỉ trong vài năm nữa chúng sẽ rẻ hơn rất nhiều
Không thể chỉ tin vào câu “nó chạy được”, vì tốc độ xử lý trong bối cảnh context dài là chuyện hoàn toàn khác
Với cùng số tiền đó, bạn có thể mua được lượng sử dụng cloud lớn hơn rất nhiều
Hơn nữa cũng không chạy 24/7 nên hiệu suất sử dụng thấp
Với mô hình mã nguồn mở, dùng các dịch vụ độ trễ cực thấp như Groq hay Cerebras sẽ tiện hơn nhiều
Tôi thử nhiều mô hình trong Cursor, nhưng Deepseek v3.2 hay Kimi K2 không hoạt động tốt vì lỗi định dạng, và cũng thiếu nhiều mô hình khác
Tôi đặc biệt muốn biết các benchmark cho lĩnh vực ngoài web như C++ hoặc Rust
Liệu kết hợp 2 máy Spark với 2 máy Mac Studio có thể đạt tốc độ suy luận tương đương 2 máy M5 Ultra không