13 điểm bởi GN⁺ 2025-02-12 | 3 bình luận | Chia sẻ qua WhatsApp
  • Rất nhiều tiền đang được đổ vào việc phát triển các công cụ AI, và nhiều dịch vụ đang vận hành trong tình trạng chấp nhận thua lỗ
  • Các dịch vụ của những tập đoàn công nghệ lớn đang được cung cấp miễn phí hoặc với giá rẻ để chiếm lĩnh thị trường, và rốt cuộc “khả năng cao là các mô hình AI sẽ bị thao túng bởi quảng cáo và lợi ích chính trị”
  • Giải pháp là “tự vận hành mô hình AI của riêng mình”
    • Những công ty như DeepSeek đang làm rung chuyển thị trường bằng cách công khai miễn phí các mô hình của họ. Các mô hình này có thể loại bỏ thiên lệch và có thể chạy trên phần cứng cá nhân

Thách thức khi xây dựng máy tính AI cá nhân

  • Để chạy LLM cục bộ, cần có card đồ họa mạnh của Nvidia hoặc mua thiết bị Apple
  • Càng có nhiều bộ nhớ thì càng có thể chạy mô hình lớn hơn, điều này cải thiện đáng kể chất lượng đầu ra
    • Cần GPU Nvidia hoặc thiết bị Apple (cả hai đều đắt)
    • Tối thiểu cần 24GB VRAM hoặc RAM trở lên
  • Cách tiết kiệm chi phí: mua thiết bị đã qua sử dụng cũng là một cách, và băng thông bộ nhớ cùng các thông số khác cũng rất quan trọng

Quá trình xây dựng máy tính AI chi phí thấp

  • Mục tiêu: xây dựng một hệ thống có thể chạy mô hình AI cục bộ với chi phí khoảng 1700 euro
  • Cấu hình cuối cùng:
    • HP Z440 workstation (Xeon 12 nhân, 128GB RAM)
    • 2 GPU Nvidia Tesla P40 (mỗi chiếc 24GB VRAM, tổng 48GB)
    • Nguồn NZXT C850 Gold
    • Gainward GT 1030 (GPU giả lập, dùng để xuất hình ảnh)
    • Quạt làm mát tùy chỉnh và bộ chuyển đổi nguồn

Các vấn đề kỹ thuật chính và cách giải quyết

1. Vấn đề tản nhiệt của GPU máy chủ

  • Tesla P40 được thiết kế để dùng trong môi trường máy chủ nên không có quạt tích hợp
  • Giải pháp: giá đỡ quạt in 3D và điều chỉnh luồng khí cưỡng bức
  • Điều chỉnh tốc độ quạt để cân bằng hợp lý giữa nhiệt độ và tiếng ồn

2. Vấn đề tương thích của workstation HP

  • HP giới hạn chỉ cho dùng linh kiện độc quyền của hãng
  • Cần mua thêm bộ nguồn và adapter kết nối bo mạch

3. Vấn đề khởi động trong BIOS

  • Tesla P40 không có cổng xuất hình → không thể khởi động
  • Giải quyết bằng cách gắn thêm GPU GT 1030 giá rẻ

Kết quả kiểm tra hiệu năng

1. Tốc độ suy luận (tokens per second)

  • Mistral-Small (mô hình 24B): 15.23
  • Gemma2 (mô hình 27B): 13.90
  • Qwen2.5-Coder (mô hình 32B): 10.75
  • Llama3.3 (mô hình 70B): 5.35
  • DeepSeek-R1 (mô hình 70B): 5.30

2. Mức tiêu thụ điện năng

  • Khi máy tính ở trạng thái chờ, hệ thống tiêu thụ khoảng 80W
  • Khi nạp mô hình 32B, mức tiêu thụ là 123W, và khi chạy có thể tăng lên 241W
  • Với mô hình 70B, mức tiêu thụ là 166W khi nạp và lên tới 293W khi đang chạy
  • Nói cách khác, mô hình càng lớn thì điện năng tiêu thụ càng tăng, và ngay cả khi mô hình chỉ được nạp trên GPU cũng vẫn tiêu tốn đáng kể điện năng, vì vậy chiến lược chỉ giữ mô hình khi cần là rất quan trọng

Kết luận: Xây dựng máy chủ AI cá nhân có phải là lựa chọn đáng giá?

  • Đã thành công trong việc xây dựng một hệ thống AI hoàn toàn độc lập
  • Có thể chạy cục bộ các mô hình cỡ trung với mức giá tương đối rẻ
  • Hài lòng vì có thể vận hành mô hình AI mà không cần thiết bị mới nhất và đắt đỏ
  • Xây dựng được một hệ thống linh hoạt để chuẩn bị cho những thay đổi dài hạn của công nghệ AI

3 bình luận

 
crawler 2025-02-13

Tôi cũng thấy có cả cấu hình chạy r1 chỉ bằng CPU và SSD, hoàn toàn không có GPU, nhưng cái này có vẻ hơi khó nói.

 
dhy0613 2025-02-13

| Cùng mức giá (1.799 USD), bạn có thể mua Mac Mini với 48GB bộ nhớ hợp nhất và M4 Pro. Máy tiêu thụ ít điện, chạy êm và có khả năng cho hiệu năng tốt hơn cấu hình này. Tôi đọc bài này rất thích, nhưng nếu ở cùng hoàn cảnh thì tôi sẽ mua Mac.

Đó đúng là điều tôi muốn nói, và thấy nó ngay trong phần ý kiến trên Hacker News.

Giá token đang ngày càng rẻ đi, nên nếu không phải để fine-tuning hay tạo ảnh thì cũng thấy không thật sự cần thiết lắm...

 
GN⁺ 2025-02-12
Ý kiến trên Hacker News
  • Tôi đã làm điều tương tự bằng cách mua K80 và M40 giá rẻ trên eBay. Driver của K80 cực kỳ đau đầu. 24GB VRAM với giá 50 USD thì hấp dẫn thật, nhưng tôi không khuyến nghị vì vấn đề driver. Tôi có một workstation HP với bộ nguồn 1200 watt nên có thể lắp GPU vào. Những GPU này không có khả năng tự làm mát, nên tôi đã in 3D một cái giá đỡ và gắn quạt Noctua để chạy 24/7. Nó hoạt động tốt hơn nhiều so với dự kiến và nhiệt độ không bao giờ vượt quá 60 độ. CPU cũng được hưởng lợi nhờ cách này. Quạt được đặt ở phía trước và phía sau case; quạt phía trước hút khí vào, quạt phía sau đẩy khí ra. Ngoài ra còn có hai quạt ngay trước GPU. Tôi mua workstation hàng refurb với giá 600 USD, GPU giá 120 USD, và quạt khoảng 60 USD. Tôi vẫn chưa tải file STL lên vì đây là một trường hợp sử dụng rất đặc thù.

  • Với cùng mức giá (1.799 USD), bạn có thể mua Mac Mini với 48GB bộ nhớ hợp nhất và m4 pro. Nó tiêu thụ ít điện hơn, chạy êm hơn, và có thể còn mạnh hơn cấu hình này. Tôi rất thích đọc bài viết này, nhưng nếu ở trong hoàn cảnh tương tự thì tôi sẽ mua Mac.

  • Tôi muốn dựng một cỗ máy cho LLM chạy cục bộ. Tôi đã thử mô hình trên MBP M3 Max với 128GB RAM và muốn có một server cục bộ chuyên dụng. Tôi cũng muốn thử dùng Proxmox. Hiện tôi đang chạy OpenWebUI và LibreChat trên một "app server" cục bộ và khá hài lòng. Nhưng mỗi lần định mua phần cứng mạnh hơn, tôi lại thấy ROI không đủ hấp dẫn, nhất là trong một ngành thay đổi quá nhanh. Quyền riêng tư là một yếu tố không thể bỏ qua, nhưng rất khó đánh bại chi phí suy luận trực tuyến.

  • Các mô hình được host cục bộ rất vui, dễ thương như đồ chơi, có thể viết mấy câu đùa ngớ ngẩn và làm các tác vụ cá nhân. Nhưng so với các mô hình truy cập qua API thì vẫn còn kém. Sẽ rất tuyệt nếu có thể chạy deepseek-r1-678b tại chỗ, nhưng hiện tại chi phí vận hành còn lớn hơn chi phí vốn.

  • Phương án trung gian là thuê GPU VPS khi cần. Bạn có thể dùng H100 với giá 2 USD mỗi giờ. Nó không riêng tư hoàn toàn như chạy local offline, nhưng vẫn tốt hơn SASS API. Tôi hy vọng trong 1–3 năm tới, việc chạy thứ gì đó thực sự hữu ích ở local sẽ trở nên hiệu quả về chi phí.

  • Như nhiều người khác đã nói, bạn có thể dùng một chiếc Mac mạnh với cùng số tiền mà lại tiêu thụ ít điện hơn. Tôi thắc mắc vì sao Apple không tham gia thị trường chip AI doanh nghiệp để cạnh tranh với Nvidia. Apple hẳn có thể tự thiết kế ASIC của riêng mình.

  • "Sở hữu AI của riêng bạn" là một thú vui tuyệt vời tại nhà, nhưng bạn sẽ phải tốn rất nhiều thời gian và tiền bạc cho phần cứng. Tôi khuyên nên xem dream machine của Mitko Vasilev. Nếu không có use case rõ ràng thì bạn chỉ cần mô hình nhỏ hoặc tốc độ sinh token chậm. Nếu mục tiêu là xây dựng và học về AI, thì thuê GPU/TPU khi cần sẽ kinh tế hơn.

  • Tôi không nghĩ việc mua 2 card Nvidia Tesla P40 với giá 660 euro là "trong tầm ngân sách". Mọi người vẫn có thể chạy các mô hình "nhỏ" hoặc "trung bình" bằng các card rẻ hơn. Card Nvidia Geforce RTX 3060 có thể tìm thấy trên thị trường đồ cũ với giá 200–250 euro. 48GB VRAM là hơi quá để gọi là phù hợp ngân sách. Cấu hình này dành cho bán chuyên hoặc chuyên nghiệp. Dùng mô hình trung bình hoặc nhỏ sẽ cần chấp nhận đánh đổi, nhưng biết chấp nhận đánh đổi cũng là một phần quan trọng của việc làm trong tầm ngân sách.

  • Vấn đề với kiểu đầu tư này là tháng sau sẽ lại có mô hình tốt hơn ra mắt. Có thể bạn sẽ cần nhiều RAM hơn, hoặc ngược lại ít RAM hơn mô hình tốt nhất hiện tại. Dùng hạ tầng đám mây có thể giải quyết chuyện đó. Chi phí mỗi lần chạy cao hơn, nhưng nếu nhu cầu chỉ thỉnh thoảng thì bạn có thể tiết kiệm tiền. Tôi tò mò không biết người dùng HN đang xử lý chuyện này như thế nào.

  • Tôi tự hỏi có ai từng thử chạy suy luận LLM bằng cụm SBC chưa. Ví dụ, Radxa ROCK 5C có 32GB bộ nhớ và NPU, giá khoảng 300 euro. Tôi không hiểu quá sâu về kiến trúc của LLM hiện đại, nhưng có vẻ phải có cách chia các layer ra giữa nhiều node. Lượng dữ liệu cần truyền có lẽ không quá lớn. Chắc chắn nó sẽ không đạt hiệu năng như Mac hiện đại hay GPU Nvidia, nhưng có thể là một cách chấp nhận được để có nhiều bộ nhớ với chi phí thấp. Tôi cũng tò mò về tình trạng hiện tại của suy luận CPU + GPU. Việc xử lý prompt bị giới hạn bởi tính toán và bộ nhớ, còn sinh token thì chủ yếu bị giới hạn bởi bộ nhớ. Tôi tự hỏi có công cụ nào cho phép nạp một vài layer lên GPU để xử lý prompt ban đầu, rồi sau đó chuyển sang suy luận bằng CPU không. Trong lần thử nghiệm gần nhất, tôi có thể chạy một phần layer trên GPU và một phần trên CPU. Có vẻ sẽ hiệu quả hơn nếu chạy mọi thứ trên GPU trước, rồi khi sinh token bị giới hạn bộ nhớ thì chuyển sang CPU.