Bản thân tôi cũng vì nhu cầu mà đang làm một giải pháp RAG, dùng tới 4 GPU H100 vốn hiếm có, nhưng nếu tính không chỉ chi phí đầu tư phần cứng trực tiếp mà cả tiền điện, chi phí cho các giải pháp làm mát khác các kiểu thì tôi cứ thấy gọi API vẫn tốt hơn rất nhiều.
Lúc đầu tôi cũng bắt đầu thử với Ollama, rồi xác nhận là ngay cả 3 người dùng đồng thời cũng không gánh nổi nên chuyển ngay sang vLLM và xoay xở đủ kiểu để dựng cấu hình RAG. Nhưng riêng chỗ này thôi (giả định 10 người dùng đồng thời) đã gần như phải dùng gần hết 2 GPU H100. Các tác vụ embedding hay tìm kiếm tôi cũng mở bằng vLLM để dùng, nên 4 chiếc H100 thật sự vẫn rất chật vật. Dù VRAM mỗi card khoảng 90GB cũng vẫn là như vậy.
Tất nhiên là tôi cũng không rành AI lắm, chỉ là vừa làm theo nhu cầu của bộ phận vừa cố gắng đáp ứng qua lại các quy định bảo mật nội bộ nên cứ thế làm liều thôi... nhưng tôi cũng băn khoăn không biết như vậy có đúng không. Hình như là ChatGPT Enterprise ấy nhỉ? Tôi thật sự thấy mức giá của nó quá hời.
Tôi cũng từng có suy nghĩ tương tự nhưng khó diễn đạt cho rõ.
"Mô hình tinh thần" đúng là một cách đặt tên phù hợp. Tôi sẽ cố gắng dùng nó thường xuyên hơn.
Tôi thực sự rất thích Django! Bản thân tôi cũng mang ơn nó ở nhiều khía cạnh và luôn cảm thấy biết ơn. Dù Django có phần kém phổ biến hơn trước, nhưng thật ra tôi cũng không nghĩ đã từng có thời điểm nào Django đặc biệt “hot”; tôi tin đây sẽ tiếp tục là một framework ổn định, được yêu mến bền bỉ và tồn tại thật lâu dài!
Đúng cái tôi đang cần và cũng đang định tự làm, vậy mà họ đã làm ra nó rồi... Tôi dùng Claude Code Max, và đây là phần mềm tôi thực sự cần khi phát triển nhiều dự án cùng lúc.
Tôi cũng khá đồng cảm với vấn đề lãng phí dung lượng ổ đĩa...
Tôi vận hành AKS nên mỗi lần nhìn thấy app Python với image container vượt quá 1GB là lại đau đầu.
Giờ thì tôi cứ lấy Dockerfile về rồi tự tối ưu lại dung lượng và đẩy lên, nếu không giảm xuống dưới 500MB được thì đành bỏ cuộc luôn haha
Wow...! Lần đầu tôi dùng nó là trong một dự án chọn vì nó là Python...
Đã trôi qua một khoảng thời gian dài rồi nhỉ!
Mong là mình lại có thể làm việc trong một môi trường có dịp sử dụng nó :) hhh
Hay là làm thử một dự án side nhỉ...
Bản thân tôi cũng vì nhu cầu mà đang làm một giải pháp RAG, dùng tới 4 GPU H100 vốn hiếm có, nhưng nếu tính không chỉ chi phí đầu tư phần cứng trực tiếp mà cả tiền điện, chi phí cho các giải pháp làm mát khác các kiểu thì tôi cứ thấy gọi API vẫn tốt hơn rất nhiều.
Lúc đầu tôi cũng bắt đầu thử với Ollama, rồi xác nhận là ngay cả 3 người dùng đồng thời cũng không gánh nổi nên chuyển ngay sang vLLM và xoay xở đủ kiểu để dựng cấu hình RAG. Nhưng riêng chỗ này thôi (giả định 10 người dùng đồng thời) đã gần như phải dùng gần hết 2 GPU H100. Các tác vụ embedding hay tìm kiếm tôi cũng mở bằng vLLM để dùng, nên 4 chiếc H100 thật sự vẫn rất chật vật. Dù VRAM mỗi card khoảng 90GB cũng vẫn là như vậy.
Tất nhiên là tôi cũng không rành AI lắm, chỉ là vừa làm theo nhu cầu của bộ phận vừa cố gắng đáp ứng qua lại các quy định bảo mật nội bộ nên cứ thế làm liều thôi... nhưng tôi cũng băn khoăn không biết như vậy có đúng không. Hình như là ChatGPT Enterprise ấy nhỉ? Tôi thật sự thấy mức giá của nó quá hời.
Tôi cũng từng có suy nghĩ tương tự nhưng khó diễn đạt cho rõ.
"Mô hình tinh thần" đúng là một cách đặt tên phù hợp. Tôi sẽ cố gắng dùng nó thường xuyên hơn.
150 đô một giờ à? Ngay từ đó thì việc kiểm soát biến đã buồn cười rồi ha ha ha ha
Tôi thực sự rất thích Django! Bản thân tôi cũng mang ơn nó ở nhiều khía cạnh và luôn cảm thấy biết ơn. Dù Django có phần kém phổ biến hơn trước, nhưng thật ra tôi cũng không nghĩ đã từng có thời điểm nào Django đặc biệt “hot”; tôi tin đây sẽ tiếp tục là một framework ổn định, được yêu mến bền bỉ và tồn tại thật lâu dài!
Ngay từ đầu, các nhà sản xuất linh kiện làm ra thiết bị vốn đã không hỗ trợ tốt cả Lua lẫn Python. Cùng lắm là mức C?
Người viết bài đó chắc bấm cái một làm ra shorts hàng loạt rồi bị khóa à lol
Tôi vẫn dùng khá tốt cho việc phát triển web như một sở thích
Đo lường "tác động của AI" lên năng suất của các nhà phát triển mã nguồn mở giàu kinh nghiệm
() => ❤️
Đúng cái tôi đang cần và cũng đang định tự làm, vậy mà họ đã làm ra nó rồi... Tôi dùng Claude Code Max, và đây là phần mềm tôi thực sự cần khi phát triển nhiều dự án cùng lúc.
Chúc mừng sinh nhật Django!
Bản dịch tiếng Hàn như dưới đây.
https://roy-jung.github.io/250701-history-of-js/
Giá mà bài viết cho thấy bằng các con số mức độ cải thiện lớn, sự vượt trội và độ chính xác thì sẽ tốt hơn.
Không biết Hàn Quốc sẽ khác thế nào nhỉ
Tôi cũng khá đồng cảm với vấn đề
lãng phí dung lượng ổ đĩa...Tôi vận hành AKS nên mỗi lần nhìn thấy app Python với image container vượt quá 1GB là lại đau đầu.
Giờ thì tôi cứ lấy Dockerfile về rồi tự tối ưu lại dung lượng và đẩy lên, nếu không giảm xuống dưới 500MB được thì đành bỏ cuộc luôn haha
Wow...! Lần đầu tôi dùng nó là trong một dự án chọn vì nó là Python...
Đã trôi qua một khoảng thời gian dài rồi nhỉ!
Mong là mình lại có thể làm việc trong một môi trường có dịp sử dụng nó :) hhh
Hay là làm thử một dự án side nhỉ...
So sánh với Claude 3 vào thời điểm Claude 4 đã ra mắt thì chẳng phải gần như là lừa đảo sao...
Theo giờ Hàn Quốc, từ khoảng 7:00 đã bị gián đoạn chừng 50 phút, nhưng giờ thì hoạt động bình thường rồi.
CMD> nslookup news.hada.io 1.1.1.1
Tôi cũng liên tục nhận được thông báo đẩy trên Android nói rằng không thể truy cập máy chủ DNS.
Tạm thời tôi chuyển sang dùng Google DNS.
https://developers.google.com/speed/public-dns/…