2 điểm bởi GN⁺ 2 ngày trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Tình trạng thiếu hụt nguồn cung DRAM phổ thông trên toàn cầu được dự báo có thể chỉ đáp ứng được 60% nhu cầu cho tới cuối năm 2027, và một số nhận định cho rằng có thể kéo dài đến năm 2030
  • Các nhà sản xuất lớn như Samsung, SK Hynix và Micron đang thúc đẩy mở rộng fab mới, nhưng phần lớn sẽ không thể đi vào hoạt động trước giai đoạn 2027~2028
  • Để đáp ứng nhu cầu, sản lượng cần tăng 12% mỗi năm, nhưng mức tăng thực tế theo kế hoạch chỉ là 7,5%
  • Các cơ sở mới tập trung sản xuất HBM (bộ nhớ băng thông cao) cho trung tâm dữ liệu AI, nên khả năng giải quyết tình trạng thiếu DRAM phổ thông cho thiết bị điện tử tiêu dùng là có hạn
  • Giá của nhiều thiết bị điện tử tiêu dùng như smartphone, laptop, kính thực tế ảo và máy chơi game cầm tay đã bắt đầu tăng

Tình hình thiếu hụt nguồn cung bộ nhớ toàn cầu

  • Theo Nikkei Asia, dù đang mở rộng sản xuất DRAM, các nhà sản xuất vẫn được dự báo chỉ có thể đáp ứng 60% nhu cầu tới cuối năm 2027
  • Chủ tịch SK Group cho biết tình trạng thiếu chip và wafer có thể kéo dài tới năm 2030

Kế hoạch mở rộng sản xuất của các nhà sản xuất lớn

  • Cả ba nhà sản xuất bộ nhớ lớn nhất thế giới là Samsung, SK Hynix, Micron đều đang xúc tiến xây dựng fab mới
  • Tuy nhiên, phần lớn cơ sở mới chỉ có thể bắt đầu hoạt động vào năm 2027, hoặc sớm nhất là 2028
  • Trong năm 2026, trường hợp tăng sản lượng thực tế duy nhất là fab Cheongju của SK, bắt đầu vận hành từ tháng 2

Tốc độ tăng sản lượng và khoảng cách với nhu cầu

  • Theo Counterpoint Research, để đáp ứng nhu cầu thì trong giai đoạn 2026~2027 cần tăng sản lượng 12% mỗi năm
  • Nhưng mức tăng sản lượng thực tế theo kế hoạch chỉ dừng ở 7,5%
  • Khoảng cách giữa kế hoạch và nhu cầu là yếu tố cốt lõi khiến tình trạng thiếu hụt nguồn cung kéo dài

Ưu tiên sản xuất HBM và tác động tới thị trường tiêu dùng

  • Các fab mới tập trung sản xuất HBM (High-Bandwidth Memory) dùng cho trung tâm dữ liệu AI
  • Do các nhà sản xuất đã ưu tiên HBM hơn DRAM phổ thông, hiệu quả cải thiện nguồn cung bộ nhớ cho máy tính và smartphone vẫn chưa rõ ràng
  • Vì vậy, vẫn chưa thể xác định liệu áp lực giá trong lĩnh vực điện tử tiêu dùng có được giảm bớt hay không

Các trường hợp tăng giá thiết bị điện tử tiêu dùng

  • Do thiếu hụt RAM, giá đã tăng ở nhiều nhóm sản phẩm khác nhau
    • Tăng giá smartphone và tablet Galaxy của Samsung
    • Tăng giá Surface của Microsoft
    • Kính thực tế ảo Quest 3 / 3S của Meta tăng 100 USD
    • Tăng giá máy chơi game cầm tay hai màn hình của AYN

1 bình luận

 
Ý kiến trên Hacker News
  • Theo hiểu biết của tôi thì Samsung, SK Hynix và Micron không có đủ năng lực sản xuất để đáp ứng nhu cầu, và ngay cả lượng hàng hiện có cũng đang được ưu tiên phân bổ cho HBM thay vì DRAM. HBM có vẻ không dễ chuyển sang điện tử tiêu dùng, nên trong 3~4 năm tới thị trường tiêu dùng phổ thông có lẽ sẽ khá chật vật. Thêm vào đó, OpenAI cũng đang bị trói bởi áp lực vốn, và khi câu hỏi về tốc độ đốt tiền và doanh thu ngày càng lớn, ngay cả các cam kết mua hàng đã kích hoạt cơn hoảng loạn RAM lần này cũng có thể không được thực hiện đến cùng, để rồi cuối cùng các hãng bộ nhớ lại phải ôm hàng tồn kho

    • Điều này khiến tôi nhớ đến việc Radeon VII năm 2019 là GPU tiêu dùng giá 700 USD mà vẫn đạt băng thông 1TB/s với HBM2. Khi đó AMD còn đưa HBM xuống cả dòng tầm trung, nên tôi không hiểu vì sao một công nghệ từng bán cho người dùng phổ thông giờ lại được nói như thể thứ công nghệ của thần linh, đắt đỏ và đặc biệt đến vậy
    • Yếu tố địa phương cũng rất lớn. Ở Hà Lan, do lưới điện đã bão hòa, các công ty định xây trung tâm dữ liệu dù đã trả phí và nhận được bảo đảm kết nối vẫn bị thông báo rằng trước năm 2030 sẽ rất khó được cấp điện. Như vậy tức là dung lượng bộ nhớ đã được giữ chỗ dựa trên những trung tâm dữ liệu còn chưa xây, nên nếu việc xây dựng bị hoãn hoặc hủy thì cung và cầu có thể rối hơn nữa
    • Cảm giác của tôi là các hãng bộ nhớ luôn là bên ôm rủi ro vào phút chót. Tôi nghĩ mình đã thấy cảnh này ít nhất ba lần rồi
    • Dù vậy, lần này các hãng bộ nhớ không mở rộng mạnh như trước, và chính điều đó theo tôi là lựa chọn để tránh bom tồn kho
    • Tôi cho rằng khi các lời hứa xây hạ tầng của Altman đổ vỡ, cán cân sẽ nghiêng thêm về phía dư cung nhanh hơn dự kiến. Giới tài chính giờ cũng đang nhận ra rằng loại hạ tầng đó không thể xây nhanh như vậy, và kể cả có xây xong thì cũng chưa chắc sinh lời
  • Điều tôi vẫn chưa lý giải được là thế này. Nếu AI làm việc tạo phần mềm trở nên dễ hơn thì giá sẽ giảm, nhưng trong bối cảnh chi tiêu cho AI đã lớn hơn nhiều lần tổng chi tiêu phần mềm toàn cầu, tôi không hiểu các công ty phần mềm sẽ gánh nổi chi phí đó bằng cách nào. Vì vậy, nhu cầu RAM hiện nay trông như nền móng trên cát, và cuối cùng rất có thể sẽ quay sang dư cung quy mô lớn

    • Tôi không bi quan đến thế. LLM đã đủ hữu ích với tư cách một công cụ nên sẽ không biến mất, và vấn đề cốt lõi rốt cuộc là khả năng mở rộng và giảm chi phí. Dù công ty nhỏ không dùng được thì các công ty lớn vẫn có thể tìm ra nhiều ứng dụng trước trong các lĩnh vực như quốc phòng, khai thác tài nguyên hay tài chính. Ngược lại, nếu chi phí giảm đủ mạnh thì các đội nhỏ cũng sẽ dùng, nhưng nếu quá rẻ thì lại có nghịch lý là người dùng tiềm năng sẽ tự làm phần mềm ở nhà
    • Theo tính toán của các nhà phân tích, người ta thậm chí nói rằng cần một gói đăng ký mới trị giá 35 USD/tháng cho mỗi người dùng iPhone, hoặc 180 USD/tháng cho mỗi thuê bao Netflix. Dù giá Claude Max đã tăng, tôi vẫn hoài nghi việc mọi người dùng Netflix sẽ chịu trả mức đó. Có thể tham khảo bài viết của Tom's Hardware
    • Có vẻ mọi người đều đang đặt cược vào nghịch lý Jevons. Tức là họ kỳ vọng AI sẽ trở thành chất bán dẫn tiếp theo, Internet tiếp theo
    • Tôi nhìn nó như một con ngựa thành Troy. Cuối cùng đây giống như một chiến lược kỳ vọng thế giới sẽ quen với công nghệ này và trở nên phụ thuộc vào nó
  • Tôi cho rằng tình hình này sẽ kéo dài. Sau COVID, các nhà sản xuất đã học được rằng hạn chế nguồn cung sẽ tối đa hóa lợi nhuận, và nhìn cách giá ô tô không còn dễ giảm như trước thì RAM cũng rất có thể đi theo con đường tương tự. Không như các khách hàng lớn như Apple hay OpenAI, người tiêu dùng bình thường không thể ký hợp đồng lớn, nên cuối cùng chúng ta sẽ là bên gánh chi phí

  • Tôi hơi lạc quan. Tôi hy vọng chuyện này sẽ là lời cảnh báo cho các lập trình viên hay dùng RAM bừa bãi, buộc ứng dụng trong tương lai phải trở nên hiệu quả bộ nhớ hơn

    • Tôi thấy cảnh này hơi gợi lại thời kỳ sau cú sốc dầu mỏ 1973, khi kỷ nguyên động cơ V8 dần lụi tàn
    • Tuy nhiên, thứ đang kéo nhu cầu hiện nay chủ yếu là suy luận inference, nên tôi nghĩ động lực để các lập trình viên thực sự tối ưu có thể không mạnh đến vậy
    • Tôi mong đây sẽ là dịp để Electron mất dần thế lực. Tôi chưa bao giờ hiểu nổi việc một nội dung đơn giản chỉ cần 500KB hiển thị lại được đóng thành ứng dụng hơn 300MB
      • Điều đó thật sự nghe như một kịch bản trong mơ
    • Muốn dùng ít RAM hơn thì thường lại phải dùng nhiều CPU hơn, nên dù giá RAM có tăng thì tổng thể vẫn thường không phải một đánh đổi tốt
  • Tôi ngạc nhiên vì bài viết không hề nhắc đến TurboQuant của Google. Nó được công bố cách đây 26 ngày, được cho là giảm bộ nhớ KV cache xuống 6 lần và tăng tốc tối đa 8 lần, đồng thời đã được đưa vào llama.cpp để giúp chạy ngữ cảnh lớn hơn mà không phải thỏa hiệp sang mô hình nhỏ hơn. Dĩ nhiên, bản thân tôi vẫn hoài nghi việc nó có thể làm dịu đáng kể vấn đề RAM hay không. Nhu cầu có vẻ vẫn sẽ tăng mạnh hơn phần tiết kiệm đạt được. Có thể xem bài đăng HN này

    • Trong ngành cũng có nhận thức khá mạnh rằng TurboQuant không phải là SOTA tối tân. Có những cách lượng tử hóa KV theo bitrate tốt hơn, ví dụ như giải pháp thay thế SpectralQuant. Hơn nữa, con số 6 lần là kiểu so sánh với KV cache BF16, nên nếu đem so với các cách 8-bit hoặc 4-bit đã tồn tại thì câu chuyện sẽ khác
    • Cũng có điểm cần đính chính. Bài báo TurboQuant thực ra đã lên arXiv tháng 4/2025, và phần triển khai hiện tại chỉ đạt mức nén khoảng 3,8 đến 4,9 lần, trong khi con số ở đầu phải đánh đổi khá nhiều suy giảm hiệu năng trên GSM8K. Tốc độ cũng chỉ ở mức 80~100% so với baseline, tức là có thể không cải thiện hoặc thậm chí chậm hơn. Tình trạng triển khai có thể xem ở vLLM PR, còn thảo luận ở vLLM issue. Cá nhân tôi đang thử DMS và thấy có vẻ hứa hẹn hơn, lại còn có thể chồng cùng các kiểu lượng tử hóa khác. Mức tiết kiệm lớn hơn sẽ đến từ cải tiến kiến trúc mô hình như hybrid SWA global của Gemma 4, MLA, DSA, linear layer, SSM, nhưng ngay cả những thứ đó rốt cuộc cũng khó làm giảm tổng nhu cầu bộ nhớ vì nghịch lý Jevons. Chỉ riêng công cụ lập trình của tôi thôi đã dùng 10 đến 15 tỷ cache token mỗi tháng, và khi agent cùng người dùng đại trà tăng lên thì số token mọi người muốn dùng dường như chẳng có trần thực tế nào cả
    • Tôi nghĩ việc phía mô hình cục bộ đang hướng tới RAM thấp, VRAM thấp chắc chắn là có ích. Chẳng hạn, Gemma 4 32B có thể chạy được trên laptop bán đại trà, và tôi cảm thấy nó có trí tuệ tương đương hoặc tốt hơn gpt-4o, vốn từng là SOTA cách đây 2 năm. Đến lúc giá bộ nhớ ổn định trở lại thì có lẽ cả mức Opus 4.7 cũng sẽ chạy cục bộ được. Mô hình lớn có nhiều tri thức nội tại hơn, nhưng nếu biết phán đoán đúng lúc để gọi công cụ như tìm kiếm web thì cũng có thể bù được khá nhiều
    • Theo tôi, hiệu ứng ròng sẽ không phải là làm cùng một việc với ít bộ nhớ hơn, mà là làm nhiều việc hơn với cùng lượng bộ nhớ. Các công ty sẽ mở rộng context window của sản phẩm họ cung cấp, và người dùng sẽ cứ thế dùng nó. Đó có vẻ là thực tế hơi chua chát về tương lai của bộ nhớ
    • Dù vậy, chi phí để nạp cả mô hình vào bộ nhớ vẫn còn lớn. Ví dụ nếu RAM chỉ có 16GB thì lợi ích cảm nhận được có lẽ không lớn đến thế
  • Tôi cũng ngạc nhiên vì bài viết bỏ qua câu chuyện về các hãng bộ nhớ mới của Trung Quốc. Một ví dụ liên quan khiến tôi nhớ tới bài viết này

    • Như chính bài viết có nói, CXMT đang chậm hơn Samsung, SK Hynix và Micron khoảng 3 năm trong quy trình DRAM cao cấp, và dây chuyền nửa cuối 2026 khó có thể ảnh hưởng lớn đến cân bằng cung cầu toàn cầu trước năm 2027. Trong khi đó, bài gốc lại cho rằng đến 2028 nhu cầu sẽ vượt cung, nên thời điểm sản xuất của Trung Quốc bắt kịp trình độ công nghệ hiện tại có thể phải tới khoảng 2029. Về dài hạn nó sẽ giúp hạ giá, nhưng để ngăn tình trạng thiếu hụt ngay trước mắt thì hiệu suất sản xuất vẫn chưa tới mức đó
  • Gần đây tôi định lắp một PC gaming mới, nhưng vì cú sốc giá và vấn đề nguồn cung từng linh kiện nên cứ hoãn mãi. Rồi tình cờ tôi thấy ở Microcenter gần nhà một bộ máy dựng sẵn gần như full option, có cả 5090 và nguồn cao cấp, giá dưới 5.000 USD nên mua luôn. Hơn chục năm trước, máy dựng sẵn chỉ là lựa chọn dành cho người rất dư tiền và thậm chí không có nổi một ngày cuối tuần để tự làm, nhưng bây giờ nó lại giống một lựa chọn khỏi cần nghĩ nhiều

    • Tôi vẫn cho rằng nguyên tắc cơ bản là tự lắp sẽ có lợi hơn. Máy dựng sẵn có tính cả công lắp ráp nên về cấu trúc khó mà rẻ hơn, và cũng không ít khả năng họ đã thỏa hiệp ở những linh kiện kém dễ thấy hơn như mainboard hay PSU. Dĩ nhiên, anh có thể đã tìm được một món hời, nhưng ngoại lệ đó không làm thay đổi nguyên tắc chung
  • Tôi tò mò liệu chuyện này có trở thành cơ hội để dùng phần mềm hiệu quả bộ nhớ hơn hay không. Dạo này ngay cả những chương trình rất nhỏ nhặt cũng ngốn hàng trăm MB RAM quá thường xuyên

    • Chính tôi cũng đã từng rõ ràng đặt mục tiêu giảm mức dùng RAM khi vibe-coding
  • Tôi háo hức vì cuối cùng có vẻ thời đại của tối ưu hóa đã đến

    • Tuy nhiên tôi hơi hoài nghi. Các ứng dụng tôi dùng phần lớn đều có lock-in rất mạnh, nên либо không có động lực tổ chức để tối ưu, либо lại thiếu tài nguyên để làm việc đó. Vì vậy kiểu tối ưu thực tế nhất với tôi thường là bỏ công cụ nặng để chuyển sang công cụ nhẹ hơn, rồi hy vọng nhiều lựa chọn như vậy cộng lại sẽ giúp công cụ nhẹ có thêm tài chính và nguồn lực phát triển
    • Tôi từ lâu đã nói rằng các nhà phát triển OS nên tập trung vào tối ưu hóa táo bạo. Ngay cả ngoài chuyện thiếu chip, tốc độ thu nhỏ bán dẫn đã chậm lại từ lâu, và tối ưu phần mềm thì có lợi cho mọi phần cứng nhưng lại không trực tiếp kéo doanh số. Ở điểm này Linux ít bị ràng buộc hơn, và thậm chí tôi cũng tưởng tượng rằng những lựa chọn như Haiku OS có thể lại được chú ý
  • Trong mắt tôi, các nhà sản xuất RAM vẫn đang rất dè dặt trong việc tăng sản lượng. Tôi tự hỏi có phải họ đang nhìn thấy những tín hiệu nhu cầu dài hạn mà nhà đầu tư chưa thấy hay không

    • Họ từng bị đòn đau nhiều lần rồi. Ngành DRAM từ lâu đã lặp lại chu kỳ bùng nổ rồi suy thoái, và mỗi lần nhu cầu tăng là mọi hãng đều xây fab mới, để rồi giá lao dốc, không thu hồi nổi vốn đầu tư và phá sản. Những năm 80, 90, 2000 đều như vậy, và giờ chỉ còn lại ba nhà sản xuất nên có lẽ họ hiểu hơn ai hết rằng nhu cầu về bản chất là mang tính chu kỳ
    • Ngành bán dẫn hơn 50 năm nay vốn là ngành boom and bust. Có cả hình minh họa liên quan, và bản thân tôi trong 30 năm làm nghề cũng đã trải qua cả giai đoạn chỉ đáp ứng nổi 30% đơn hàng khách và giai đoạn hai năm sau fab chỉ chạy 50% công suất, lỗ nặng. Một fab hiện đại mất 20 tỷ USD và 3~4 năm để xây, nên nếu cho rằng AI có thể là bong bóng thì việc để lại những nhà máy trống lấp lánh sau cú sụp nhu cầu là lựa chọn quá rủi ro
    • Tôi nghĩ bất kỳ ai nhìn thẳng vào thực tế cũng sẽ thấy vậy. Cam kết mua hàng của OpenAI trông quá phi thực tế và không bền vững
    • Từ góc nhìn của họ, kịch bản thua lỗ có lẽ cũng không quá lớn. Về thực chất đây gần như là cấu trúc kiểu cartel, và RAM đằng nào cũng là sản phẩm cần thiết, nên họ có lẽ đã tính toán cân bằng giá và nhu cầu để chọn mức rủi ro/lợi nhuận có lợi nhất cho mình khi sản xuất ít hơn. Mấu chốt dường như là thị trường cần họ hơn là họ cần thiện cảm hay danh tiếng từ người tiêu dùng