3 điểm bởi GN⁺ 3 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Jalapeño là bộ tăng tốc chuyên biệt cho suy luận (inference) LLM, đồng thời là thành quả đầu tiên của nền tảng điện toán đa thế hệ được phát triển cùng Broadcom
  • Chỉ mất 9 tháng từ lúc bắt đầu thiết kế đến tape-out sản xuất, được cho là chu kỳ phát triển ASIC nhanh nhất từ trước đến nay trong lĩnh vực bán dẫn hiệu năng cao tiên tiến
  • Trong các thử nghiệm ban đầu, giảm khoảng 50% chi phí so với GPU AI thông thường, đồng thời hiệu năng trên mỗi watt cũng vượt trội đáng kể so với mặt bằng tiên tiến hiện nay
  • Là một phần trong chiến lược full-stack tự thiết kế từ kiến trúc chip, kernel, bộ nhớ đến mạng, nhằm giảm phụ thuộc vào GPU Nvidia và mở rộng từ một công ty phần mềm thành nhà cung cấp hạ tầng AI
  • Dự kiến sẽ được triển khai tại các trung tâm dữ liệu quy mô gigawatt cùng các đối tác như Microsoft từ cuối năm 2026, càng làm nổi bật ý nghĩa của dự án trong bối cảnh áp lực chứng minh khả năng sinh lời trước đợt IPO quy mô 1 nghìn tỷ USD

Công bố chip Jalapeño

  • Vào thứ Tư, OpenAI và Broadcom (NASDAQ: AVGO) đã công bố Intelligence Processor đầu tiên của OpenAI, Jalapeño
  • Đây là bộ tăng tốc được thiết kế cho tương lai của suy luận LLM, đồng thời là bộ tăng tốc AI đầu tiên trong nền tảng điện toán đa thế hệ mà hai công ty cùng xây dựng
  • Chủ tịch kiêm CEO Broadcom Hock Tan và Chủ tịch Charlie Kawwas đã trực tiếp trao mẫu chip cho CEO OpenAI Sam Altman và Chủ tịch Greg Brockman
  • Đây là một bước quan trọng trong chiến lược của OpenAI nhằm vươn lên thành nhà cung cấp hạ tầng AI, vượt ra ngoài các sản phẩm tiêu dùng

Cấu trúc và hiệu năng của chip

  • Jalapeño không phải là con chip đa dụng được cải biên từ bộ tăng tốc dành cho khối lượng công việc AI hiện có, mà là một thiết kế blank-slate dành riêng cho suy luận LLM hiện đại
  • Đây là ASIC có thể được thiết kế theo từng tác vụ AI cụ thể, kém linh hoạt hơn GPU Nvidia nhưng rẻ hơn
  • Hiệu năng và hiệu quả

    • Trong thử nghiệm ban đầu, giảm khoảng 50% chi phí so với GPU AI thông thường (theo phỏng vấn với Hock Tan)
    • Hiệu năng cuối cùng vẫn đang được đo đạc, nhưng hiệu năng trên mỗi watt đã cho thấy mức cải thiện lớn so với mặt bằng tiên tiến hiện nay
    • Bằng cách giảm di chuyển dữ liệu và cân bằng tài nguyên tính toán, bộ nhớ và mạng, chip có thể đạt mức sử dụng thực tế gần với hiệu năng tối đa về mặt lý thuyết
    • Hình ảnh chip được công bố cho thấy 8 vị trí HBM và die tính toán ở trung tâm
  • Xác minh hoạt động

    • Các mẫu kỹ thuật đang chạy khối lượng công việc ML ở mức tần số và điện năng mục tiêu cho sản xuất hàng loạt, trong đó có GPT‑5.3‑Codex‑Spark
    • Báo cáo kỹ thuật chi tiết dự kiến sẽ được công bố trong vài tháng tới
    • Năng lực triển khai silicon của Broadcom và silicon mạng Tomahawk sẽ hỗ trợ sản xuất hàng loạt ở quy mô lớn

Tape-out trong 9 tháng, được tăng tốc bởi các mô hình của OpenAI

  • Từ thiết kế ban đầu đến tape-out sản xuất chỉ mất 9 tháng phát triển chung, được cho là chu kỳ phát triển ASIC nhanh nhất từ trước đến nay trong bán dẫn tiên tiến hiệu năng cao
  • Một phần quá trình thiết kế và tối ưu hóa đã sử dụng các mô hình nội bộ của OpenAI; Brockman cho biết mức độ mà các mô hình này tăng tốc quá trình phát triển là "đáng kinh ngạc"
  • Chính những mô hình đang được cung cấp cho người dùng sẽ trong tương lai góp phần cải thiện hạ tầng dùng để chạy các mô hình đó
  • Nếu AI có thể giúp kỹ sư thiết kế chip nhanh hơn, điều đó có thể dẫn tới việc giảm chi phí điện toán trên toàn ngành và mở rộng khả năng tiếp cận AI tiên tiến

Nền tảng đa thế hệ và các đối tác

  • Jalapeño là bước đầu tiên của nền tảng điện toán đa thế hệ sẽ mở rộng trong nhiều năm tới, với mục tiêu triển khai ban đầu vào cuối năm 2026
  • Cấu trúc hợp tác

    • OpenAI — thiết kế bộ tăng tốc, dựa trên hiểu biết sâu về nền tảng LLM
    • Broadcom — hiện thực hóa chip, công nghệ mạng và kết nối
    • Celestica — chuyên môn về bo mạch, rack và tích hợp hệ thống
  • Năm ngoái, OpenAI và Broadcom đã công bố kế hoạch phát triển chip tùy biến cho năng lực điện toán quy mô 10 gigawatt, và nay đã công bố con chip đầu tiên của kế hoạch đó
  • Nhu cầu bùng nổ

    • CEO Broadcom Hock Tan cho biết từ năm 2026, con chip này sẽ cho phép triển khai tại các trung tâm dữ liệu quy mô gigawatt cùng các đối tác như Microsoft, với kế hoạch mở rộng sau giai đoạn nguyên mẫu quy mô nhỏ vào cuối năm 2026
    • Brockman nói rằng "không thể có đủ điện toán đủ nhanh", còn Tan cho biết nhu cầu từ 6 khách hàng là "thực sự không thể đáp ứng hết" và vào giai đoạn 2027~2028 cũng sẽ tương tự hoặc còn cao hơn
    • Richard Ho, lãnh đạo chương trình phần cứng của OpenAI, giải thích rằng kiến trúc đã được tối ưu xoay quanh các kernel, việc di chuyển bộ nhớ, mạng và mẫu phục vụ quan trọng nhất đối với các mô hình AI frontier

Chiến lược full-stack và cục diện cạnh tranh

  • OpenAI không chỉ phát triển các mô hình frontier và xây dựng sản phẩm, mà còn tự thiết kế cả tầng hạ tầng bên dưới — bao gồm kiến trúc chip, kernel, hệ thống bộ nhớ, mạng, lập lịch, hệ thống triển khai và trải nghiệm sản phẩm
  • Nhờ đó, OpenAI gia nhập hàng ngũ các công ty AI full-stack có silicon riêng như Google (TPU), Amazon (Trainium), Microsoft (Azure Maia 100)
  • Giảm phụ thuộc vào Nvidia

    • "Không ai muốn bị phụ thuộc vào Nvidia" (Ben Barringer, trưởng bộ phận nghiên cứu công nghệ tại Quilter Cheviot), phản ánh xu hướng đa dạng hóa nguồn cung chip
    • OpenAI vừa là một trong những khách hàng lớn nhất của Nvidia, vừa đã ký thỏa thuận cung ứng với AMD (dòng Instinct MI450), Cerebras và các bên khác
  • Ý nghĩa kinh doanh

    • Khi Nvidia trở thành công ty giá trị nhất thế giới nhờ cung cấp các linh kiện cốt lõi cho trung tâm dữ liệu AI, tiềm năng lợi nhuận của thị trường hạ tầng AI càng được nhấn mạnh
    • Với OpenAI, công ty đang được nhắc tới với mức định giá IPO 1 nghìn tỷ USD, việc cắt giảm chi phí suy luận là chìa khóa để thu hồi chi phí huấn luyện khổng lồ và chứng minh khả năng sinh lời
    • Giá cổ phiếu Broadcom đã tăng trong năm 2026, lên khoảng gấp 7 lần so với cuối năm 2022, phản ánh lợi ích từ mối hợp tác này

Phổ cập AI tiên tiến

  • Suy luận là điểm AI gặp con người, nên việc cải thiện chi phí, tốc độ và độ ổn định sẽ trực tiếp dẫn tới phản hồi ChatGPT nhanh hơn, tác vụ Codex không phải chờ đợi, sản phẩm API rẻ hơn và khả năng truy cập ổn định hơn khi nhu cầu tăng vọt
  • Cốt lõi của việc phổ cập AI là khiến các mô hình tiên tiến trở nên khả dụng, ổn định và rẻ đủ để nhiều người có thể dùng mỗi ngày
  • Điều này giúp chuyển đổi hạ tầng thành trí tuệ hữu ích cho tất cả những ai muốn học hỏi, xây dựng và giải quyết các vấn đề khó khăn — từ sinh viên, nhà phát triển, tiểu thương, nhà nghiên cứu đến doanh nghiệp

1 bình luận

 
Ý kiến trên Hacker News
  • Muốn xem chi tiết hơn phần “đã tăng tốc thiết kế và tối ưu hóa bằng mô hình OpenAI”
    Chỉ nhìn cách diễn đạt hiện tại thì có vẻ như một câu chữ marketing, kiểu nói rằng việc phát triển nhanh hơn là nhờ Microsoft Office hay màn hình 5K LG Ultrafine 40 inch
    Nếu đây thực sự là việc lớn như câu chữ đang ngụ ý, có lẽ OpenAI đã nhấn mạnh mạnh mẽ hơn nhiều

    • Ở góc nhìn của CEO mảng chip, mọi thứ hoàn toàn khác nhau tùy vào việc “thiết kế” và “sản xuất” được hiểu là gì
      Không rõ “thiết kế” có nghĩa là hoàn tất thiết kế hay không, và “sản xuất” có phải là bắt đầu sản xuất, tức tape-out, hay không
      Nếu mất 9 tháng từ lúc đóng băng RTL đến tape-out thì với một con chip 3nm lớn và phức tạp, đó là tiến độ khá bình thường, thậm chí nếu tính cả các vấn đề phát sinh ngoài dự kiến thì cũng chỉ hơi ấn tượng một chút
      Ngược lại, nếu từ giai đoạn ý tưởng, tức chỉ có sơ đồ khối kiến trúc mà chưa có RTL, đến tape-out trong khoảng thời gian đó thì là một tiến độ đáng kinh ngạc, và thực tế có lẽ nằm đâu đó ở giữa
      Nếu công bố cụ thể hơn thì nên dùng các cột mốc và cổng kỹ thuật thực tế
    • Ngôn ngữ mô tả phần cứng (HDL) dùng trong phát triển chip khá giống ngôn ngữ lập trình, và các mô hình hiện có cũng đã hiểu được nên có thể làm khá nhiều việc
      Không nhất thiết phải có một mô hình chuyên biệt riêng mới có thể dùng mô hình ngôn ngữ lớn trong quy trình thiết kế chip
      Việc xác minh thiết kế cũng dùng nhiều lập trình truyền thống nên cũng có thể nhận được trợ giúp từ mô hình ngôn ngữ lớn
      Đây không phải là phát biểu hoàn toàn vô nghĩa; nếu hôm nay tải phần mềm thiết kế chip mã nguồn mở về, mô hình ngôn ngữ lớn thậm chí có thể giúp bạn bắt đầu làm một con chip nhỏ
    • Broadcom đã có sẵn rất nhiều IP cho AI SoC
      Những phần khó của con chip suy luận này có lẽ Broadcom đã thiết kế từ trước, còn OpenAI có khả năng chỉ đưa cho Broadcom bộ thông số mà họ mong muốn
      Nó có lẽ cũng khá giống với Google TPU
      Họ nói rằng “bộ gia tốc thế hệ đầu tiên sẽ nâng hiệu năng trên mỗi watt lên đáng kể so với mức tối tân hiện nay”, nhưng tôi muốn biết “đáng kể” ở đây là bao nhiêu
      Vera Rubin dự kiến sẽ được xuất xưởng số lượng lớn vào cuối năm nay, và được kỳ vọng có hiệu quả điện năng cho suy luận cao gấp 10 lần Blackwell[0]
      Dù đã tape-out rồi thì vẫn cần ít nhất 12 tháng, có thể còn lâu hơn, để sửa lỗi, chế tạo chip, phân bổ HBM, thiết kế rack, liên kết kết nối và triển khai vào trung tâm dữ liệu
      Đến lúc con chip này được đưa vào trung tâm dữ liệu với quy mô lớn, có khi nó sẽ phải cạnh tranh với Vera Rubin Ultra hoặc Feynman
      Cá nhân tôi cho rằng OpenAI lẽ ra không nên đầu tư vào dự án này
      Vẫn còn quá sớm; họ nên tập trung vào mô hình như Anthropic, thắng ở đó trước, rồi khi đã có khả năng sinh lợi mới làm những dự án như vậy
      Với AI, năng lượng là một trần cứng rất rõ ràng, nên đây là rủi ro cho OpenAI
      Nếu bạn có 1GW, bạn phải lắp những con chip tốt nhất; nếu chip Nvidia tốt hơn thì dự án này coi như đã đốt hàng tỷ USD
      [0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
    • Có hai cách hiểu chính, và cũng có những cách nói đùa nằm giữa hai cách đó
      1. OpenAI thực sự có công nghệ AI có thể cải thiện thiết kế chip — đây là tuyên bố táo bạo và ít khả năng xảy ra, nên cần bằng chứng
      2. OpenAI đã thiết kế mô hình và kernel kiểm thử/xác minh để kiểm tra hiệu năng trên phần cứng mô phỏng
        Vấn đề là câu đó có thể chỉ mang nghĩa thứ hai nhưng lại được viết khiến người ta nghe như nghĩa thứ nhất, nên khó mà tin được
    • Verilog đã được công khai rất nhiều, nên hoàn toàn có khả năng họ đã dùng AI để viết thêm Verilog và từ đó thiết kế chip
      Không nhất thiết phải mang tính cách mạng; có thể thiết kế có AI hỗ trợ đã hiệu quả đủ để khiến việc làm ASIC tùy chỉnh trở nên đáng giá
  • Dù bài viết của OpenAI không nhắc đến, gần như chắc chắn con chip này do TSMC sản xuất [1]
    Tôi trước đó không chắc liệu Intel có đảm nhiệm phần này hay không

    1. https://www.investing.com/news/stock-market-news/openai-unve...
    • Theo một nhận định tôi thấy trên Twitter, lý do các công ty như Google, Amazon và OpenAI dùng Broadcom không chỉ là năng lực thiết kế, mà còn vì Broadcom có các hợp đồng phân bổ với TSMC và các hãng sản xuất bộ nhớ
    • Gần đây tôi mới ghép được toàn bộ bức tranh
      Broadcom đã kiếm bộn tiền khi trở thành đối tác phần cứng TPU của Google và chia sẻ năng lực sản xuất của TSMC với Google, và giờ có vẻ họ đang làm điều tương tự với OpenAI
      Đây là một cách cực kỳ khôn ngoan để tận dụng cơn sốt vàng AI
      Chỉ là hy vọng số tiền kiếm được đó sẽ không bị dùng để vắt tiền ngành phần mềm như họ từng làm với VMWare và Bitnami
  • Muốn thấy một chip suy luận có trọng số được đưa vào như một phần của ROM trên chip
    Mỗi trọng số có một bộ nhân riêng, và vì là hằng số nên toàn bộ có thể biến thành một cụm bộ cộng đơn giản; thông lượng pipeline đầy đủ có thể đạt một token mỗi xung nhịp
    Khi đó chỉ với một mảnh silicon có thể phục vụ đồng thời hàng triệu người dùng, và bus đầu ra có thể xuất ra 500 triệu token mỗi giây
    Nhược điểm là con chip sẽ cực kỳ lớn, đến mức có thể chiếm trọn cả một wafer
    Lỗi ở cấp độ wafer có thể không phải vấn đề lớn. Mạng nơ-ron thường vẫn chịu được khi một số trọng số bị thiếu hoặc sai
    Vì tốc độ của ngành quá nhanh, có vẻ sẽ là kiểu chạy nước rút từ trọng số mô hình đến sản xuất, làm ra 50 wafer, dùng trong 1 năm rồi bỏ khi mô hình trở nên lỗi thời

    • Nói chính xác thì điều này gần với tính toán trong bộ nhớ (CIM) hơn là chỉ đơn thuần đưa trọng số vào ROM
      Đây là kỹ thuật mà dữ liệu, ở đây là giá trị nhân, trở thành một phần của bộ xử lý, ở đây là mạch nhân
      Nó né hoàn toàn vấn đề “lấy về rồi xử lý” ở cấp độ kiến trúc
      Vì dữ liệu nằm ngay tại nơi phép tính diễn ra nên không cần di chuyển và cũng không có độ trễ
    • Trước đây đã có https://taalas.com/, và có lẽ còn những nơi khác đang nghĩ theo hướng tương tự
      Cách này có vẻ phù hợp với mô hình nhỏ hơn là các frontier model. Các mô hình tiên phong thay đổi quá nhanh
    • Không biết bạn đã xem Cerebras chưa
      Nó chưa đi xa đến mức như mô tả, mà là có rất nhiều core và RAM, nhưng trọng số vẫn phải nạp bằng phần mềm, và với mô hình lớn thì vẫn phải stream vào trong chip
      Dù vậy, nó đúng là chip nguyên wafer
    • Tôi đã nghĩ về ý tưởng đưa trọng số vào ROM từ khá lâu rồi
      Với nhiều tác vụ thì đưa trọng số vào ROM có thể hoàn toàn ổn
      Tuy vậy, tôi không chắc đặt một bộ nhân cho mỗi trọng số có phải ý tưởng hay không
      Nếu đã lượng tử hóa xuống cỡ 2 bit thì có thể khả thi, còn không thì có lẽ tốt hơn là đặt một ROM nhỏ gần mỗi bộ nhân hoặc mỗi hàng để xử lý N phép toán ma trận khác nhau mà không phải chuyển dữ liệu từ xa
      Một ý tưởng thú vị khác là gắn một hàng đơn vị MAC vào DRAM để dùng hàng DRAM như vector
      Nếu kích thước hàng là 64Kbit thì với trọng số 8 bit sẽ là 8K phần tử, và có thể giữ cả trọng số lẫn phép tính trên cùng một chip
      Chỉ là tôi không biết có thể nhét đủ số bộ nhân vào một chip hay không
      Mảng systolic có thể có từ hàng chục nghìn đến hàng trăm nghìn phần tử, mỗi phần tử thực hiện một phép toán mỗi xung nhịp
    • Người ta hay nói memristor là lý tưởng cho mục đích này và còn có thể lập trình lại, nhưng memristor có vẻ giống ống nano carbon của thế giới điện toán
  • Thật thú vị vì có vẻ vẫn còn rất nhiều cải tiến hiệu suất có thể khai thác ở cấp độ chip
    Tôi tò mò không biết nên nhìn Taalas thế nào
    Họ nói sẽ thật sự khắc mô hình LLM vào silicon và để lại một ít bộ nhớ on-board cho tinh chỉnh
    Họ tuyên bố có lợi thế lớn về chi phí và độ trễ
    Có thể xem bản demo rất nhanh tại https://chatjimmy.ai/
    https://taalas.com/
    https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...

    • Nếu chỉ độc quyền dùng GPU đa dụng thì đương nhiên sẽ bỏ lỡ rất nhiều hiệu suất
      Đó là lý do Google bắt đầu làm TPU từ hơn 10 năm trước
      Tôi nhớ vụ tranh cãi khi Google sa thải Timnit Gebru vì một bài báo tính tác động môi trường của LLM dựa trên GPU mà bỏ qua hiệu suất của TPU
      Có vẻ Jeff Dean đã rất tức giận vì khoảng cách hiệu suất quá lớn đó
    • Sẽ rất hay nếu thấy nhiều thứ kiểu này hơn, nhưng khả năng cập nhật thành một mô hình hoàn toàn mới mỗi khi có model mới xuất hiện có lẽ sẽ bị hạn chế
      Nếu vậy thì sẽ cực kỳ khó bán
    • Về mặt kỹ thuật thì thú vị, nhưng có vẻ thiếu chi tiết quá nhiều
      Tôi không thích ý tưởng nhét một mô hình đơn lẻ không bao giờ thay đổi vào chip
      Tôi tự hỏi nếu dùng ROM có thể ghi lại cho trọng số thì silicon sẽ đắt hơn bao nhiêu
      Làm vậy sẽ cho phép tinh chỉnh mô hình mục tiêu trong thiết kế và giảm bớt lo ngại mô hình bị lỗi thời
    • 17k token/giây trong chatbot thì ấn tượng nhưng gần như là màn trình diễn vô dụng
      Với coding agent thì đó là cải tiến có ý nghĩa, còn với robotics thì có thể là một cuộc cách mạng hoàn toàn
      Mô hình 8B không hữu ích cho mục đích chung, nhưng trong các ứng dụng cụ thể nó có thể mang lại trí tuệ rất lớn
      Đối thủ cạnh tranh của Tesla/Waymo bên Nvidia là LLM 7B và mô hình khuếch tán 2B; nếu có thể chạy chúng ở tốc độ như vậy thì chi phí có thể thấp hơn giải pháp hiện tại một bậc độ lớn
    • Khi sự phát triển của mô hình chậm lại đáng kể, kiểu phần cứng này có lẽ sẽ là tương lai của các nhà cung cấp LLM
      Có thể lập luận rằng chúng ta đã khá gần thời điểm đó rồi
      Các hyperscaler như AWS sẽ tận dụng tốt loại chip này để phục vụ những mô hình còn hữu dụng trong vài năm
      Nhưng hiện tại, chất lượng mô hình vẫn đang nhảy vọt mỗi vài tháng, đặc biệt với các mô hình trọng số mở như Deepseek/Kimi/GLM
      Trước thời điểm đó, rất khó thấy được cách tiếp cận này có thể hiệu quả chi phí hơn phần cứng đa dụng
      Ngoài ra, có vẻ một phiên bản thu nhỏ của thứ này cũng sẽ đi vào phần cứng di động, cung cấp LLM on-device cực nhanh và hiệu quả
  • Một động thái khá lớn
    Có vẻ như Google và TPU đã đi đến khoảng thế hệ thứ 7, và nếu tính cả những nỗ lực phái sinh như LPU hay Wafer Scale Engine của Cerebras thì có vẻ họ đã có tầm nhìn xa hơn nhiều
    Tuy vậy, ấn tượng ban đầu là con chip này dường như nhắm đến suy luận chứ không phải huấn luyện, và đó cũng là một lựa chọn thú vị

    • Huấn luyện gần như là chi phí chỉ phát sinh một lần, và hiệu quả đã đang được cải thiện nhờ các cải tiến kiến trúc
      Trong khi đó, suy luận là chi phí phát sinh liên tục và theo thời gian sẽ tiêu tốn nhiều tài nguyên hơn rất nhiều, nên về dài hạn sẽ có lợi hơn nếu tập trung làm nó hiệu quả hơn nhiều
    • Giờ tôi cho rằng chi phí suy luận đã cao hơn chi phí huấn luyện
      Nvidia là vua của các chip huấn luyện đa dụng, nhưng suy luận thì có thể được chuyên biệt hóa
    • Codex Spark 5.3 của Cerebras là một thất bại lớn
      Cửa sổ ngữ cảnh nhỏ và mô hình cũng đã cũ
      Dù vậy, sẽ rất tuyệt nếu nó được cải thiện để có thể tận hưởng GPT 5.5 ở tốc độ 1000 token mỗi giây
    • Họ nói rằng “trong các thử nghiệm ban đầu, Jalapeño sẽ cải thiện đáng kể hiệu năng trên mỗi watt so với mức tối tân hiện nay”, và từ đây bắt đầu thấy điều thực sự quan trọng là gì
      Cách diễn đạt thì mơ hồ, nhưng TPU cũng đưa ra tuyên bố tương tự
      Tôi vẫn nghĩ bản ghi nhớ “chúng ta không có hào lũy” của Google là đúng. Nếu chưa biết thì xem https://newsletter.semianalysis.com/p/google-we-have-no-moat...
      Diễn biến hiện tại dường như ngày càng giống với cuộc cạnh tranh phần cứng mà IBM, DEC, Cray và Sun đã tạo ra trong giai đoạn 60–90
      Lịch sử không lặp lại, nhưng thường có vần điệu, và những nỗ lực này cũng có vẻ sẽ đi theo quỹ đạo tương tự
  • Nhìn vào tốc độ phát triển của AI và việc AI giúp tạo ra AI nhanh hơn, tốt hơn, tôi cứ tự hỏi liệu loại phần cứng này có trở nên lỗi thời trước khi kịp hoàn vốn đầu tư đáng kể hay không
    Ngay cả bây giờ, với lượng tử hóa và offloading, các mô hình AI khổng lồ đã có thể chạy với ít tài nguyên hơn, nhưng đó mới chỉ là khởi đầu
    Một ngày nào đó, có lẽ không quá xa, có thể sẽ xuất hiện một đột phá cho phép chạy tốt một LLM khổng lồ cỡ 200B trên một máy bàn Dell đã 5 năm tuổi
    Nghe có vẻ điên rồ, nhưng hãy nhìn kích thước của những ổ cứng đời đầu
    IBM 350 lưu trữ 3.5Mb bằng một đĩa gồm 50 platter đường kính 24 inch, và được cho thuê với giá 35.000 USD theo giá trị ngày nay
    https://www.computerhistory.org/storageengine/first-commerci...
    Hãy so sánh điều đó với SSD nhiều terabyte, rồi áp dụng cùng kiểu cải tiến đó vào kiến trúc LLM hiện tại và cách triển khai chúng
    Nếu có thêm sự hỗ trợ của AI thì chẳng bao lâu nữa sẽ có một bước nhảy vọt, và những trung tâm dữ liệu hiện chất đầy card Nvidia tối tân có thể trở nên lạc hậu gần như chỉ sau một đêm

    • Nếu có một đột phá như vậy, thì có lẽ cũng có thể dùng chính cách đó để chạy mô hình 200T trong các trung tâm dữ liệu ngày nay
    • Ý tưởng thú vị đấy, nhưng so sánh với ổ cứng có lẽ không công bằng
      IBM 350 được thương mại hóa cách đây 70 năm, và phải mất 70 năm mới đến lúc ngày nay người ta có thể đem nó so với SSD nhiều TB
      Hơn nữa, không có gì đảm bảo rằng định luật Moore nhất định sẽ áp dụng cho LLM trong vài thập kỷ tới
    • Tôi nghĩ điều đó sẽ không xảy ra vì nghịch lý Jevons và các định luật scale
      Nếu mô hình lớn hơn luôn tốt hơn, và có vẻ thực tế đúng là vậy, thì sẽ luôn cần phần cứng hiệu năng cao
    • Các đột phá trong điện toán thường làm tăng mức sử dụng điện toán thay vì làm giảm nó
    • Tôi nghĩ rồi sẽ có phần cứng chuyên dụng cho LLM ngoài GPU
      TPU thì có, nhưng chủ yếu dành cho trung tâm dữ liệu, còn GPU vốn là thứ được điều chỉnh lại từ các ứng dụng đồ họa
      Khi nhu cầu từ trung tâm dữ liệu hạ nhiệt, đổi mới có thể mới thực sự bùng nổ
  • Có một phần ở đây chưa được bàn nhiều
    Trong một cuộc phỏng vấn, CEO Broadcom Hock Tan nói rằng bộ tăng tốc này hiện cho thấy mức giảm chi phí khoảng 50% so với các bộ xử lý đồ họa AI thông thường [0]
    Bối cảnh đang thay đổi quá nhanh và vẫn còn rất nhiều “quả thấp dễ hái”, nên việc tranh luận xem nhà cung cấp nào có hào lũy hay có thể thu hồi vốn đầu tư hay không dường như không mấy ý nghĩa
    [0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...

    • Nếu biên lợi nhuận GPU là 75% thì rẻ hơn 50% cũng chẳng có gì đáng ngạc nhiên
    • Từ “thông thường” ở đây đóng vai trò rất lớn
      Nó có thể đang ám chỉ những con chip cũ hơn rất nhiều so với các chip Nvidia hiện đang bán
  • Nếu mục tiêu là “triển khai ban đầu vào cuối năm 2026 rồi mở rộng trong những năm tiếp theo”, thì sau IPO có vẻ nó sẽ được đưa thật đậm vào tài liệu chào bán như một lời hứa cho tương lai
    Mọi công bố trước IPO tôi đều nhìn với sự hoài nghi

    • Cả câu chuyện trước IPO này tạo cảm giác như một trò đùa, còn hình dáng của nó thì giống nắp giỏ đựng đồ giặt
      Nếu là trò lừa thì tôi cũng sẽ không ngạc nhiên
    • Tôi không rõ là IPO của ai
      Broadcom và Google thì tất nhiên đã niêm yết rồi
  • Microsoft, Google và Amazon cũng làm việc này, nhưng họ còn có cả hạ tầng trung tâm dữ liệu hyperscale để lưu trữ các chip đó
    Thiết kế và tape-out chip là một stack hoàn toàn khác với đóng gói, làm mát, triển khai, cấp điện và quản lý fleet
    Tôi tò mò không biết họ sẽ lấy phần đó từ đâu

    • Đừng quên Stargate
      Cập nhật: trên Twitter có người nói nó sẽ được Microsoft và Oracle lưu trữ theo tỷ lệ 50:50
  • Trước đây tôi đã cho Opus 4.5 thiết kế một bộ máy suy luận LLM dựa trên Verilog, bao gồm cả firmware và kiểm thử tự động: https://github.com/cpldcpu/smollm.c
    Tất nhiên còn lâu mới tối ưu, nhưng điều đó xác nhận rằng cách hạ thấp mức trừu tượng để đi xuống triển khai thực tế là cực kỳ mạnh mẽ

    • Không biết có ai có thể gợi ý các tutorial đáng học về Verilog và FPGA nói chung không
      Tôi vẫn còn một chiếc Tang Nano 9k, nhưng không tự tin giao hết cho Claude kiểu vibe coding để nó tự làm ra lời giải, và muốn có ít nhất một mức hiểu biết nền tảng tối thiểu