OpenAI công bố Jalapeño, chip suy luận tùy biến đầu tiên hợp tác với Broadcom

(techcrunch.com)

3 điểm bởi GN⁺ 3 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp

Jalapeño là bộ tăng tốc chuyên biệt cho suy luận (inference) LLM, đồng thời là thành quả đầu tiên của nền tảng điện toán đa thế hệ được phát triển cùng Broadcom
Chỉ mất 9 tháng từ lúc bắt đầu thiết kế đến tape-out sản xuất, được cho là chu kỳ phát triển ASIC nhanh nhất từ trước đến nay trong lĩnh vực bán dẫn hiệu năng cao tiên tiến
Trong các thử nghiệm ban đầu, giảm khoảng 50% chi phí so với GPU AI thông thường, đồng thời hiệu năng trên mỗi watt cũng vượt trội đáng kể so với mặt bằng tiên tiến hiện nay
Là một phần trong chiến lược full-stack tự thiết kế từ kiến trúc chip, kernel, bộ nhớ đến mạng, nhằm giảm phụ thuộc vào GPU Nvidia và mở rộng từ một công ty phần mềm thành nhà cung cấp hạ tầng AI
Dự kiến sẽ được triển khai tại các trung tâm dữ liệu quy mô gigawatt cùng các đối tác như Microsoft từ cuối năm 2026, càng làm nổi bật ý nghĩa của dự án trong bối cảnh áp lực chứng minh khả năng sinh lời trước đợt IPO quy mô 1 nghìn tỷ USD

Công bố chip Jalapeño

Vào thứ Tư, OpenAI và Broadcom (NASDAQ: AVGO) đã công bố Intelligence Processor đầu tiên của OpenAI, Jalapeño
Đây là bộ tăng tốc được thiết kế cho tương lai của suy luận LLM, đồng thời là bộ tăng tốc AI đầu tiên trong nền tảng điện toán đa thế hệ mà hai công ty cùng xây dựng
Chủ tịch kiêm CEO Broadcom Hock Tan và Chủ tịch Charlie Kawwas đã trực tiếp trao mẫu chip cho CEO OpenAI Sam Altman và Chủ tịch Greg Brockman
Đây là một bước quan trọng trong chiến lược của OpenAI nhằm vươn lên thành nhà cung cấp hạ tầng AI, vượt ra ngoài các sản phẩm tiêu dùng

Cấu trúc và hiệu năng của chip

Jalapeño không phải là con chip đa dụng được cải biên từ bộ tăng tốc dành cho khối lượng công việc AI hiện có, mà là một thiết kế blank-slate dành riêng cho suy luận LLM hiện đại
Đây là ASIC có thể được thiết kế theo từng tác vụ AI cụ thể, kém linh hoạt hơn GPU Nvidia nhưng rẻ hơn
Hiệu năng và hiệu quả
- Trong thử nghiệm ban đầu, giảm khoảng 50% chi phí so với GPU AI thông thường (theo phỏng vấn với Hock Tan)
- Hiệu năng cuối cùng vẫn đang được đo đạc, nhưng hiệu năng trên mỗi watt đã cho thấy mức cải thiện lớn so với mặt bằng tiên tiến hiện nay
- Bằng cách giảm di chuyển dữ liệu và cân bằng tài nguyên tính toán, bộ nhớ và mạng, chip có thể đạt mức sử dụng thực tế gần với hiệu năng tối đa về mặt lý thuyết
- Hình ảnh chip được công bố cho thấy 8 vị trí HBM và die tính toán ở trung tâm
Xác minh hoạt động
- Các mẫu kỹ thuật đang chạy khối lượng công việc ML ở mức tần số và điện năng mục tiêu cho sản xuất hàng loạt, trong đó có GPT‑5.3‑Codex‑Spark
- Báo cáo kỹ thuật chi tiết dự kiến sẽ được công bố trong vài tháng tới
- Năng lực triển khai silicon của Broadcom và silicon mạng Tomahawk sẽ hỗ trợ sản xuất hàng loạt ở quy mô lớn

Tape-out trong 9 tháng, được tăng tốc bởi các mô hình của OpenAI

Từ thiết kế ban đầu đến tape-out sản xuất chỉ mất 9 tháng phát triển chung, được cho là chu kỳ phát triển ASIC nhanh nhất từ trước đến nay trong bán dẫn tiên tiến hiệu năng cao
Một phần quá trình thiết kế và tối ưu hóa đã sử dụng các mô hình nội bộ của OpenAI; Brockman cho biết mức độ mà các mô hình này tăng tốc quá trình phát triển là "đáng kinh ngạc"
Chính những mô hình đang được cung cấp cho người dùng sẽ trong tương lai góp phần cải thiện hạ tầng dùng để chạy các mô hình đó
Nếu AI có thể giúp kỹ sư thiết kế chip nhanh hơn, điều đó có thể dẫn tới việc giảm chi phí điện toán trên toàn ngành và mở rộng khả năng tiếp cận AI tiên tiến

Nền tảng đa thế hệ và các đối tác

Jalapeño là bước đầu tiên của nền tảng điện toán đa thế hệ sẽ mở rộng trong nhiều năm tới, với mục tiêu triển khai ban đầu vào cuối năm 2026
Cấu trúc hợp tác
- OpenAI — thiết kế bộ tăng tốc, dựa trên hiểu biết sâu về nền tảng LLM
- Broadcom — hiện thực hóa chip, công nghệ mạng và kết nối
- Celestica — chuyên môn về bo mạch, rack và tích hợp hệ thống
Năm ngoái, OpenAI và Broadcom đã công bố kế hoạch phát triển chip tùy biến cho năng lực điện toán quy mô 10 gigawatt, và nay đã công bố con chip đầu tiên của kế hoạch đó
Nhu cầu bùng nổ
- CEO Broadcom Hock Tan cho biết từ năm 2026, con chip này sẽ cho phép triển khai tại các trung tâm dữ liệu quy mô gigawatt cùng các đối tác như Microsoft, với kế hoạch mở rộng sau giai đoạn nguyên mẫu quy mô nhỏ vào cuối năm 2026
- Brockman nói rằng "không thể có đủ điện toán đủ nhanh", còn Tan cho biết nhu cầu từ 6 khách hàng là "thực sự không thể đáp ứng hết" và vào giai đoạn 2027~2028 cũng sẽ tương tự hoặc còn cao hơn
- Richard Ho, lãnh đạo chương trình phần cứng của OpenAI, giải thích rằng kiến trúc đã được tối ưu xoay quanh các kernel, việc di chuyển bộ nhớ, mạng và mẫu phục vụ quan trọng nhất đối với các mô hình AI frontier

Chiến lược full-stack và cục diện cạnh tranh

OpenAI không chỉ phát triển các mô hình frontier và xây dựng sản phẩm, mà còn tự thiết kế cả tầng hạ tầng bên dưới — bao gồm kiến trúc chip, kernel, hệ thống bộ nhớ, mạng, lập lịch, hệ thống triển khai và trải nghiệm sản phẩm
Nhờ đó, OpenAI gia nhập hàng ngũ các công ty AI full-stack có silicon riêng như Google (TPU), Amazon (Trainium), Microsoft (Azure Maia 100)
Giảm phụ thuộc vào Nvidia
- "Không ai muốn bị phụ thuộc vào Nvidia" (Ben Barringer, trưởng bộ phận nghiên cứu công nghệ tại Quilter Cheviot), phản ánh xu hướng đa dạng hóa nguồn cung chip
- OpenAI vừa là một trong những khách hàng lớn nhất của Nvidia, vừa đã ký thỏa thuận cung ứng với AMD (dòng Instinct MI450), Cerebras và các bên khác
Ý nghĩa kinh doanh
- Khi Nvidia trở thành công ty giá trị nhất thế giới nhờ cung cấp các linh kiện cốt lõi cho trung tâm dữ liệu AI, tiềm năng lợi nhuận của thị trường hạ tầng AI càng được nhấn mạnh
- Với OpenAI, công ty đang được nhắc tới với mức định giá IPO 1 nghìn tỷ USD, việc cắt giảm chi phí suy luận là chìa khóa để thu hồi chi phí huấn luyện khổng lồ và chứng minh khả năng sinh lời
- Giá cổ phiếu Broadcom đã tăng trong năm 2026, lên khoảng gấp 7 lần so với cuối năm 2022, phản ánh lợi ích từ mối hợp tác này

Phổ cập AI tiên tiến

Suy luận là điểm AI gặp con người, nên việc cải thiện chi phí, tốc độ và độ ổn định sẽ trực tiếp dẫn tới phản hồi ChatGPT nhanh hơn, tác vụ Codex không phải chờ đợi, sản phẩm API rẻ hơn và khả năng truy cập ổn định hơn khi nhu cầu tăng vọt
Cốt lõi của việc phổ cập AI là khiến các mô hình tiên tiến trở nên khả dụng, ổn định và rẻ đủ để nhiều người có thể dùng mỗi ngày
Điều này giúp chuyển đổi hạ tầng thành trí tuệ hữu ích cho tất cả những ai muốn học hỏi, xây dựng và giải quyết các vấn đề khó khăn — từ sinh viên, nhà phát triển, tiểu thương, nhà nghiên cứu đến doanh nghiệp

1 bình luận

GN⁺ 3 giờ trước

Ý kiến trên Hacker News

Muốn xem chi tiết hơn phần “đã tăng tốc thiết kế và tối ưu hóa bằng mô hình OpenAI”
Chỉ nhìn cách diễn đạt hiện tại thì có vẻ như một câu chữ marketing, kiểu nói rằng việc phát triển nhanh hơn là nhờ Microsoft Office hay màn hình 5K LG Ultrafine 40 inch
Nếu đây thực sự là việc lớn như câu chữ đang ngụ ý, có lẽ OpenAI đã nhấn mạnh mạnh mẽ hơn nhiều
- Ở góc nhìn của CEO mảng chip, mọi thứ hoàn toàn khác nhau tùy vào việc “thiết kế” và “sản xuất” được hiểu là gì
  Không rõ “thiết kế” có nghĩa là hoàn tất thiết kế hay không, và “sản xuất” có phải là bắt đầu sản xuất, tức tape-out, hay không
  Nếu mất 9 tháng từ lúc đóng băng RTL đến tape-out thì với một con chip 3nm lớn và phức tạp, đó là tiến độ khá bình thường, thậm chí nếu tính cả các vấn đề phát sinh ngoài dự kiến thì cũng chỉ hơi ấn tượng một chút
  Ngược lại, nếu từ giai đoạn ý tưởng, tức chỉ có sơ đồ khối kiến trúc mà chưa có RTL, đến tape-out trong khoảng thời gian đó thì là một tiến độ đáng kinh ngạc, và thực tế có lẽ nằm đâu đó ở giữa
  Nếu công bố cụ thể hơn thì nên dùng các cột mốc và cổng kỹ thuật thực tế
- Ngôn ngữ mô tả phần cứng (HDL) dùng trong phát triển chip khá giống ngôn ngữ lập trình, và các mô hình hiện có cũng đã hiểu được nên có thể làm khá nhiều việc
  Không nhất thiết phải có một mô hình chuyên biệt riêng mới có thể dùng mô hình ngôn ngữ lớn trong quy trình thiết kế chip
  Việc xác minh thiết kế cũng dùng nhiều lập trình truyền thống nên cũng có thể nhận được trợ giúp từ mô hình ngôn ngữ lớn
  Đây không phải là phát biểu hoàn toàn vô nghĩa; nếu hôm nay tải phần mềm thiết kế chip mã nguồn mở về, mô hình ngôn ngữ lớn thậm chí có thể giúp bạn bắt đầu làm một con chip nhỏ
- Broadcom đã có sẵn rất nhiều IP cho AI SoC
  Những phần khó của con chip suy luận này có lẽ Broadcom đã thiết kế từ trước, còn OpenAI có khả năng chỉ đưa cho Broadcom bộ thông số mà họ mong muốn
  Nó có lẽ cũng khá giống với Google TPU
  Họ nói rằng “bộ gia tốc thế hệ đầu tiên sẽ nâng hiệu năng trên mỗi watt lên đáng kể so với mức tối tân hiện nay”, nhưng tôi muốn biết “đáng kể” ở đây là bao nhiêu
  Vera Rubin dự kiến sẽ được xuất xưởng số lượng lớn vào cuối năm nay, và được kỳ vọng có hiệu quả điện năng cho suy luận cao gấp 10 lần Blackwell[0]
  Dù đã tape-out rồi thì vẫn cần ít nhất 12 tháng, có thể còn lâu hơn, để sửa lỗi, chế tạo chip, phân bổ HBM, thiết kế rack, liên kết kết nối và triển khai vào trung tâm dữ liệu
  Đến lúc con chip này được đưa vào trung tâm dữ liệu với quy mô lớn, có khi nó sẽ phải cạnh tranh với Vera Rubin Ultra hoặc Feynman
  Cá nhân tôi cho rằng OpenAI lẽ ra không nên đầu tư vào dự án này
  Vẫn còn quá sớm; họ nên tập trung vào mô hình như Anthropic, thắng ở đó trước, rồi khi đã có khả năng sinh lợi mới làm những dự án như vậy
  Với AI, năng lượng là một trần cứng rất rõ ràng, nên đây là rủi ro cho OpenAI
  Nếu bạn có 1GW, bạn phải lắp những con chip tốt nhất; nếu chip Nvidia tốt hơn thì dự án này coi như đã đốt hàng tỷ USD
  [0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
- Có hai cách hiểu chính, và cũng có những cách nói đùa nằm giữa hai cách đó
  1. OpenAI thực sự có công nghệ AI có thể cải thiện thiết kế chip — đây là tuyên bố táo bạo và ít khả năng xảy ra, nên cần bằng chứng
  2. OpenAI đã thiết kế mô hình và kernel kiểm thử/xác minh để kiểm tra hiệu năng trên phần cứng mô phỏng
    Vấn đề là câu đó có thể chỉ mang nghĩa thứ hai nhưng lại được viết khiến người ta nghe như nghĩa thứ nhất, nên khó mà tin được
- Verilog đã được công khai rất nhiều, nên hoàn toàn có khả năng họ đã dùng AI để viết thêm Verilog và từ đó thiết kế chip
  Không nhất thiết phải mang tính cách mạng; có thể thiết kế có AI hỗ trợ đã hiệu quả đủ để khiến việc làm ASIC tùy chỉnh trở nên đáng giá
Dù bài viết của OpenAI không nhắc đến, gần như chắc chắn con chip này do TSMC sản xuất [1]
Tôi trước đó không chắc liệu Intel có đảm nhiệm phần này hay không
1. https://www.investing.com/news/stock-market-news/openai-unve...
- Theo một nhận định tôi thấy trên Twitter, lý do các công ty như Google, Amazon và OpenAI dùng Broadcom không chỉ là năng lực thiết kế, mà còn vì Broadcom có các hợp đồng phân bổ với TSMC và các hãng sản xuất bộ nhớ
- Gần đây tôi mới ghép được toàn bộ bức tranh
  Broadcom đã kiếm bộn tiền khi trở thành đối tác phần cứng TPU của Google và chia sẻ năng lực sản xuất của TSMC với Google, và giờ có vẻ họ đang làm điều tương tự với OpenAI
  Đây là một cách cực kỳ khôn ngoan để tận dụng cơn sốt vàng AI
  Chỉ là hy vọng số tiền kiếm được đó sẽ không bị dùng để vắt tiền ngành phần mềm như họ từng làm với VMWare và Bitnami
Muốn thấy một chip suy luận có trọng số được đưa vào như một phần của ROM trên chip
Mỗi trọng số có một bộ nhân riêng, và vì là hằng số nên toàn bộ có thể biến thành một cụm bộ cộng đơn giản; thông lượng pipeline đầy đủ có thể đạt một token mỗi xung nhịp
Khi đó chỉ với một mảnh silicon có thể phục vụ đồng thời hàng triệu người dùng, và bus đầu ra có thể xuất ra 500 triệu token mỗi giây
Nhược điểm là con chip sẽ cực kỳ lớn, đến mức có thể chiếm trọn cả một wafer
Lỗi ở cấp độ wafer có thể không phải vấn đề lớn. Mạng nơ-ron thường vẫn chịu được khi một số trọng số bị thiếu hoặc sai
Vì tốc độ của ngành quá nhanh, có vẻ sẽ là kiểu chạy nước rút từ trọng số mô hình đến sản xuất, làm ra 50 wafer, dùng trong 1 năm rồi bỏ khi mô hình trở nên lỗi thời
- Nói chính xác thì điều này gần với tính toán trong bộ nhớ (CIM) hơn là chỉ đơn thuần đưa trọng số vào ROM
  Đây là kỹ thuật mà dữ liệu, ở đây là giá trị nhân, trở thành một phần của bộ xử lý, ở đây là mạch nhân
  Nó né hoàn toàn vấn đề “lấy về rồi xử lý” ở cấp độ kiến trúc
  Vì dữ liệu nằm ngay tại nơi phép tính diễn ra nên không cần di chuyển và cũng không có độ trễ
- Trước đây đã có https://taalas.com/, và có lẽ còn những nơi khác đang nghĩ theo hướng tương tự
  Cách này có vẻ phù hợp với mô hình nhỏ hơn là các frontier model. Các mô hình tiên phong thay đổi quá nhanh
- Không biết bạn đã xem Cerebras chưa
  Nó chưa đi xa đến mức như mô tả, mà là có rất nhiều core và RAM, nhưng trọng số vẫn phải nạp bằng phần mềm, và với mô hình lớn thì vẫn phải stream vào trong chip
  Dù vậy, nó đúng là chip nguyên wafer
- Tôi đã nghĩ về ý tưởng đưa trọng số vào ROM từ khá lâu rồi
  Với nhiều tác vụ thì đưa trọng số vào ROM có thể hoàn toàn ổn
  Tuy vậy, tôi không chắc đặt một bộ nhân cho mỗi trọng số có phải ý tưởng hay không
  Nếu đã lượng tử hóa xuống cỡ 2 bit thì có thể khả thi, còn không thì có lẽ tốt hơn là đặt một ROM nhỏ gần mỗi bộ nhân hoặc mỗi hàng để xử lý N phép toán ma trận khác nhau mà không phải chuyển dữ liệu từ xa
  Một ý tưởng thú vị khác là gắn một hàng đơn vị MAC vào DRAM để dùng hàng DRAM như vector
  Nếu kích thước hàng là 64Kbit thì với trọng số 8 bit sẽ là 8K phần tử, và có thể giữ cả trọng số lẫn phép tính trên cùng một chip
  Chỉ là tôi không biết có thể nhét đủ số bộ nhân vào một chip hay không
  Mảng systolic có thể có từ hàng chục nghìn đến hàng trăm nghìn phần tử, mỗi phần tử thực hiện một phép toán mỗi xung nhịp
- Người ta hay nói memristor là lý tưởng cho mục đích này và còn có thể lập trình lại, nhưng memristor có vẻ giống ống nano carbon của thế giới điện toán
Thật thú vị vì có vẻ vẫn còn rất nhiều cải tiến hiệu suất có thể khai thác ở cấp độ chip
Tôi tò mò không biết nên nhìn Taalas thế nào
Họ nói sẽ thật sự khắc mô hình LLM vào silicon và để lại một ít bộ nhớ on-board cho tinh chỉnh
Họ tuyên bố có lợi thế lớn về chi phí và độ trễ
Có thể xem bản demo rất nhanh tại https://chatjimmy.ai/
https://taalas.com/
https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...
- Nếu chỉ độc quyền dùng GPU đa dụng thì đương nhiên sẽ bỏ lỡ rất nhiều hiệu suất
  Đó là lý do Google bắt đầu làm TPU từ hơn 10 năm trước
  Tôi nhớ vụ tranh cãi khi Google sa thải Timnit Gebru vì một bài báo tính tác động môi trường của LLM dựa trên GPU mà bỏ qua hiệu suất của TPU
  Có vẻ Jeff Dean đã rất tức giận vì khoảng cách hiệu suất quá lớn đó
- Sẽ rất hay nếu thấy nhiều thứ kiểu này hơn, nhưng khả năng cập nhật thành một mô hình hoàn toàn mới mỗi khi có model mới xuất hiện có lẽ sẽ bị hạn chế
  Nếu vậy thì sẽ cực kỳ khó bán
- Về mặt kỹ thuật thì thú vị, nhưng có vẻ thiếu chi tiết quá nhiều
  Tôi không thích ý tưởng nhét một mô hình đơn lẻ không bao giờ thay đổi vào chip
  Tôi tự hỏi nếu dùng ROM có thể ghi lại cho trọng số thì silicon sẽ đắt hơn bao nhiêu
  Làm vậy sẽ cho phép tinh chỉnh mô hình mục tiêu trong thiết kế và giảm bớt lo ngại mô hình bị lỗi thời
- 17k token/giây trong chatbot thì ấn tượng nhưng gần như là màn trình diễn vô dụng
  Với coding agent thì đó là cải tiến có ý nghĩa, còn với robotics thì có thể là một cuộc cách mạng hoàn toàn
  Mô hình 8B không hữu ích cho mục đích chung, nhưng trong các ứng dụng cụ thể nó có thể mang lại trí tuệ rất lớn
  Đối thủ cạnh tranh của Tesla/Waymo bên Nvidia là LLM 7B và mô hình khuếch tán 2B; nếu có thể chạy chúng ở tốc độ như vậy thì chi phí có thể thấp hơn giải pháp hiện tại một bậc độ lớn
- Khi sự phát triển của mô hình chậm lại đáng kể, kiểu phần cứng này có lẽ sẽ là tương lai của các nhà cung cấp LLM
  Có thể lập luận rằng chúng ta đã khá gần thời điểm đó rồi
  Các hyperscaler như AWS sẽ tận dụng tốt loại chip này để phục vụ những mô hình còn hữu dụng trong vài năm
  Nhưng hiện tại, chất lượng mô hình vẫn đang nhảy vọt mỗi vài tháng, đặc biệt với các mô hình trọng số mở như Deepseek/Kimi/GLM
  Trước thời điểm đó, rất khó thấy được cách tiếp cận này có thể hiệu quả chi phí hơn phần cứng đa dụng
  Ngoài ra, có vẻ một phiên bản thu nhỏ của thứ này cũng sẽ đi vào phần cứng di động, cung cấp LLM on-device cực nhanh và hiệu quả
Một động thái khá lớn
Có vẻ như Google và TPU đã đi đến khoảng thế hệ thứ 7, và nếu tính cả những nỗ lực phái sinh như LPU hay Wafer Scale Engine của Cerebras thì có vẻ họ đã có tầm nhìn xa hơn nhiều
Tuy vậy, ấn tượng ban đầu là con chip này dường như nhắm đến suy luận chứ không phải huấn luyện, và đó cũng là một lựa chọn thú vị
- Huấn luyện gần như là chi phí chỉ phát sinh một lần, và hiệu quả đã đang được cải thiện nhờ các cải tiến kiến trúc
  Trong khi đó, suy luận là chi phí phát sinh liên tục và theo thời gian sẽ tiêu tốn nhiều tài nguyên hơn rất nhiều, nên về dài hạn sẽ có lợi hơn nếu tập trung làm nó hiệu quả hơn nhiều
- Giờ tôi cho rằng chi phí suy luận đã cao hơn chi phí huấn luyện
  Nvidia là vua của các chip huấn luyện đa dụng, nhưng suy luận thì có thể được chuyên biệt hóa
- Codex Spark 5.3 của Cerebras là một thất bại lớn
  Cửa sổ ngữ cảnh nhỏ và mô hình cũng đã cũ
  Dù vậy, sẽ rất tuyệt nếu nó được cải thiện để có thể tận hưởng GPT 5.5 ở tốc độ 1000 token mỗi giây
- Họ nói rằng “trong các thử nghiệm ban đầu, Jalapeño sẽ cải thiện đáng kể hiệu năng trên mỗi watt so với mức tối tân hiện nay”, và từ đây bắt đầu thấy điều thực sự quan trọng là gì
  Cách diễn đạt thì mơ hồ, nhưng TPU cũng đưa ra tuyên bố tương tự
  Tôi vẫn nghĩ bản ghi nhớ “chúng ta không có hào lũy” của Google là đúng. Nếu chưa biết thì xem https://newsletter.semianalysis.com/p/google-we-have-no-moat...
  Diễn biến hiện tại dường như ngày càng giống với cuộc cạnh tranh phần cứng mà IBM, DEC, Cray và Sun đã tạo ra trong giai đoạn 60–90
  Lịch sử không lặp lại, nhưng thường có vần điệu, và những nỗ lực này cũng có vẻ sẽ đi theo quỹ đạo tương tự
Nhìn vào tốc độ phát triển của AI và việc AI giúp tạo ra AI nhanh hơn, tốt hơn, tôi cứ tự hỏi liệu loại phần cứng này có trở nên lỗi thời trước khi kịp hoàn vốn đầu tư đáng kể hay không
Ngay cả bây giờ, với lượng tử hóa và offloading, các mô hình AI khổng lồ đã có thể chạy với ít tài nguyên hơn, nhưng đó mới chỉ là khởi đầu
Một ngày nào đó, có lẽ không quá xa, có thể sẽ xuất hiện một đột phá cho phép chạy tốt một LLM khổng lồ cỡ 200B trên một máy bàn Dell đã 5 năm tuổi
Nghe có vẻ điên rồ, nhưng hãy nhìn kích thước của những ổ cứng đời đầu
IBM 350 lưu trữ 3.5Mb bằng một đĩa gồm 50 platter đường kính 24 inch, và được cho thuê với giá 35.000 USD theo giá trị ngày nay
https://www.computerhistory.org/storageengine/first-commerci...
Hãy so sánh điều đó với SSD nhiều terabyte, rồi áp dụng cùng kiểu cải tiến đó vào kiến trúc LLM hiện tại và cách triển khai chúng
Nếu có thêm sự hỗ trợ của AI thì chẳng bao lâu nữa sẽ có một bước nhảy vọt, và những trung tâm dữ liệu hiện chất đầy card Nvidia tối tân có thể trở nên lạc hậu gần như chỉ sau một đêm
- Nếu có một đột phá như vậy, thì có lẽ cũng có thể dùng chính cách đó để chạy mô hình 200T trong các trung tâm dữ liệu ngày nay
- Ý tưởng thú vị đấy, nhưng so sánh với ổ cứng có lẽ không công bằng
  IBM 350 được thương mại hóa cách đây 70 năm, và phải mất 70 năm mới đến lúc ngày nay người ta có thể đem nó so với SSD nhiều TB
  Hơn nữa, không có gì đảm bảo rằng định luật Moore nhất định sẽ áp dụng cho LLM trong vài thập kỷ tới
- Tôi nghĩ điều đó sẽ không xảy ra vì nghịch lý Jevons và các định luật scale
  Nếu mô hình lớn hơn luôn tốt hơn, và có vẻ thực tế đúng là vậy, thì sẽ luôn cần phần cứng hiệu năng cao
- Các đột phá trong điện toán thường làm tăng mức sử dụng điện toán thay vì làm giảm nó
- Tôi nghĩ rồi sẽ có phần cứng chuyên dụng cho LLM ngoài GPU
  TPU thì có, nhưng chủ yếu dành cho trung tâm dữ liệu, còn GPU vốn là thứ được điều chỉnh lại từ các ứng dụng đồ họa
  Khi nhu cầu từ trung tâm dữ liệu hạ nhiệt, đổi mới có thể mới thực sự bùng nổ
Có một phần ở đây chưa được bàn nhiều
Trong một cuộc phỏng vấn, CEO Broadcom Hock Tan nói rằng bộ tăng tốc này hiện cho thấy mức giảm chi phí khoảng 50% so với các bộ xử lý đồ họa AI thông thường [0]
Bối cảnh đang thay đổi quá nhanh và vẫn còn rất nhiều “quả thấp dễ hái”, nên việc tranh luận xem nhà cung cấp nào có hào lũy hay có thể thu hồi vốn đầu tư hay không dường như không mấy ý nghĩa
[0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...
- Nếu biên lợi nhuận GPU là 75% thì rẻ hơn 50% cũng chẳng có gì đáng ngạc nhiên
- Từ “thông thường” ở đây đóng vai trò rất lớn
  Nó có thể đang ám chỉ những con chip cũ hơn rất nhiều so với các chip Nvidia hiện đang bán
Nếu mục tiêu là “triển khai ban đầu vào cuối năm 2026 rồi mở rộng trong những năm tiếp theo”, thì sau IPO có vẻ nó sẽ được đưa thật đậm vào tài liệu chào bán như một lời hứa cho tương lai
Mọi công bố trước IPO tôi đều nhìn với sự hoài nghi
- Cả câu chuyện trước IPO này tạo cảm giác như một trò đùa, còn hình dáng của nó thì giống nắp giỏ đựng đồ giặt
  Nếu là trò lừa thì tôi cũng sẽ không ngạc nhiên
- Tôi không rõ là IPO của ai
  Broadcom và Google thì tất nhiên đã niêm yết rồi
Microsoft, Google và Amazon cũng làm việc này, nhưng họ còn có cả hạ tầng trung tâm dữ liệu hyperscale để lưu trữ các chip đó
Thiết kế và tape-out chip là một stack hoàn toàn khác với đóng gói, làm mát, triển khai, cấp điện và quản lý fleet
Tôi tò mò không biết họ sẽ lấy phần đó từ đâu
- Đừng quên Stargate
  Cập nhật: trên Twitter có người nói nó sẽ được Microsoft và Oracle lưu trữ theo tỷ lệ 50:50
Trước đây tôi đã cho Opus 4.5 thiết kế một bộ máy suy luận LLM dựa trên Verilog, bao gồm cả firmware và kiểm thử tự động: https://github.com/cpldcpu/smollm.c
Tất nhiên còn lâu mới tối ưu, nhưng điều đó xác nhận rằng cách hạ thấp mức trừu tượng để đi xuống triển khai thực tế là cực kỳ mạnh mẽ
- Không biết có ai có thể gợi ý các tutorial đáng học về Verilog và FPGA nói chung không
  Tôi vẫn còn một chiếc Tang Nano 9k, nhưng không tự tin giao hết cho Claude kiểu vibe coding để nó tự làm ra lời giải, và muốn có ít nhất một mức hiểu biết nền tảng tối thiểu

OpenAI công bố Jalapeño, chip suy luận tùy biến đầu tiên hợp tác với Broadcom

Công bố chip Jalapeño

Cấu trúc và hiệu năng của chip

Hiệu năng và hiệu quả

Xác minh hoạt động

Tape-out trong 9 tháng, được tăng tốc bởi các mô hình của OpenAI

Nền tảng đa thế hệ và các đối tác

Cấu trúc hợp tác

Nhu cầu bùng nổ

Chiến lược full-stack và cục diện cạnh tranh

Giảm phụ thuộc vào Nvidia

Ý nghĩa kinh doanh

Phổ cập AI tiên tiến

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News