- Jalapeño là bộ tăng tốc chuyên biệt cho suy luận (inference) LLM, đồng thời là thành quả đầu tiên của nền tảng điện toán đa thế hệ được phát triển cùng Broadcom
- Chỉ mất 9 tháng từ lúc bắt đầu thiết kế đến tape-out sản xuất, được cho là chu kỳ phát triển ASIC nhanh nhất từ trước đến nay trong lĩnh vực bán dẫn hiệu năng cao tiên tiến
- Trong các thử nghiệm ban đầu, giảm khoảng 50% chi phí so với GPU AI thông thường, đồng thời hiệu năng trên mỗi watt cũng vượt trội đáng kể so với mặt bằng tiên tiến hiện nay
- Là một phần trong chiến lược full-stack tự thiết kế từ kiến trúc chip, kernel, bộ nhớ đến mạng, nhằm giảm phụ thuộc vào GPU Nvidia và mở rộng từ một công ty phần mềm thành nhà cung cấp hạ tầng AI
- Dự kiến sẽ được triển khai tại các trung tâm dữ liệu quy mô gigawatt cùng các đối tác như Microsoft từ cuối năm 2026, càng làm nổi bật ý nghĩa của dự án trong bối cảnh áp lực chứng minh khả năng sinh lời trước đợt IPO quy mô 1 nghìn tỷ USD
Công bố chip Jalapeño
- Vào thứ Tư, OpenAI và Broadcom (NASDAQ: AVGO) đã công bố Intelligence Processor đầu tiên của OpenAI, Jalapeño
- Đây là bộ tăng tốc được thiết kế cho tương lai của suy luận LLM, đồng thời là bộ tăng tốc AI đầu tiên trong nền tảng điện toán đa thế hệ mà hai công ty cùng xây dựng
- Chủ tịch kiêm CEO Broadcom Hock Tan và Chủ tịch Charlie Kawwas đã trực tiếp trao mẫu chip cho CEO OpenAI Sam Altman và Chủ tịch Greg Brockman
- Đây là một bước quan trọng trong chiến lược của OpenAI nhằm vươn lên thành nhà cung cấp hạ tầng AI, vượt ra ngoài các sản phẩm tiêu dùng
Cấu trúc và hiệu năng của chip
- Jalapeño không phải là con chip đa dụng được cải biên từ bộ tăng tốc dành cho khối lượng công việc AI hiện có, mà là một thiết kế blank-slate dành riêng cho suy luận LLM hiện đại
- Đây là ASIC có thể được thiết kế theo từng tác vụ AI cụ thể, kém linh hoạt hơn GPU Nvidia nhưng rẻ hơn
-
Hiệu năng và hiệu quả
- Trong thử nghiệm ban đầu, giảm khoảng 50% chi phí so với GPU AI thông thường (theo phỏng vấn với Hock Tan)
- Hiệu năng cuối cùng vẫn đang được đo đạc, nhưng hiệu năng trên mỗi watt đã cho thấy mức cải thiện lớn so với mặt bằng tiên tiến hiện nay
- Bằng cách giảm di chuyển dữ liệu và cân bằng tài nguyên tính toán, bộ nhớ và mạng, chip có thể đạt mức sử dụng thực tế gần với hiệu năng tối đa về mặt lý thuyết
- Hình ảnh chip được công bố cho thấy 8 vị trí HBM và die tính toán ở trung tâm
-
Xác minh hoạt động
- Các mẫu kỹ thuật đang chạy khối lượng công việc ML ở mức tần số và điện năng mục tiêu cho sản xuất hàng loạt, trong đó có GPT‑5.3‑Codex‑Spark
- Báo cáo kỹ thuật chi tiết dự kiến sẽ được công bố trong vài tháng tới
- Năng lực triển khai silicon của Broadcom và silicon mạng Tomahawk sẽ hỗ trợ sản xuất hàng loạt ở quy mô lớn
Tape-out trong 9 tháng, được tăng tốc bởi các mô hình của OpenAI
- Từ thiết kế ban đầu đến tape-out sản xuất chỉ mất 9 tháng phát triển chung, được cho là chu kỳ phát triển ASIC nhanh nhất từ trước đến nay trong bán dẫn tiên tiến hiệu năng cao
- Một phần quá trình thiết kế và tối ưu hóa đã sử dụng các mô hình nội bộ của OpenAI; Brockman cho biết mức độ mà các mô hình này tăng tốc quá trình phát triển là "đáng kinh ngạc"
- Chính những mô hình đang được cung cấp cho người dùng sẽ trong tương lai góp phần cải thiện hạ tầng dùng để chạy các mô hình đó
- Nếu AI có thể giúp kỹ sư thiết kế chip nhanh hơn, điều đó có thể dẫn tới việc giảm chi phí điện toán trên toàn ngành và mở rộng khả năng tiếp cận AI tiên tiến
Nền tảng đa thế hệ và các đối tác
- Jalapeño là bước đầu tiên của nền tảng điện toán đa thế hệ sẽ mở rộng trong nhiều năm tới, với mục tiêu triển khai ban đầu vào cuối năm 2026
-
Cấu trúc hợp tác
- OpenAI — thiết kế bộ tăng tốc, dựa trên hiểu biết sâu về nền tảng LLM
- Broadcom — hiện thực hóa chip, công nghệ mạng và kết nối
- Celestica — chuyên môn về bo mạch, rack và tích hợp hệ thống
- Năm ngoái, OpenAI và Broadcom đã công bố kế hoạch phát triển chip tùy biến cho năng lực điện toán quy mô 10 gigawatt, và nay đã công bố con chip đầu tiên của kế hoạch đó
-
Nhu cầu bùng nổ
- CEO Broadcom Hock Tan cho biết từ năm 2026, con chip này sẽ cho phép triển khai tại các trung tâm dữ liệu quy mô gigawatt cùng các đối tác như Microsoft, với kế hoạch mở rộng sau giai đoạn nguyên mẫu quy mô nhỏ vào cuối năm 2026
- Brockman nói rằng "không thể có đủ điện toán đủ nhanh", còn Tan cho biết nhu cầu từ 6 khách hàng là "thực sự không thể đáp ứng hết" và vào giai đoạn 2027~2028 cũng sẽ tương tự hoặc còn cao hơn
- Richard Ho, lãnh đạo chương trình phần cứng của OpenAI, giải thích rằng kiến trúc đã được tối ưu xoay quanh các kernel, việc di chuyển bộ nhớ, mạng và mẫu phục vụ quan trọng nhất đối với các mô hình AI frontier
Chiến lược full-stack và cục diện cạnh tranh
- OpenAI không chỉ phát triển các mô hình frontier và xây dựng sản phẩm, mà còn tự thiết kế cả tầng hạ tầng bên dưới — bao gồm kiến trúc chip, kernel, hệ thống bộ nhớ, mạng, lập lịch, hệ thống triển khai và trải nghiệm sản phẩm
- Nhờ đó, OpenAI gia nhập hàng ngũ các công ty AI full-stack có silicon riêng như Google (TPU), Amazon (Trainium), Microsoft (Azure Maia 100)
-
Giảm phụ thuộc vào Nvidia
- "Không ai muốn bị phụ thuộc vào Nvidia" (Ben Barringer, trưởng bộ phận nghiên cứu công nghệ tại Quilter Cheviot), phản ánh xu hướng đa dạng hóa nguồn cung chip
- OpenAI vừa là một trong những khách hàng lớn nhất của Nvidia, vừa đã ký thỏa thuận cung ứng với AMD (dòng Instinct MI450), Cerebras và các bên khác
-
Ý nghĩa kinh doanh
- Khi Nvidia trở thành công ty giá trị nhất thế giới nhờ cung cấp các linh kiện cốt lõi cho trung tâm dữ liệu AI, tiềm năng lợi nhuận của thị trường hạ tầng AI càng được nhấn mạnh
- Với OpenAI, công ty đang được nhắc tới với mức định giá IPO 1 nghìn tỷ USD, việc cắt giảm chi phí suy luận là chìa khóa để thu hồi chi phí huấn luyện khổng lồ và chứng minh khả năng sinh lời
- Giá cổ phiếu Broadcom đã tăng trong năm 2026, lên khoảng gấp 7 lần so với cuối năm 2022, phản ánh lợi ích từ mối hợp tác này
Phổ cập AI tiên tiến
- Suy luận là điểm AI gặp con người, nên việc cải thiện chi phí, tốc độ và độ ổn định sẽ trực tiếp dẫn tới phản hồi ChatGPT nhanh hơn, tác vụ Codex không phải chờ đợi, sản phẩm API rẻ hơn và khả năng truy cập ổn định hơn khi nhu cầu tăng vọt
- Cốt lõi của việc phổ cập AI là khiến các mô hình tiên tiến trở nên khả dụng, ổn định và rẻ đủ để nhiều người có thể dùng mỗi ngày
- Điều này giúp chuyển đổi hạ tầng thành trí tuệ hữu ích cho tất cả những ai muốn học hỏi, xây dựng và giải quyết các vấn đề khó khăn — từ sinh viên, nhà phát triển, tiểu thương, nhà nghiên cứu đến doanh nghiệp
1 bình luận
Ý kiến trên Hacker News
Muốn xem chi tiết hơn phần “đã tăng tốc thiết kế và tối ưu hóa bằng mô hình OpenAI”
Chỉ nhìn cách diễn đạt hiện tại thì có vẻ như một câu chữ marketing, kiểu nói rằng việc phát triển nhanh hơn là nhờ Microsoft Office hay màn hình 5K LG Ultrafine 40 inch
Nếu đây thực sự là việc lớn như câu chữ đang ngụ ý, có lẽ OpenAI đã nhấn mạnh mạnh mẽ hơn nhiều
Không rõ “thiết kế” có nghĩa là hoàn tất thiết kế hay không, và “sản xuất” có phải là bắt đầu sản xuất, tức tape-out, hay không
Nếu mất 9 tháng từ lúc đóng băng RTL đến tape-out thì với một con chip 3nm lớn và phức tạp, đó là tiến độ khá bình thường, thậm chí nếu tính cả các vấn đề phát sinh ngoài dự kiến thì cũng chỉ hơi ấn tượng một chút
Ngược lại, nếu từ giai đoạn ý tưởng, tức chỉ có sơ đồ khối kiến trúc mà chưa có RTL, đến tape-out trong khoảng thời gian đó thì là một tiến độ đáng kinh ngạc, và thực tế có lẽ nằm đâu đó ở giữa
Nếu công bố cụ thể hơn thì nên dùng các cột mốc và cổng kỹ thuật thực tế
Không nhất thiết phải có một mô hình chuyên biệt riêng mới có thể dùng mô hình ngôn ngữ lớn trong quy trình thiết kế chip
Việc xác minh thiết kế cũng dùng nhiều lập trình truyền thống nên cũng có thể nhận được trợ giúp từ mô hình ngôn ngữ lớn
Đây không phải là phát biểu hoàn toàn vô nghĩa; nếu hôm nay tải phần mềm thiết kế chip mã nguồn mở về, mô hình ngôn ngữ lớn thậm chí có thể giúp bạn bắt đầu làm một con chip nhỏ
Những phần khó của con chip suy luận này có lẽ Broadcom đã thiết kế từ trước, còn OpenAI có khả năng chỉ đưa cho Broadcom bộ thông số mà họ mong muốn
Nó có lẽ cũng khá giống với Google TPU
Họ nói rằng “bộ gia tốc thế hệ đầu tiên sẽ nâng hiệu năng trên mỗi watt lên đáng kể so với mức tối tân hiện nay”, nhưng tôi muốn biết “đáng kể” ở đây là bao nhiêu
Vera Rubin dự kiến sẽ được xuất xưởng số lượng lớn vào cuối năm nay, và được kỳ vọng có hiệu quả điện năng cho suy luận cao gấp 10 lần Blackwell[0]
Dù đã tape-out rồi thì vẫn cần ít nhất 12 tháng, có thể còn lâu hơn, để sửa lỗi, chế tạo chip, phân bổ HBM, thiết kế rack, liên kết kết nối và triển khai vào trung tâm dữ liệu
Đến lúc con chip này được đưa vào trung tâm dữ liệu với quy mô lớn, có khi nó sẽ phải cạnh tranh với Vera Rubin Ultra hoặc Feynman
Cá nhân tôi cho rằng OpenAI lẽ ra không nên đầu tư vào dự án này
Vẫn còn quá sớm; họ nên tập trung vào mô hình như Anthropic, thắng ở đó trước, rồi khi đã có khả năng sinh lợi mới làm những dự án như vậy
Với AI, năng lượng là một trần cứng rất rõ ràng, nên đây là rủi ro cho OpenAI
Nếu bạn có 1GW, bạn phải lắp những con chip tốt nhất; nếu chip Nvidia tốt hơn thì dự án này coi như đã đốt hàng tỷ USD
[0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
Vấn đề là câu đó có thể chỉ mang nghĩa thứ hai nhưng lại được viết khiến người ta nghe như nghĩa thứ nhất, nên khó mà tin được
Không nhất thiết phải mang tính cách mạng; có thể thiết kế có AI hỗ trợ đã hiệu quả đủ để khiến việc làm ASIC tùy chỉnh trở nên đáng giá
Dù bài viết của OpenAI không nhắc đến, gần như chắc chắn con chip này do TSMC sản xuất [1]
Tôi trước đó không chắc liệu Intel có đảm nhiệm phần này hay không
Broadcom đã kiếm bộn tiền khi trở thành đối tác phần cứng TPU của Google và chia sẻ năng lực sản xuất của TSMC với Google, và giờ có vẻ họ đang làm điều tương tự với OpenAI
Đây là một cách cực kỳ khôn ngoan để tận dụng cơn sốt vàng AI
Chỉ là hy vọng số tiền kiếm được đó sẽ không bị dùng để vắt tiền ngành phần mềm như họ từng làm với VMWare và Bitnami
Muốn thấy một chip suy luận có trọng số được đưa vào như một phần của ROM trên chip
Mỗi trọng số có một bộ nhân riêng, và vì là hằng số nên toàn bộ có thể biến thành một cụm bộ cộng đơn giản; thông lượng pipeline đầy đủ có thể đạt một token mỗi xung nhịp
Khi đó chỉ với một mảnh silicon có thể phục vụ đồng thời hàng triệu người dùng, và bus đầu ra có thể xuất ra 500 triệu token mỗi giây
Nhược điểm là con chip sẽ cực kỳ lớn, đến mức có thể chiếm trọn cả một wafer
Lỗi ở cấp độ wafer có thể không phải vấn đề lớn. Mạng nơ-ron thường vẫn chịu được khi một số trọng số bị thiếu hoặc sai
Vì tốc độ của ngành quá nhanh, có vẻ sẽ là kiểu chạy nước rút từ trọng số mô hình đến sản xuất, làm ra 50 wafer, dùng trong 1 năm rồi bỏ khi mô hình trở nên lỗi thời
Đây là kỹ thuật mà dữ liệu, ở đây là giá trị nhân, trở thành một phần của bộ xử lý, ở đây là mạch nhân
Nó né hoàn toàn vấn đề “lấy về rồi xử lý” ở cấp độ kiến trúc
Vì dữ liệu nằm ngay tại nơi phép tính diễn ra nên không cần di chuyển và cũng không có độ trễ
Cách này có vẻ phù hợp với mô hình nhỏ hơn là các frontier model. Các mô hình tiên phong thay đổi quá nhanh
Nó chưa đi xa đến mức như mô tả, mà là có rất nhiều core và RAM, nhưng trọng số vẫn phải nạp bằng phần mềm, và với mô hình lớn thì vẫn phải stream vào trong chip
Dù vậy, nó đúng là chip nguyên wafer
Với nhiều tác vụ thì đưa trọng số vào ROM có thể hoàn toàn ổn
Tuy vậy, tôi không chắc đặt một bộ nhân cho mỗi trọng số có phải ý tưởng hay không
Nếu đã lượng tử hóa xuống cỡ 2 bit thì có thể khả thi, còn không thì có lẽ tốt hơn là đặt một ROM nhỏ gần mỗi bộ nhân hoặc mỗi hàng để xử lý N phép toán ma trận khác nhau mà không phải chuyển dữ liệu từ xa
Một ý tưởng thú vị khác là gắn một hàng đơn vị MAC vào DRAM để dùng hàng DRAM như vector
Nếu kích thước hàng là 64Kbit thì với trọng số 8 bit sẽ là 8K phần tử, và có thể giữ cả trọng số lẫn phép tính trên cùng một chip
Chỉ là tôi không biết có thể nhét đủ số bộ nhân vào một chip hay không
Mảng systolic có thể có từ hàng chục nghìn đến hàng trăm nghìn phần tử, mỗi phần tử thực hiện một phép toán mỗi xung nhịp
Thật thú vị vì có vẻ vẫn còn rất nhiều cải tiến hiệu suất có thể khai thác ở cấp độ chip
Tôi tò mò không biết nên nhìn Taalas thế nào
Họ nói sẽ thật sự khắc mô hình LLM vào silicon và để lại một ít bộ nhớ on-board cho tinh chỉnh
Họ tuyên bố có lợi thế lớn về chi phí và độ trễ
Có thể xem bản demo rất nhanh tại https://chatjimmy.ai/
https://taalas.com/
https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...
Đó là lý do Google bắt đầu làm TPU từ hơn 10 năm trước
Tôi nhớ vụ tranh cãi khi Google sa thải Timnit Gebru vì một bài báo tính tác động môi trường của LLM dựa trên GPU mà bỏ qua hiệu suất của TPU
Có vẻ Jeff Dean đã rất tức giận vì khoảng cách hiệu suất quá lớn đó
Nếu vậy thì sẽ cực kỳ khó bán
Tôi không thích ý tưởng nhét một mô hình đơn lẻ không bao giờ thay đổi vào chip
Tôi tự hỏi nếu dùng ROM có thể ghi lại cho trọng số thì silicon sẽ đắt hơn bao nhiêu
Làm vậy sẽ cho phép tinh chỉnh mô hình mục tiêu trong thiết kế và giảm bớt lo ngại mô hình bị lỗi thời
Với coding agent thì đó là cải tiến có ý nghĩa, còn với robotics thì có thể là một cuộc cách mạng hoàn toàn
Mô hình 8B không hữu ích cho mục đích chung, nhưng trong các ứng dụng cụ thể nó có thể mang lại trí tuệ rất lớn
Đối thủ cạnh tranh của Tesla/Waymo bên Nvidia là LLM 7B và mô hình khuếch tán 2B; nếu có thể chạy chúng ở tốc độ như vậy thì chi phí có thể thấp hơn giải pháp hiện tại một bậc độ lớn
Có thể lập luận rằng chúng ta đã khá gần thời điểm đó rồi
Các hyperscaler như AWS sẽ tận dụng tốt loại chip này để phục vụ những mô hình còn hữu dụng trong vài năm
Nhưng hiện tại, chất lượng mô hình vẫn đang nhảy vọt mỗi vài tháng, đặc biệt với các mô hình trọng số mở như Deepseek/Kimi/GLM
Trước thời điểm đó, rất khó thấy được cách tiếp cận này có thể hiệu quả chi phí hơn phần cứng đa dụng
Ngoài ra, có vẻ một phiên bản thu nhỏ của thứ này cũng sẽ đi vào phần cứng di động, cung cấp LLM on-device cực nhanh và hiệu quả
Một động thái khá lớn
Có vẻ như Google và TPU đã đi đến khoảng thế hệ thứ 7, và nếu tính cả những nỗ lực phái sinh như LPU hay Wafer Scale Engine của Cerebras thì có vẻ họ đã có tầm nhìn xa hơn nhiều
Tuy vậy, ấn tượng ban đầu là con chip này dường như nhắm đến suy luận chứ không phải huấn luyện, và đó cũng là một lựa chọn thú vị
Trong khi đó, suy luận là chi phí phát sinh liên tục và theo thời gian sẽ tiêu tốn nhiều tài nguyên hơn rất nhiều, nên về dài hạn sẽ có lợi hơn nếu tập trung làm nó hiệu quả hơn nhiều
Nvidia là vua của các chip huấn luyện đa dụng, nhưng suy luận thì có thể được chuyên biệt hóa
Cửa sổ ngữ cảnh nhỏ và mô hình cũng đã cũ
Dù vậy, sẽ rất tuyệt nếu nó được cải thiện để có thể tận hưởng GPT 5.5 ở tốc độ 1000 token mỗi giây
Cách diễn đạt thì mơ hồ, nhưng TPU cũng đưa ra tuyên bố tương tự
Tôi vẫn nghĩ bản ghi nhớ “chúng ta không có hào lũy” của Google là đúng. Nếu chưa biết thì xem https://newsletter.semianalysis.com/p/google-we-have-no-moat...
Diễn biến hiện tại dường như ngày càng giống với cuộc cạnh tranh phần cứng mà IBM, DEC, Cray và Sun đã tạo ra trong giai đoạn 60–90
Lịch sử không lặp lại, nhưng thường có vần điệu, và những nỗ lực này cũng có vẻ sẽ đi theo quỹ đạo tương tự
Nhìn vào tốc độ phát triển của AI và việc AI giúp tạo ra AI nhanh hơn, tốt hơn, tôi cứ tự hỏi liệu loại phần cứng này có trở nên lỗi thời trước khi kịp hoàn vốn đầu tư đáng kể hay không
Ngay cả bây giờ, với lượng tử hóa và offloading, các mô hình AI khổng lồ đã có thể chạy với ít tài nguyên hơn, nhưng đó mới chỉ là khởi đầu
Một ngày nào đó, có lẽ không quá xa, có thể sẽ xuất hiện một đột phá cho phép chạy tốt một LLM khổng lồ cỡ 200B trên một máy bàn Dell đã 5 năm tuổi
Nghe có vẻ điên rồ, nhưng hãy nhìn kích thước của những ổ cứng đời đầu
IBM 350 lưu trữ 3.5Mb bằng một đĩa gồm 50 platter đường kính 24 inch, và được cho thuê với giá 35.000 USD theo giá trị ngày nay
https://www.computerhistory.org/storageengine/first-commerci...
Hãy so sánh điều đó với SSD nhiều terabyte, rồi áp dụng cùng kiểu cải tiến đó vào kiến trúc LLM hiện tại và cách triển khai chúng
Nếu có thêm sự hỗ trợ của AI thì chẳng bao lâu nữa sẽ có một bước nhảy vọt, và những trung tâm dữ liệu hiện chất đầy card Nvidia tối tân có thể trở nên lạc hậu gần như chỉ sau một đêm
IBM 350 được thương mại hóa cách đây 70 năm, và phải mất 70 năm mới đến lúc ngày nay người ta có thể đem nó so với SSD nhiều TB
Hơn nữa, không có gì đảm bảo rằng định luật Moore nhất định sẽ áp dụng cho LLM trong vài thập kỷ tới
Nếu mô hình lớn hơn luôn tốt hơn, và có vẻ thực tế đúng là vậy, thì sẽ luôn cần phần cứng hiệu năng cao
TPU thì có, nhưng chủ yếu dành cho trung tâm dữ liệu, còn GPU vốn là thứ được điều chỉnh lại từ các ứng dụng đồ họa
Khi nhu cầu từ trung tâm dữ liệu hạ nhiệt, đổi mới có thể mới thực sự bùng nổ
Có một phần ở đây chưa được bàn nhiều
Trong một cuộc phỏng vấn, CEO Broadcom Hock Tan nói rằng bộ tăng tốc này hiện cho thấy mức giảm chi phí khoảng 50% so với các bộ xử lý đồ họa AI thông thường [0]
Bối cảnh đang thay đổi quá nhanh và vẫn còn rất nhiều “quả thấp dễ hái”, nên việc tranh luận xem nhà cung cấp nào có hào lũy hay có thể thu hồi vốn đầu tư hay không dường như không mấy ý nghĩa
[0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...
Nó có thể đang ám chỉ những con chip cũ hơn rất nhiều so với các chip Nvidia hiện đang bán
Nếu mục tiêu là “triển khai ban đầu vào cuối năm 2026 rồi mở rộng trong những năm tiếp theo”, thì sau IPO có vẻ nó sẽ được đưa thật đậm vào tài liệu chào bán như một lời hứa cho tương lai
Mọi công bố trước IPO tôi đều nhìn với sự hoài nghi
Nếu là trò lừa thì tôi cũng sẽ không ngạc nhiên
Broadcom và Google thì tất nhiên đã niêm yết rồi
Microsoft, Google và Amazon cũng làm việc này, nhưng họ còn có cả hạ tầng trung tâm dữ liệu hyperscale để lưu trữ các chip đó
Thiết kế và tape-out chip là một stack hoàn toàn khác với đóng gói, làm mát, triển khai, cấp điện và quản lý fleet
Tôi tò mò không biết họ sẽ lấy phần đó từ đâu
Cập nhật: trên Twitter có người nói nó sẽ được Microsoft và Oracle lưu trữ theo tỷ lệ 50:50
Trước đây tôi đã cho Opus 4.5 thiết kế một bộ máy suy luận LLM dựa trên Verilog, bao gồm cả firmware và kiểm thử tự động: https://github.com/cpldcpu/smollm.c
Tất nhiên còn lâu mới tối ưu, nhưng điều đó xác nhận rằng cách hạ thấp mức trừu tượng để đi xuống triển khai thực tế là cực kỳ mạnh mẽ
Tôi vẫn còn một chiếc Tang Nano 9k, nhưng không tự tin giao hết cho Claude kiểu vibe coding để nó tự làm ra lời giải, và muốn có ít nhất một mức hiểu biết nền tảng tối thiểu