Tương lai của thị trường bán dẫn do bộ gia tốc deep learning dẫn dắt

(facebook.com)

13 điểm bởi xguru 2021-10-02 | 1 bình luận | Chia sẻ qua WhatsApp

Nếu phải kể tên những công ty IT có giá cổ phiếu tăng mạnh nhất toàn cầu trong 10 năm qua, có lẽ có thể nhắc đến Apple và Nvidia. Apple, cùng với sự xuất hiện của iPhone, đã thống trị thị trường smartphone cao cấp suốt hơn một thập kỷ, còn Nvidia thì đang chứng kiến giá cổ phiếu tăng vọt nhờ GPU chơi game hiệu năng cao, cũng như sự bùng nổ của thị trường bộ gia tốc cho deep learning và đào coin từ giữa những năm 2010 trở đi.

Nvidia là công ty đầu tiên giới thiệu ra thế giới GPU theo đúng nghĩa của nó (thương hiệu GeForce) vào năm 1999. Tất nhiên, từ cuối thập niên 90 đến cuối những năm 2000, lĩnh vực kinh doanh mà Nvidia tập trung vẫn là GPU chơi game hiệu năng cao. Nhưng Nvidia, như thể đã dự đoán trước sự xuất hiện của kỷ nguyên AI, đã giới thiệu GUGPU (or GPGPU) ra thế giới vào năm 2007. Thị trường mà Nvidia muốn tạo ra mới không chỉ là thị trường card đồ họa hiệu năng cao dành cho game, mà là thị trường bộ gia tốc đa dụng (general purpose). Đòn nhắm của Nvidia để thúc đẩy tăng trưởng thị trường là đồng thời công bố CUDA, bộ SDK cho phép các nhà phát triển thiết kế chip trên toàn thế giới tận dụng GUGPU của hãng, và nước đi đó đã phát huy tác dụng. Cùng với đó, openCL cũng được triển khai song song, và GPU thực sự bước vào thời đại GUGPU. Nvidia từ đó dần rời khỏi thị trường card đồ họa chơi game và chính thức tiến sâu vào thị trường bộ gia tốc.

Như đã biết rõ, khác biệt lớn nhất giữa CPU và GPU là serial vs parallel. Xét về số lượng đơn vị, GPU tích hợp số lượng core nhiều hơn CPU rất nhiều. Và các phép toán như nhân, cộng cần xử lý song song sẽ được phân tán tới từng core để xử lý gần như “trong chớp mắt”. Ngược lại, do kiến trúc của mình, CPU buộc phải nhận dữ liệu theo kiểu serial rồi mới tạo ra kết quả, nên tốc độ tính toán đương nhiên chậm đến mức không thể so với xử lý song song của GPU. Tuy nhiên ở đây có một điều không nên hiểu lầm. Người ta có thể đặt câu hỏi: “Vậy thì tại sao còn phải bỏ nhiều tiền mua CPU? Sao không làm hết bằng GPU?” Thực ra, nếu ví von thì nó giống như công việc điêu khắc của một nghệ nhân. Nếu ví một nghệ nhân một mình mất một tháng để cắt, sơn và hoàn thiện một tác phẩm gỗ là CPU, thì việc người nghệ nhân đó phân chia từng phần việc cho 10 người học việc để mỗi tháng làm ra 10 tác phẩm có thể ví như GPU. Có thể xem đây là khác biệt giữa sản xuất thủ công tại gia và phân công lao động. Hãy thử so sánh chính xác hơn một chút. Thực ra, lý do GPU được chú ý nhờ hiệu năng tính toán song song từ giữa đến cuối những năm 2000 là vì thiết kế chip cho phép từng core phân tán trong GPU thực hiện đồng thời các phép tính tương tự nhau, rồi gom tất cả lại để xuất kết quả. Ví dụ, hãy xét phép toán nhân ma trận giữa B = [55] và C = [51]. Nếu thực hiện phép toán này bằng CPU thì

for ii=1:số hàng

for jj=1:số cột

A = B(ii,jj)*C(jj);

A(ii) = A(ii) + A;

end

phải chạy hai vòng lặp for như vậy. Nhưng nếu làm phép toán này bằng GPU, chỉ cần phân bổ sẵn index của từng phần tử trong ma trận B và từng phần tử trong ma trận C cho các GPU core. Ví dụ, phép nhân ma trận BC cần thực hiện 55 = 25 phép nhân cho từng phần tử, nên chỉ cần gán trước phần tử B(i,j) và phần tử C(k) vào core thứ [số hàng*(i-1) + j] trong GPU là xong. Khi đó, mỗi core chỉ cần thực hiện phép nhân được giao, rồi gom kết quả vào bộ nhớ và chỉ cần thêm phép cộng sau đó. Tức là, nếu xác định trước thật tốt thứ tự phân phối và thu gom, thì các phép toán lặp lại đơn giản như nhân/cộng chắc chắn GPU sẽ nhanh hơn rất nhiều. CPU thì gần như không thể thực hiện kiểu tính toán song song này so với GPU, nhưng bù lại có thể xử lý nhiều chữ số dấu phẩy động hơn. Nói cách khác, CPU có thể thực hiện tính toán chính xác tốt hơn từng core riêng lẻ của GPU, vì vậy những phép tính ALU cần độ chính xác cao đương nhiên CPU vượt trội hơn GPU rất nhiều. Tuy nhiên, đa số các phép tính lặp lại không đòi hỏi độ chính xác cao đến vậy, nên tính toán song song của GPU có lợi thế hơn hẳn.

Vậy tại sao GPGPU, vốn được tối ưu cho xử lý song song như vậy, lại càng được chú ý hơn từ giữa những năm 2010 trở đi, đặc biệt sau khi kỷ nguyên AI, nhất là deep learning, chính thức mở màn? Nếu hiểu deep learning vận hành theo cách nào thì sẽ dễ hiểu hơn. Một trong những phép toán cơ bản thường học ở giai đoạn đầu khi học deep learning chính là tích chập (convolution). Tích chập là một phép toán ma trận, trong đó một ma trận khác là kernel sẽ được trượt qua dữ liệu đầu vào dạng ma trận để thực hiện phép tính. Nhưng nhìn kỹ thì đó rốt cuộc cũng chỉ là lặp lại các phép nhân và cộng giữa các phần tử ma trận. Tất nhiên, tùy dùng loại kernel nào mà kết quả của ma trận đầu vào sẽ khác nhau. Ví dụ, như thường được đề cập trong các bài giảng xử lý ảnh, khi dùng kernel Laplacian thì sẽ có khả năng nhận diện biên ảnh, gradient của biên hoặc phân biệt mẫu. Dù là loại kernel nào đi nữa, trong quá trình đi qua bước tích chập như vậy, cuối cùng vẫn là lặp lại các phép nhân/cộng đơn giản, nên rõ ràng GUGPU, vốn có thiết kế chuyên biệt cho điều đó, ở vào vị thế thuận lợi hơn rất nhiều. Ngoài ra, nếu nghĩ đến cách việc huấn luyện và suy luận trong deep learning diễn ra, cũng có thể hiểu vì sao deep learning dựa trên CPU ngay từ đầu gần như là điều bất khả thi. Như đã nói ở trên, GPU không đòi hỏi độ chính xác cao như CPU, và cũng không được thiết kế để làm điều đó. Quá trình học dữ liệu huấn luyện bằng deep learning giống như một người bị bịt mắt chỉ dùng tay chân để tìm đường. Nếu may mắn, nơi vươn tay tới có thể có một vật thể làm mốc, nhưng nếu không may, nơi đặt chân xuống có thể là một cái bẫy. Nói cách khác, mỗi lần thử đều chắc chắn sinh ra error, và ngay từ đầu, độ chính xác hay độ tinh vi của error đó không quá quan trọng. Ngược lại, nếu chỉ chăm chăm vào độ chính xác của error ấy, tốc độ học sẽ bị chậm lại. Chỉ cần so sánh giữa một người thực hiện 100 lần trial-and-error mỗi giây với một người mỗi giây chỉ có 1 lần thử thành công nhưng cực kỳ cẩn trọng thì sẽ biết ai tìm được đường nhanh hơn. Cách huấn luyện của deep learning như vậy khớp chính xác với kiến trúc mà GPU được thiết kế, và vì thế giờ đây GPU bắt đầu được nhìn nhận không còn là phần cứng cho game hiệu năng cao, mà là cỗ máy gia tốc dành cho deep learning.

Điều không nên bỏ qua ở đây là GUGPU vẫn được tối ưu cả cho việc tăng cường hiệu năng game. Xét từ việc ngay từ đầu GPU đã có hiệu năng chuyên biệt cho xử lý ma trận thì đây là điều hiển nhiên. Trong game trước đầu những năm 1990, thực ra gần như không có khái niệm hình ảnh 3D; nếu có thì cũng chỉ là liên tục hiển thị dạng chiếu 2D theo một hướng nhất định. Về cơ bản có thể xem là chỉ 2D. Trong các phép toán đại số tuyến tính liên quan đến ma trận, ma trận hai chiều thực ra thuộc loại tính toán dễ. Nhưng vấn đề là phép toán ma trận ba chiều. Thế giới chúng ta sống là 3 chiều, và mọi hiện tượng vật lý mà chúng ta nhìn, nghe, cảm nhận đều diễn ra trong không gian 3 chiều + 1 chiều thời gian. Mỗi giây, các sự kiện trong không gian 3 chiều thay đổi liên tục, nhưng mắt người buộc phải ánh xạ thông tin đó về 2 chiều để nhận thức. Đó cũng chính là lý do bộ não con người dùng rất nhiều tài nguyên để xử lý thông tin thị giác. Câu chuyện này cũng áp dụng y hệt cho tính toán. Hãy nghĩ đến công việc phải hiển thị hình ảnh của một vật thể 3 chiều lên không gian 2 chiều mà chúng ta nhận biết, tức là lên màn hình. Ví dụ, cần hiển thị trên màn hình 2D hình ảnh nhìn một con búp bê được cấu thành từ polygon 3D ở một góc nhìn nhất định. Muốn vậy phải có các phép toán biến đổi ma trận (matrix transformation). Cần thực hiện các phép như xoay, stretching, xử lý điểm tụ. Nếu tham vọng hơn một chút thì còn phải làm cả ray tracing. Tức là phải tính luôn hiệu ứng ánh sáng và bóng đổ, mà phép tính này lại càng đòi hỏi nhiều xử lý hơn nữa. Bởi các phép toán quang học hình học phải được áp dụng lên từng điểm khối của mọi polygon. Nhưng kiểu tính toán khổng lồ này không phải làm mỗi giây một lần, mà ít nhất phải làm khoảng 30 đến 60 lần thì mắt người mới cảm nhận hiện tượng đó đang diễn ra tự nhiên theo thời gian thực. Đây hẳn là một nhiệm vụ như ác mộng đối với các kỹ sư khoa học máy tính. Nếu vào đầu thập niên 1990 mà dùng CPU để làm việc này thì có lẽ mỗi phút chỉ hiển thị được khoảng một khung hình. Với các game thủ thiếu kiên nhẫn, đó là độ trễ không thể chấp nhận được. Nhưng GPU có thể xử lý song song các phép toán lặp lại này trên nền ma trận, nên giờ CPU không còn phải một mình gánh toàn bộ gánh nặng đó. Phần lớn các phép biến đổi ma trận và phép toán quang học hình học của ray tracing do GPU đảm nhiệm, còn CPU chỉ xử lý các tác vụ tiếp theo của chúng. Nói cách khác, từ góc nhìn của game thủ, giờ đây các phép tính này có cảm giác như đã được “tăng tốc”. Vì vậy mà cái tên bộ gia tốc cũng ra đời.

Nếu là dữ liệu có thể biểu diễn trên nền ma trận như vậy, dù đó là hình ảnh 3D độ phân giải cao cho game, dữ liệu 3D voxel cho y tế hay dữ liệu tensor nhiều đặc trưng cho huấn luyện deep learning, thì cũng không quá lời khi nói thời kỳ hoàng kim của GUGPU đã thực sự chạm đỉnh. Tuy nhiên vấn đề là ưu điểm của GUGPU đồng thời cũng là nhược điểm của nó. Cách cải thiện tốc độ xử lý song song là tăng số lượng lõi hoặc tăng tốc độ I/O thông tin giữa các lõi. Để làm vậy, có thể tích hợp bộ nhớ với từng lõi hoặc tăng thêm băng thông (bandwidth). Tuy nhiên, cái giá không đổi là điện năng tiêu thụ cũng tăng tương ứng. Ngoài lượng điện mà bản thân các lõi tiêu thụ, điện năng dùng cho làm mát cũng tăng lên trong quá trình lượng điện này chuyển hóa thành nhiệt. Thêm vào đó, quá trình phát nhiệt - làm mát lặp đi lặp lại cũng ảnh hưởng đến tuổi thọ con chip. GPU cũng là chip bán dẫn trên nền silicon, nên rốt cuộc việc sử dụng điện năng tập trung và tính toán cường độ cao sẽ làm giảm tuổi thọ của vật liệu và linh kiện cấu thành lõi. Bởi có thể xảy ra mechanical failure, thermal failure và electrical failure. Câu chuyện tuổi thọ của GUGPU dùng tại các trang trại đào blockchain vận hành gần như kiểu công xưởng còn chưa đến 6 tháng không phải tự nhiên mà có; ngay cả high performance GPU dùng ở các quán net thông thường cũng thường chỉ có tuổi thọ khoảng 2 năm, dài lắm cũng chỉ 3-4 năm. Tất nhiên vấn đề tuổi thọ bị che mờ đi vì trước khi hết vòng đời thì thế hệ GPU tiếp theo đã xuất hiện, nhưng bản thân việc tuổi thọ ngắn hơn CPU vẫn là một nhược điểm phải chấp nhận.

Dù vậy, kỷ nguyên AI mới chỉ đang trong giai đoạn tăng trưởng và chuẩn bị nở rộ, và nếu không dùng các bộ gia tốc như GPU thì không có cách nào gánh nổi khối lượng tính toán khổng lồ đó. Nhưng nếu chỉ phụ thuộc vào GPU, lượng điện mà GPU tiêu thụ cho huấn luyện sẽ ngày càng tăng với tốc độ chóng mặt. Vì vậy, dĩ nhiên cần có giải pháp thay thế, và một trong những lời giải xuất hiện từ cuối thập niên 2010 sang những năm 2020 là FPGA và NPU. Năm 2019, AMD, cùng với Intel tạo thành thế song mã trong mảng sản xuất CPU, đã bất ngờ thâu tóm Xilinx, công ty FPGA số 1 thế giới. Góc nhìn của ngành khi đó là điều phải đến rồi cũng đã đến; bởi đối thủ Intel trước đó đã mua Altera, công ty số 2 thị trường FPGA, với giá 16,7 tỷ USD vào năm 2015. Vì sao các tập đoàn sản xuất CPU truyền thống lại cạnh tranh nhau mua lại FPGA, một dòng sản phẩm rất khác CPU? FPGA, đúng như tên gọi, là chip tính toán mà người dùng có thể reprogramming lại tùy theo mục đích ở từng thời điểm. Việc người dùng có thể tái lập trình đồng nghĩa con chip chỉ giữ lại những chức năng tối thiểu cần thiết để hoạt động, còn cách bố trí hay thiết kế các đơn vị còn lại thì người dùng có thể thay đổi. Vì thế đương nhiên so với các chip bán dẫn được sản xuất theo quy trình tiêu chuẩn hóa như CPU hay DRAM, chi phí sẽ buộc phải cao hơn. Bởi cần để sẵn degree of freedom lớn hơn. Trước kỷ nguyên deep learning, vì lý do đó mà các chip nền FPGA chủ yếu chỉ được dùng cho các mục đích đặc biệt như nhà máy điện hạt nhân, tàu thăm dò không gian và những ứng dụng chuyên biệt tương tự, chứ hầu như không được dùng phổ biến cho mục đích đa dụng.

Nhưng khi kỷ nguyên deep learning thực sự bắt đầu, thị trường vốn tưởng như sẽ hoàn toàn do GPU thống trị đã dần bắt đầu đa dạng hóa. Xu hướng này không hẳn là điều chỉ có lợi cho GPU. Ví dụ, nếu deep learning đơn thuần chỉ là tập hợp các phép tính lặp đi lặp lại của convolution thì có lẽ không thành vấn đề, nhưng khi các lĩnh vực muốn áp dụng deep learning ngày càng mở rộng, quy mô và đặc điểm của dữ liệu mà các engine deep learning phải học cũng trở nên đa dạng hơn. Nếu chỉ dừng ở việc nhận dạng chữ số trong ảnh hay phân biệt chó với mèo thì phạm vi ứng dụng sẽ bị giới hạn; vì thế thị trường bắt đầu mở ra theo hướng công dụng và thông số kỹ thuật đa dạng hơn, như xử lý ngôn ngữ tự nhiên, phát hiện lỗi trong dữ liệu quy trình hóa học phức tạp có hơn 1.000 feature, thiết kế mạng lưới cảm biến IoT, suy luận và mô phỏng dòng chảy phức tạp của chất lưu bên trong môi trường rỗng xốp mà CFD không thể bao quát, hay xây dựng engine tự lái theo thời gian thực. Với phía muốn ứng dụng deep learning vào công nghiệp, việc thị trường đa dạng hóa như vậy là điều đáng hoan nghênh, nhưng với phía muốn bao phủ tất cả bằng GPU đa dụng thì đây lại là một bài toán đau đầu. Ở mỗi lĩnh vực ứng dụng, trọng số đặt vào phân loại, suy luận, dự báo hay phát hiện đều khác nhau, nên ngày càng khó tiếp tục kéo dài một cấu trúc tính toán tối ưu cho các thuật toán mạng nơ-ron mang tính đồng phục cho mọi trường hợp. Ở giai đoạn đầu khi deep learning mới xuất hiện, do phần cứng khả dụng gần như chỉ có GUGPU, các nhà phát triển thuật toán deep learning buộc phải xây dựng thuật toán dựa trên các thông số GUGPU sẵn có. Nhưng khi chủng loại và khối lượng dữ liệu mà deep learning xử lý tăng theo cấp số nhân, thì nay chính các thuật toán deep learning lại ngày càng tác động nhiều hơn đến thiết kế kiến trúc GPU. Việc cố định độ chính xác của từng lõi GPU ở FP16, hay thiết kế các lõi cho phép biến thiên độ chính xác (đa độ chính xác), chính là những ví dụ điển hình. Tuy nhiên, ngay cả kiểu thiết kế GPU do deep learning dẫn dắt này cũng có giới hạn rất rõ. Bởi GPU một khi đã được sản xuất ra thì gần như không thể thay đổi cấu trúc, và cũng không có chỗ cho reprogramming. Dùng rìu để cạo râu thì không phải là không làm được, nhưng việc thấy nhớ một chiếc dao cạo quen tay vẫn là điều rất tự nhiên.

Ngược lại, thị trường ngày càng chấp nhận rằng FPGA có thể phù hợp hơn cho những mục đích này. Như đã đề cập ở trên, FPGA được giao cho khách hàng khi thiết kế logic vẫn chưa hoàn tất hoàn toàn. Tuy nhiên, nhà cung cấp sẽ kèm theo một dạng SDK để khách hàng có thể lập trình trên đó theo mục đích của mình. Điều này có nghĩa là khách hàng thậm chí có thể tạo ra một chip deep learning chuyên dụng cho mô phỏng động lực học chất lưu chẳng hạn; và ngay cả khi ở giai đoạn đầu có sai sót trong thiết kế khiến nó không hoạt động đúng, vẫn có thể reprogramming, nên hoàn toàn có thể chỉnh sửa, nhờ đó giảm tổn thất chi phí trong quá trình thử nghiệm ban đầu. Dù không thể sánh với hiệu năng xử lý song song ở cấp phần cứng từng được thực hiện trên GPU, FPGA cũng có thể xử lý song song, và điều này cũng bắt nguồn từ chính đặc tính của FPGA. Trên FPGA, có thể triển khai xử lý song song ở cấp phần mềm, cho phép thiết kế thuật toán nhận nhiều lệnh (multiple instruction) trên một lõi đơn và tạo ra nhiều đầu ra. Cách này được gọi là Multiple instruction multiple data (MIMD). Trong khi đó, ở từng lõi riêng lẻ của GPU, luồng dữ liệu ngay từ đầu được cấu thành theo dạng single instruction multiple data (SIMD) để đáp ứng điều kiện tối ưu cho xử lý song song thông qua các tác vụ lặp lại. Nếu bộ lệnh được xây dựng tốt và chuẩn dữ liệu được sắp xếp gọn gàng, thì GPU thật sự có thể đạt mức xử lý song song gần như “thần thánh” ở cấp phần cứng; nhưng nếu chuẩn dữ liệu thay đổi hoặc xuất hiện phép tính khó bao phủ bằng bộ lệnh đã cho, nó khó tránh khỏi bị khựng lại. Ngược lại, FPGA tuy khó xử lý song song ở cấp phần cứng, nhưng ưu điểm lớn nhất là tính flexible. Ngay cả khi chuẩn dữ liệu (width) thay đổi, nó cũng không bị ràng buộc bởi bộ lệnh được define sẵn, vì có thể tận dụng multiple instruction set. Đặc tính linh hoạt như vậy có nghĩa là trong kỷ nguyên deep learning hiện nay, khi các dataset đa dạng và các application ở đầu cuối đang được chú ý, tiềm năng thị trường của FPGA sẽ tăng lên.

Thêm vào đó, FPGA vốn không cần chạy đồng thời hàng nghìn lõi ngay từ đầu (dù hiệu năng có thể thấp hơn phần nào), nên nếu so với GPU thì mức tiêu thụ điện năng thấp hơn rất rất nhiều (xem bảng đính kèm 1). Ngoài ra, khi các thuật toán deep learning trên thị trường được cải thiện, FPGA còn có thể điều chỉnh cả cách tiêu thụ điện năng, nên luôn có thể tối ưu hiệu suất năng lượng. Bởi cách làm là tắt các switch không cần thiết và chỉ bật những switch cần thiết. Vì lý do đó, có thể hiểu rằng trước khi kỷ nguyên deep learning thực sự bùng nổ, Intel và AMD — những hãng không thu được nhiều thành quả từ GPU — đã vội vã chi số tiền lớn để thâu tóm hai công ty FPGA đứng thứ 1 và 2 trong ngành. Tất nhiên, Nvidia, vốn là thế lực mạnh sẵn có ở mảng GPU, cũng không đứng yên. Dù FPGA có rất nhiều ưu điểm, nó vẫn có một nhược điểm chí mạng trong deep learning so với GPU: tốc độ training chậm hơn. Đây là bất lợi khó tránh khỏi. Bởi ngay từ đầu, nó không phải cấu trúc built-in theo kiểu cứ tăng số lõi khả dụng ở cấp phần cứng lên thật nhiều. Intel và AMD đã vạch ra kế hoạch dùng FPGA để giành lấy một phần thị trường bộ gia tốc AI vốn do GPU thống trị. Intel đã ra mắt Agilex và PAC (programmable acceleration card), còn AMD (Xilinx) cũng tung ra card tăng tốc Alveo như một nước cờ quyết định. Đặc biệt, Xilinx còn chuyển hướng sang những sản phẩm như Versal, vốn kết hợp luôn HBM (high-bandwidth memory) vào FPGA; đây cũng là công nghệ chỉ có thể hiện thực hóa khi kỹ thuật tạo mẫu siêu vi ở mức dưới 10 nm của ngành bán dẫn đã bước vào giai đoạn trưởng thành (trong trường hợp của Versal, được sản xuất trên tiến trình 7 nm). Sau khi Intel mua lại Altera, doanh thu từ bộ gia tốc dựa trên FPGA của Intel không cho thấy đà tăng trưởng lớn, trong khi doanh thu của Xilinx tiếp tục tăng mạnh; điều này cũng cho thấy cấu trúc FPGA + HBM kiểu Xilinx đang dần thu hẹp khoảng cách hiệu năng của bộ gia tốc deep learning. Ngoài ra, Xilinx còn mở rộng phát triển với bộ xử lý xDNN được tối ưu cho deep neural net, nhắm tới thị trường bộ gia tốc deep learning linh hoạt.

Thực ra, trong quá trình huấn luyện deep learning, điều quan trọng không kém các phép toán ma trận là quá trình integration kết quả học từ dữ liệu dung lượng lớn; để làm được điều đó, khi dữ liệu được xếp nối tiếp nhau, cần có quá trình rút ngắn độ trễ chờ. Nói cách khác, việc giảm độ trễ dữ liệu ngày càng quan trọng cả về mức tiêu thụ năng lượng lẫn tốc độ huấn luyện. Lá bài mà Nvidia đưa ra để đối đầu phe FPGA cũng chính là InfiniBand, công nghệ giúp giảm độ trễ dữ liệu này. Để làm được điều đó, sau khi thắng Intel và AMD trong cuộc cạnh tranh thâu tóm, Nvidia đã mua lại Mellanox — cường quốc toàn cầu trong lĩnh vực card giao tiếp mạng (NIC) và InfiniBand — với giá 6,9 tỷ USD vào năm 2019, qua đó bảo đảm được công nghệ tối ưu hóa NPU của mình. Công nghệ mà Nvidia nhắm tới không chỉ là deep learning mà còn là toàn bộ thị trường bộ gia tốc AI bên cạnh GPU là SoC Xavier, một bộ gia tốc deep learning đa dụng; sản phẩm này đặc biệt được định vị là dòng chủ lực cho thị trường xe tự hành, nơi nhu cầu bộ gia tốc AI đang bùng nổ. CUDA của Nvidia cũng cung cấp cuDNN chuyên cho deep learning; vì các unit mà gần như mọi deep neural net đều cần, bất kể dataset hay quy mô, đã được hiện thực sẵn, nên có thể xem như hãng cũng đã bảo đảm được bàn đạp thị trường cho NPU (Neural processing unit) trong tương lai. Đặc biệt, NPU là loại chip đã hiện thực DNN ở cấp phần cứng trước cho một dataset cụ thể (đúng như tên gọi, đây là chip hiện thực từng lớp cấu thành mạng deep learning bằng các đơn vị logic trên nền silicon theo kiểu đối ứng 1:1. Nói cách khác, có thể xem nó như việc hiện thực neuron nguyên bản ở cấp phần cứng.) nên xét về đặc tính, rất phù hợp để tích hợp vào mobile AP; nếu tính đến điều đó, khả năng cao là hãng cũng sẽ tiếp tục duy trì vị thế chi phối ở thị trường AP, vốn còn tăng trưởng mạnh trong tương lai. Có thể xem NPU là loại chip cố định chức năng ở mức có thể thực hiện “suy luận” ngay trên thiết bị đầu cuối (ví dụ smartphone), thay vì làm việc đó trên GPU. Không thể nhét một GPU có kích thước đồ sộ như một cuốn sách dày vào smartphone, nên người ta tạo ra NPU theo cách built-in tối đa cấu trúc đã được huấn luyện từ trước. Nếu việc huấn luyện mô hình do máy chủ GPU đảm nhiệm, còn NPU chỉ phụ trách suy luận đặc trưng từ dữ liệu đầu vào dựa trên mô hình đã huấn luyện, thì lúc này không còn cần tiêu thụ quá nhiều điện năng, cũng không cần kích thước lớn, nên có thể được tích hợp tùy biến cùng smartphone hoặc chip bán dẫn cho xe cộ. Đây cũng có thể xem là một chiến lược đi đường vòng để vượt qua tính flexibility mà FPGA theo đuổi. Chính nhắm vào thị trường NPU như vậy mà Nvidia đã công bố dòng Jetson, công nghệ tiếp nối Xavier, đồng thời còn hạ giá hơn nữa.

Đối thủ cạnh tranh trên thị trường NPU có lẽ sẽ là Google. Google đã công bố Coral, dòng TPU (tensor processing unit) do hãng tự thiết kế, và đang thử cạnh tranh về giá thành khi định giá thấp hơn 1/5 so với Jetson của Nvidia. Tất nhiên, hiệu năng và giá cả tỷ lệ thuận với nhau, và hiệu năng của Coral được biết là chỉ ở mức 1/5 đến 1/3 so với Xavier hay Jetson. Tuy nhiên, các TPU mà Google sẽ ra mắt sau này được dự đoán sẽ được sử dụng trong phạm vi rộng hơn dựa trên phản hồi từ thị trường; có thể suy đoán rằng điều này dựa trên lợi thế cạnh tranh về tốc độ cập nhật mô hình học thông qua máy chủ cloud GPU mà Google đang hình dung. Các hãng mobile AP truyền thống như Samsung hay Qualcomm cũng đang theo đuổi chiến lược nhồi thêm NPU, bởi do giới hạn của công nghệ tạo mẫu siêu vi, bản thân hiệu năng của chip AP ngày càng ít dư địa để cải thiện. Qualcomm bắt đầu tích hợp NPU từ dòng Snapdragon 845, còn Samsung bắt đầu tích hợp NPU từ Exynos series 9. Các công ty đang tìm cách tích hợp hoặc triển khai song song NPU đương nhiên sẽ tiếp tục mở rộng phạm vi ứng dụng bằng cách bảo đảm dữ liệu từ chip di động; và thị trường tiếp theo có lẽ sẽ dần mở rộng sang bán dẫn ô tô (chip xe tự hành hoặc chip điện tử ô tô), chip xử lý tín hiệu cho IoT, hay chip radar phức hợp quân sự.

Tuy nhiên, trớ trêu thay, cạnh tranh giữa thị trường FPGA và NPU/TPU/cuDNN lại không phụ thuộc vào phần cứng mà phụ thuộc vào phần mềm, đặc biệt là xu hướng thay đổi của các thuật toán deep learning sẽ diễn ra như thế nào. Ngay lúc này, trong lĩnh vực thuật toán deep learning, các phương pháp mới, lý thuyết mới và mô hình mới đang xuất hiện gần như mỗi ngày, và việc được accept bài tại 4 hội nghị AI lớn hằng năm cũng ngày càng khó hơn. Nhưng cũng như công nghệ ở các lĩnh vực khác, khi deep learning dần bước vào giai đoạn trưởng thành và tốc độ đổi mới thuật toán bắt đầu chậm lại, ưu thế về flexiblity vốn có của FPGA cũng sẽ dần bị pha loãng. Bởi lợi thế có thể reprogramming để phù hợp với các thuật toán nhanh hơn và hiệu quả hơn sẽ không còn là ưu thế rõ rệt nếu chu kỳ thay thế thuật toán ngày càng chậm lại. Ví dụ, với những chức năng như nhận dạng hình ảnh, có thể xem thuật toán đã đạt đến trạng thái saturated state khi hầu như không còn nhiều dư địa để cải thiện nữa (khả năng nhận diện đã vượt con người từ lâu, và phần lớn thuật toán hiện nay đều vượt 95% độ chính xác nhận dạng hình ảnh). Ngược lại, cách tiếp tục cải biến DNN đa dụng để thu hẹp khoảng cách giữa phần cứng và các thuật toán mới nhất về sau có thể sẽ trở nên có lợi hơn.

Thị trường bộ gia tốc deep learning sẽ còn tiếp tục tăng trưởng trong tương lai, và có lẽ nhu cầu vẫn sẽ đi theo xu hướng tăng ngay cả sau năm 2030, nhưng phương thức nào sẽ chi phối thị trường thì vẫn cần phải chờ thêm. Không ai có thể dự đoán khi nào giai đoạn trưởng thành của các thuật toán deep learning sẽ đến, nhưng cuối cùng nó chắc chắn sẽ đến, và ở thời điểm đó rất khó dự đoán công nghệ nào sẽ ở trong trạng thái được tối ưu tốt hơn. FPGA cũng vẫn còn rất nhiều dư địa để đổi mới. Nghiên cứu thiết kế chip dựa trên reinforcement learning của Google được công bố trên Nature vào tháng 6 năm nay* (*https://www.nature.com/articles/s41586-021-03544-w) là một ví dụ điển hình cho khả năng đổi mới đó. Việc bố trí hàng triệu đến hàng chục triệu đơn vị trên một diện tích die chip hẹp, đồng thời thiết kế đầu vào và đầu ra dữ liệu giữa các đơn vị sao cho giảm tối đa độ trễ và giảm mức tiêu thụ năng lượng, vốn là một trong những phần khó nhất của thiết kế chip bán dẫn. Các công ty fabless từ trước đến nay đã tiến hành những tối ưu hóa như vậy dựa trên kinh nghiệm tích lũy, nhưng kết quả Google công bố đã tạo ra mức cải thiện ấn tượng đến mức gần như làm lu mờ toàn bộ know-how trước đó. Điều này giống như việc bố trí đủ loại đồ nội thất và thiết bị gia dụng trong một mặt bằng căn hộ phức tạp, nhưng vẫn tạo ra lộ trình di chuyển tối ưu giúp giảm tối đa chuyển động cơ thể và sức lực cần bỏ ra. Google đã đạt được thiết kế tối ưu cho không gian trạng thái bố trí đơn vị (~10^2500), vốn lớn hơn rất nhiều so với không gian trạng thái của cờ vây (~10^360), bằng một phương pháp kế thừa và phát triển mạnh hơn nhiều so với cách tiếp cận của AlphaGo. Phương pháp thiết kế này dĩ nhiên cũng có thể được áp dụng ngay cho việc tối ưu hóa FPGA, vì việc tối ưu hiệu năng cho một instruction set nhất định có xét đến degree of freedom của nó là một nhiệm vụ có thể đạt được trong cùng một ngữ cảnh.

Liệu có thể xuất hiện những công nghệ hoàn toàn khác quỹ đạo so với cách làm hiện nay của Nvidia, Google, Intel, AMD, Qualcomm hay không? Dĩ nhiên là có khả năng đó. Đúng như tên gọi neural net, giờ đây người ta có thể nghĩ đến công nghệ không chỉ đơn thuần mô phỏng mạng nơ-ron của đại não con người, mà còn liên kết với chip bán dẫn theo cách gần như copy & phaste nguyên trạng. Một perspective gần đây do các nhà khoa học Hàn Quốc của Samsung và Đại học Harvard công bố chính là một ví dụ như vậy** (**https://www.nature.com/articles/s41928-021-00646-1...). Công nghệ thay thế được dự báo trong bài báo này chính là neuromorphic chip, và lý do khái niệm neuromorphic chip vốn đã quen thuộc lại được chú ý trở lại là vì nó cho thấy ở cấp độ công nghệ hiện hữu rằng có thể sao chép nguyên trạng các tín hiệu điện được truyền nhận trong mạng nơ-ron của não người bằng cách nối với các nano electrode, rồi sao chép (copy) chúng vào bộ nhớ nối bên dưới theo kiểu phaste. Điều đó có nghĩa là có thể chuyển toàn bộ chức năng còn lại của bộ não, sau khi loại bỏ phần mô mềm, sang chip bán dẫn. Các công nghệ bộ nhớ bán dẫn để hiện thực hóa neuromorphic chip như SRAM, RRAM, MRAM, memristor đã tồn tại hoặc thậm chí đang được ứng dụng thực tế, nên vấn đề then chốt chỉ còn là làm thế nào chuyển tín hiệu phát sinh từ hàng nghìn tỷ nơ-ron sang bộ nhớ theo thời gian thực với độ trễ tối thiểu; tức là kết nối theo kiểu copy & phaste giờ đây dường như không còn là điều bất khả thi về mặt kỹ thuật nữa.

Trong tương lai, thị trường bán dẫn do bộ gia tốc deep learning dẫn dắt sẽ tiếp tục tăng trưởng theo nhiều hướng khác nhau và mạnh mẽ hơn nữa. Quy mô thị trường cũng như công nghệ thống trị sẽ được quyết định bởi việc xử lý dữ liệu dựa trên deep learning có thể thâm nhập vào những thị trường đa dạng đến đâu và có thể xử lý những tập dữ liệu phi cấu trúc lớn đến mức nào; và điều cần chú ý ở đây, bên cạnh sự phát triển của các công nghệ chủ chốt hiện tại, sẽ là những công nghệ khái niệm mới có thể thay thế chúng từ một hướng hoàn toàn khác. Ngoài neuromorphic, neural network dựa trên photonics cũng khả thi, điều này có nghĩa độ trễ tự thân có thể giảm xuống đến tốc độ ánh sáng, từ đó báo hiệu sự xuất hiện của các NPU mạnh hơn nữa. Trong trường hợp spintronics, hiệu năng xử lý song song có thể được đẩy lên cao hơn nữa, còn các thuật toán deep learning chuyên cho máy tính lượng tử như TFQ mà Google công bố cũng có thể tái định nghĩa "suy luận" theo một cách hoàn toàn khác so với trước đây. Thị trường bán dẫn trong tương lai rốt cuộc vẫn sẽ tạo ra động lực chính từ AI accelerator do deep learning dẫn dắt và từ sự đổi mới thuật toán tương xứng với nó; đồng thời trong bối cảnh ngày càng nhiều công ty fabless mang theo các kiến trúc đa dạng mọc lên như nấm sau mưa, việc sàng lọc ai thực sự có năng lực, cũng như việc đảm bảo công nghệ quy trình có thể quyết định giới hạn hiện thực hóa của công nghệ, được dự đoán sẽ là yếu tố quyết định quyền lực chi phối thị trường được tạo ra trong tương lai.

Đây là bài viết trên Facebook của giáo sư Kwon Seok-jun, Đại học Sungkyunkwan, ông đã giải thích khá thú vị về tiến trình phát triển của CPU/GPU từ trước đến nay nên tôi mang vào đây.

1 bình luận

xguru 2021-10-02

Vì có một số người không có tài khoản Facebook nên tôi mang toàn bộ bài viết về đây. Trong phần bình luận trên Facebook cũng có những nội dung đáng tham khảo, nên tôi khuyên bạn hãy vào xem.

Tương lai của thị trường bán dẫn do bộ gia tốc deep learning dẫn dắt

Bài viết liên quan

1 bình luận