Phỏng vấn Mark Zuckerberg - Llama 3 và lý do mã nguồn mở hóa mô hình trị giá 10 tỷ USD

xguru · 2024-04-21T13:19:58+09:00

Trong cuộc phỏng vấn với Dwarkesh Patel, ông đã nói về Llama 3, mã nguồn mở hướng tới AGI, silicon tùy chỉnh và các ràng buộc năng lượng đối với việc mở rộng quy mô, nên dưới đây là bản tóm tắt ngắn toàn bộ nội dung Llama 3 Meta sẽ phát hành mô hình mã nguồn mở Llama 3 để vận hành phiên bản mới của Meta AI Meta AI hướng tới trở thành trợ lý AI thông minh nhất và có thể tự do sử dụng Llama 3 hiện được cung cấp dưới dạng các mô hình Dense có kích thước 8B, 70B đã phát hành và 405B vẫn đang được huấn luyện Có lộ trình cho các bản phát hành mới với tính đa phương thức, đa ngôn ngữ và cửa sổ ngữ cảnh lớn hơn, đồng thời dự kiến triển khai 405B trong năm nay 405B hiện đang được huấn luyện, đã đạt 85 MMLU và được kỳ vọng sẽ dẫn đầu trên nhiều benchmark Mô hình Llama 3 8B có hiệu năng gần tương đương mô hình Llama 2 lớn nhất 70B cũng rất ấn tượng và đã đạt 82 MMLU GPU Meta đã mua được H100 GPU vào năm 2022, khi giá cổ phiếu đang lao dốc, để xây dựng Reels Hạ tầng khi đó là yếu tố hạn chế khiến họ không thể bắt kịp TikTok nhanh như mong muốn, nên họ đã đặt hàng gấp đôi để không rơi vào tình cảnh đó thêm lần nữa Họ cũng dự đoán sau này sẽ cần chúng cho việc huấn luyện các mô hình quy mô lớn, nhưng vào thời điểm đó chỉ nghĩ là để phục vụ đề xuất nội dung Nhìn lại thì đó là một quyết định rất đúng đắn, và có thể làm được điều đó vì khi ấy họ đang ở thế bị tụt lại phía sau Không phải kiểu như "À, mình đã đi trước quá xa rồi" Thực tế, phần lớn những quyết định tốt mà họ đưa ra đều xuất phát từ việc trước đó đã làm hỏng điều gì đó và không muốn lặp lại sai lầm ấy Tầm quan trọng của năng lực lập trình và suy luận đối với AGI (Artificial General Intelligence) Meta nhận ra rằng để mô hình giải quyết được các trường hợp sử dụng thực tế thì năng lực lập trình và suy luận là rất quan trọng, ngay cả khi mô hình không trực tiếp nhận câu hỏi về lập trình Mục tiêu cuối cùng là giải được AGI và giúp mô hình thực hiện các công việc phức tạp nhiều bước AGI sẽ đạt được bằng cách dần dần bổ sung nhiều năng lực khác nhau như đa phương thức, hiểu cảm xúc, bộ nhớ, v.v. Nút thắt năng lượng và khả năng mở rộng Tiến bộ theo cấp số nhân về kích thước mô hình có thể tiếp tục, nhưng cuối cùng sẽ đụng phải các nút thắt về năng lượng và hạ tầng Hiện nay nhiều trung tâm dữ liệu ở mức khoảng 50 megawatt hoặc 100MW, còn các trung tâm lớn là 150MW Tuy nhiên, ngành này sẽ bắt đầu xây dựng các trung tâm dữ liệu ở quy mô 300MW, 500MW hoặc 1GW (quy mô 1GW hiện chưa có nhưng sẽ sớm xuất hiện) Nhưng với 1GW, chỉ riêng việc huấn luyện mô hình cũng đã cần quy mô tương đương một nhà máy điện hạt nhân, và việc xây dựng các cụm ở quy mô gigawatt như vậy sẽ mất nhiều năm do thủ tục cấp phép nghiêm ngặt Tầm quan trọng của cuộc cách mạng AI AI có tính nền tảng không kém gì sự ra đời của chính điện toán, sẽ thay đổi cách chúng ta làm việc và mang lại các công cụ sáng tạo mới Trên thang thời gian vũ trụ thì tiến bộ sẽ diễn ra nhanh, nhưng do các nút thắt nên sẽ không có một vụ bùng nổ trí tuệ chỉ sau một đêm Có cảm giác rằng trí tuệ đang đi theo hướng có thể tách rời khỏi ý thức và tính chủ thể, và điều đó có thể trở thành một công cụ cực kỳ giá trị Mã nguồn mở và cán cân quyền lực AI mạnh mẽ tập trung trong tay một số ít người có thể nguy hiểm không kém, thậm chí hơn, so với việc nó được phổ biến rộng rãi Chúng ta rõ ràng ủng hộ mạnh mẽ mã nguồn mở, nhưng không công khai mọi thứ mình làm Thông qua mã nguồn mở, cộng đồng có thể tăng cường mô hình và đảm bảo một sân chơi cạnh tranh cân bằng hơn Nhưng nếu đến một thời điểm nào đó xuất hiện sự thay đổi mang tính định tính trong năng lực và họ cho rằng mã nguồn mở không còn phù hợp, thì họ sẽ không mã nguồn mở nữa. Mọi thứ đều rất khó dự đoán Meta theo đuổi mã nguồn mở chừng nào điều đó còn có trách nhiệm và hữu ích, đồng thời có thể tính phí các nhà cung cấp cloud khi sử dụng mô hình Trong ngắn hạn, trọng tâm là giảm thiểu tác hại thực tế do việc lạm dụng mô hình gây ra; trong dài hạn, trọng tâm là rủi ro hiện sinh Lý do mã nguồn mở hóa mô hình trị giá 10 tỷ USD Điều khó chịu ở hệ sinh thái di động là có hai công ty gác cổng là Apple và Google Hai công ty này quyết định bạn có thể xây dựng cái gì Không chỉ là khía cạnh kinh tế, nơi họ lấy tiền khi chúng ta tạo ra thứ gì đó, mà khía cạnh định tính còn gây bực bội hơn Đã có nhiều lần họ phát hành hoặc muốn phát hành một tính năng nhưng Apple nói rằng "Không được, cái đó không thể phát hành" Điều đó thực sự rất khó chịu, và câu hỏi là liệu chúng ta có muốn một thế giới như vậy trong AI hay không Liệu một số ít công ty vận hành mô hình đóng có thể kiểm soát API và quyết định bạn được phép xây dựng gì không? Có thể nói rằng việc tự xây dựng mô hình là đáng giá để chúng ta không rơi vào vị thế như vậy Họ không muốn bất kỳ công ty nào khác quyết định họ có thể xây dựng gì Từ góc nhìn mã nguồn mở, có lẽ nhiều nhà phát triển cũng không muốn các công ty đó quyết định họ có thể xây dựng gì Vậy câu hỏi là hệ sinh thái được xây dựng xoay quanh điều đó sẽ trông như thế nào Điều mới mẻ và thú vị là gì? Nó có thể cải thiện sản phẩm của chúng ta đến mức nào? Họ cho rằng, giống như cơ sở dữ liệu, hệ thống caching hay kiến trúc, thường có thể nhận được những đóng góp giá trị từ cộng đồng để giúp tạo ra sản phẩm tốt hơn Khi đó, những công việc đặc thù theo từng ứng dụng mà họ làm vẫn sẽ là yếu tố khác biệt và sẽ không trở nên kém quan trọng Họ vẫn có thể làm điều mình muốn làm Vì là mã nguồn mở nên toàn bộ hệ thống của cả họ và cộng đồng sẽ cùng trở nên tốt hơn Nhưng cũng có một thế giới nơi điều đó không xảy ra Có lẽ mô hình có thể trở nên gần với chính sản phẩm hơn Khi đó bài toán kinh tế sẽ trở nên khó hơn nhiều. Dù có mã nguồn mở hay không, bạn cũng sẽ tự biến mình thành hàng hóa nhiều hơn Nhưng theo những gì họ thấy cho đến nay, có vẻ chúng ta chưa ở trong vùng đó Kiếm tiền từ mô hình Có kỳ vọng rằng việc cấp phép mô hình cho các nhà cung cấp cloud sẽ mang lại doanh thu đáng kể hay không? Xét trên nhiều phương diện, giấy phép của Llama là một giấy phép mã nguồn mở rất cởi mở Chỉ có điều có giới hạn đối với các công ty quy mô lớn sử dụng nó. Đó là lý do họ đặt ra giới hạn đó Họ không cố ngăn các công ty đó sử dụng nó; chỉ là nếu các công ty ấy về cơ bản lấy thứ họ đã tạo ra rồi đem bán lại để kiếm tiền, thì họ muốn các công ty đó đến trao đổi với mình Trong các trường hợp như Microsoft Azure hoặc Amazon, nếu muốn bán lại mô hình thì cần phải có cơ chế chia sẻ doanh thu Vì vậy, trước khi làm điều đó thì hãy đến nói chuyện với họ, đó là cách quy trình vận hành Do đó, với Llama-2, về cơ bản họ đã ký thỏa thuận với tất cả các công ty cloud lớn và Llama-2 được cung cấp dưới dạng dịch vụ hosting trên mọi cloud Họ cho rằng khi phát hành các mô hình ngày càng lớn hơn, đây sẽ trở thành một việc ngày càng quan trọng Đây không phải công việc chính mà họ đang làm, nhưng nếu các công ty đó bán mô hình của họ thì việc họ cùng chia sẻ lợi ích là điều hợp lý Silicon tùy chỉnh Meta đang phát triển silicon tùy chỉnh để vận hành các mô hình lớn hiệu quả hơn Chưa phải cho Llama-4, nhưng trước tiên họ đã xây dựng silicon tùy chỉnh có thể xử lý suy luận cho các tác vụ xếp hạng và gợi ý, từ đó tạo ra Reels, quảng cáo News Feed, v.v. Khi có thể chuyển các tác vụ đó sang silicon nội bộ, họ giờ đây có thể dành các GPU NVIDIA đắt đỏ chỉ cho huấn luyện Họ hy vọng một ngày nào đó có thể tự phát triển silicon để ban đầu dùng cho các bài toán huấn luyện đơn giản, rồi sau đó dùng để huấn luyện những mô hình thực sự lớn Trong thời gian đó, có thể nói rằng chương trình đang tiến triển khá tốt, đang được triển khai một cách có hệ thống và có một lộ trình dài hạn

(dwarkeshpatel.com)

30 điểm bởi xguru 2024-04-21 | 4 bình luận | Chia sẻ qua WhatsApp

Trong cuộc phỏng vấn với Dwarkesh Patel, ông đã nói về Llama 3, mã nguồn mở hướng tới AGI, silicon tùy chỉnh và các ràng buộc năng lượng đối với việc mở rộng quy mô, nên dưới đây là bản tóm tắt ngắn toàn bộ nội dung

Llama 3

Meta sẽ phát hành mô hình mã nguồn mở Llama 3 để vận hành phiên bản mới của Meta AI
Meta AI hướng tới trở thành trợ lý AI thông minh nhất và có thể tự do sử dụng
Llama 3 hiện được cung cấp dưới dạng các mô hình Dense có kích thước 8B, 70B đã phát hành và 405B vẫn đang được huấn luyện
Có lộ trình cho các bản phát hành mới với tính đa phương thức, đa ngôn ngữ và cửa sổ ngữ cảnh lớn hơn, đồng thời dự kiến triển khai 405B trong năm nay
405B hiện đang được huấn luyện, đã đạt 85 MMLU và được kỳ vọng sẽ dẫn đầu trên nhiều benchmark
Mô hình Llama 3 8B có hiệu năng gần tương đương mô hình Llama 2 lớn nhất
70B cũng rất ấn tượng và đã đạt 82 MMLU

GPU

Meta đã mua được H100 GPU vào năm 2022, khi giá cổ phiếu đang lao dốc, để xây dựng Reels
Hạ tầng khi đó là yếu tố hạn chế khiến họ không thể bắt kịp TikTok nhanh như mong muốn, nên họ đã đặt hàng gấp đôi để không rơi vào tình cảnh đó thêm lần nữa
Họ cũng dự đoán sau này sẽ cần chúng cho việc huấn luyện các mô hình quy mô lớn, nhưng vào thời điểm đó chỉ nghĩ là để phục vụ đề xuất nội dung
Nhìn lại thì đó là một quyết định rất đúng đắn, và có thể làm được điều đó vì khi ấy họ đang ở thế bị tụt lại phía sau
Không phải kiểu như "À, mình đã đi trước quá xa rồi"
Thực tế, phần lớn những quyết định tốt mà họ đưa ra đều xuất phát từ việc trước đó đã làm hỏng điều gì đó và không muốn lặp lại sai lầm ấy

Tầm quan trọng của năng lực lập trình và suy luận đối với AGI (Artificial General Intelligence)

Meta nhận ra rằng để mô hình giải quyết được các trường hợp sử dụng thực tế thì năng lực lập trình và suy luận là rất quan trọng, ngay cả khi mô hình không trực tiếp nhận câu hỏi về lập trình
Mục tiêu cuối cùng là giải được AGI và giúp mô hình thực hiện các công việc phức tạp nhiều bước
AGI sẽ đạt được bằng cách dần dần bổ sung nhiều năng lực khác nhau như đa phương thức, hiểu cảm xúc, bộ nhớ, v.v.

Nút thắt năng lượng và khả năng mở rộng

Tiến bộ theo cấp số nhân về kích thước mô hình có thể tiếp tục, nhưng cuối cùng sẽ đụng phải các nút thắt về năng lượng và hạ tầng
Hiện nay nhiều trung tâm dữ liệu ở mức khoảng 50 megawatt hoặc 100MW, còn các trung tâm lớn là 150MW
Tuy nhiên, ngành này sẽ bắt đầu xây dựng các trung tâm dữ liệu ở quy mô 300MW, 500MW hoặc 1GW (quy mô 1GW hiện chưa có nhưng sẽ sớm xuất hiện)
Nhưng với 1GW, chỉ riêng việc huấn luyện mô hình cũng đã cần quy mô tương đương một nhà máy điện hạt nhân, và việc xây dựng các cụm ở quy mô gigawatt như vậy sẽ mất nhiều năm do thủ tục cấp phép nghiêm ngặt

Tầm quan trọng của cuộc cách mạng AI

AI có tính nền tảng không kém gì sự ra đời của chính điện toán, sẽ thay đổi cách chúng ta làm việc và mang lại các công cụ sáng tạo mới
Trên thang thời gian vũ trụ thì tiến bộ sẽ diễn ra nhanh, nhưng do các nút thắt nên sẽ không có một vụ bùng nổ trí tuệ chỉ sau một đêm
Có cảm giác rằng trí tuệ đang đi theo hướng có thể tách rời khỏi ý thức và tính chủ thể, và điều đó có thể trở thành một công cụ cực kỳ giá trị

Mã nguồn mở và cán cân quyền lực

AI mạnh mẽ tập trung trong tay một số ít người có thể nguy hiểm không kém, thậm chí hơn, so với việc nó được phổ biến rộng rãi
Chúng ta rõ ràng ủng hộ mạnh mẽ mã nguồn mở, nhưng không công khai mọi thứ mình làm
Thông qua mã nguồn mở, cộng đồng có thể tăng cường mô hình và đảm bảo một sân chơi cạnh tranh cân bằng hơn
Nhưng nếu đến một thời điểm nào đó xuất hiện sự thay đổi mang tính định tính trong năng lực và họ cho rằng mã nguồn mở không còn phù hợp, thì họ sẽ không mã nguồn mở nữa. Mọi thứ đều rất khó dự đoán
Meta theo đuổi mã nguồn mở chừng nào điều đó còn có trách nhiệm và hữu ích, đồng thời có thể tính phí các nhà cung cấp cloud khi sử dụng mô hình
Trong ngắn hạn, trọng tâm là giảm thiểu tác hại thực tế do việc lạm dụng mô hình gây ra; trong dài hạn, trọng tâm là rủi ro hiện sinh

Lý do mã nguồn mở hóa mô hình trị giá 10 tỷ USD

Điều khó chịu ở hệ sinh thái di động là có hai công ty gác cổng là Apple và Google
Hai công ty này quyết định bạn có thể xây dựng cái gì
Không chỉ là khía cạnh kinh tế, nơi họ lấy tiền khi chúng ta tạo ra thứ gì đó, mà khía cạnh định tính còn gây bực bội hơn
Đã có nhiều lần họ phát hành hoặc muốn phát hành một tính năng nhưng Apple nói rằng "Không được, cái đó không thể phát hành"
Điều đó thực sự rất khó chịu, và câu hỏi là liệu chúng ta có muốn một thế giới như vậy trong AI hay không
Liệu một số ít công ty vận hành mô hình đóng có thể kiểm soát API và quyết định bạn được phép xây dựng gì không?
Có thể nói rằng việc tự xây dựng mô hình là đáng giá để chúng ta không rơi vào vị thế như vậy
Họ không muốn bất kỳ công ty nào khác quyết định họ có thể xây dựng gì
Từ góc nhìn mã nguồn mở, có lẽ nhiều nhà phát triển cũng không muốn các công ty đó quyết định họ có thể xây dựng gì
Vậy câu hỏi là hệ sinh thái được xây dựng xoay quanh điều đó sẽ trông như thế nào
- Điều mới mẻ và thú vị là gì?
- Nó có thể cải thiện sản phẩm của chúng ta đến mức nào?
Họ cho rằng, giống như cơ sở dữ liệu, hệ thống caching hay kiến trúc, thường có thể nhận được những đóng góp giá trị từ cộng đồng để giúp tạo ra sản phẩm tốt hơn
Khi đó, những công việc đặc thù theo từng ứng dụng mà họ làm vẫn sẽ là yếu tố khác biệt và sẽ không trở nên kém quan trọng
Họ vẫn có thể làm điều mình muốn làm
Vì là mã nguồn mở nên toàn bộ hệ thống của cả họ và cộng đồng sẽ cùng trở nên tốt hơn
Nhưng cũng có một thế giới nơi điều đó không xảy ra
Có lẽ mô hình có thể trở nên gần với chính sản phẩm hơn
Khi đó bài toán kinh tế sẽ trở nên khó hơn nhiều. Dù có mã nguồn mở hay không, bạn cũng sẽ tự biến mình thành hàng hóa nhiều hơn
Nhưng theo những gì họ thấy cho đến nay, có vẻ chúng ta chưa ở trong vùng đó

Kiếm tiền từ mô hình

Có kỳ vọng rằng việc cấp phép mô hình cho các nhà cung cấp cloud sẽ mang lại doanh thu đáng kể hay không?
Xét trên nhiều phương diện, giấy phép của Llama là một giấy phép mã nguồn mở rất cởi mở
Chỉ có điều có giới hạn đối với các công ty quy mô lớn sử dụng nó. Đó là lý do họ đặt ra giới hạn đó
Họ không cố ngăn các công ty đó sử dụng nó; chỉ là nếu các công ty ấy về cơ bản lấy thứ họ đã tạo ra rồi đem bán lại để kiếm tiền, thì họ muốn các công ty đó đến trao đổi với mình
Trong các trường hợp như Microsoft Azure hoặc Amazon, nếu muốn bán lại mô hình thì cần phải có cơ chế chia sẻ doanh thu
Vì vậy, trước khi làm điều đó thì hãy đến nói chuyện với họ, đó là cách quy trình vận hành
Do đó, với Llama-2, về cơ bản họ đã ký thỏa thuận với tất cả các công ty cloud lớn và Llama-2 được cung cấp dưới dạng dịch vụ hosting trên mọi cloud
Họ cho rằng khi phát hành các mô hình ngày càng lớn hơn, đây sẽ trở thành một việc ngày càng quan trọng
Đây không phải công việc chính mà họ đang làm, nhưng nếu các công ty đó bán mô hình của họ thì việc họ cùng chia sẻ lợi ích là điều hợp lý

Silicon tùy chỉnh

Meta đang phát triển silicon tùy chỉnh để vận hành các mô hình lớn hiệu quả hơn
Chưa phải cho Llama-4, nhưng trước tiên họ đã xây dựng silicon tùy chỉnh có thể xử lý suy luận cho các tác vụ xếp hạng và gợi ý, từ đó tạo ra Reels, quảng cáo News Feed, v.v.
Khi có thể chuyển các tác vụ đó sang silicon nội bộ, họ giờ đây có thể dành các GPU NVIDIA đắt đỏ chỉ cho huấn luyện
Họ hy vọng một ngày nào đó có thể tự phát triển silicon để ban đầu dùng cho các bài toán huấn luyện đơn giản, rồi sau đó dùng để huấn luyện những mô hình thực sự lớn
Trong thời gian đó, có thể nói rằng chương trình đang tiến triển khá tốt, đang được triển khai một cách có hệ thống và có một lộ trình dài hạn

4 bình luận

laeyoung 2024-04-22

"Nếu là 1GW thì chỉ riêng việc huấn luyện mô hình cũng cần quy mô như một nhà máy điện hạt nhân."

Giờ muốn huấn luyện foundation model thì xem ra còn cần cả phát triển hạt nhân(?) nữa.

tsboard 2024-04-22

Có vẻ anh ấy đang có khá nhiều trăn trở. Việc ông có ác cảm rõ ràng với Google và Apple, những bên đang nắm giữ nền tảng, thì cũng khá dễ hiểu.

daejin 2024-04-22

Mục "Lý do mã nguồn mở một mô hình trị giá 10 tỷ USD" là một bài viết đã được tóm tắt mà đọc lên vẫn thấy có phần khai mở nhận thức.

realg 2024-04-21

Cảm ơn vì nội dung hay.