5 điểm bởi GN⁺ 2024-03-08 | 1 bình luận | Chia sẻ qua WhatsApp

Huấn luyện LLM hoàn toàn từ đầu

  • Nhiều người tò mò về kinh nghiệm của Reka trong việc huấn luyện thành công các mô hình ngôn ngữ đa phương thức mạnh mẽ.
  • Chia sẻ những thách thức và bài học trong quá trình xây dựng hạ tầng và huấn luyện các mô hình ngôn ngữ lớn cũng như mô hình đa phương thức từ đầu.
  • Hy vọng bài viết này sẽ thú vị và mang tính giáo dục đối với nhiều người.

Xổ số phần cứng trong kỷ nguyên LLM

  • Yếu tố thiết yếu đầu tiên để huấn luyện mô hình là đảm bảo năng lực tính toán.
  • Bất ngờ trước sự thiếu ổn định của các nhà cung cấp năng lực tính toán, cũng như sự khác biệt về chất lượng của cluster, accelerator và kết nối.
  • Chất lượng phần cứng khác biệt rất lớn, và điều này trong huấn luyện thực sự giống như một "xổ số phần cứng".

GPU so với TPU

  • Tại Reka, họ chủ yếu dùng GPU để huấn luyện mô hình.
  • So với kinh nghiệm dùng TPU ở Google, họ ngạc nhiên trước tỷ lệ lỗi của GPU.
  • Năng lực của đội ngũ phần cứng rất quan trọng, điều này càng củng cố khái niệm "xổ số phần cứng".

Nỗi đau của thiết lập đa cụm

  • Khái niệm phải thiết lập môi trường mới trên nhiều cluster là điều không quen thuộc.
  • Việc có các pool accelerator trên nhiều cluster là điều không thể tránh khỏi.
  • Có nhiều bất tiện khi xử lý dữ liệu quy mô lớn, và việc sao chép dữ liệu không hề đơn giản ở quy mô lớn.

Code ngoài thực địa

  • T5X và MeshTensorflow từng là codebase ưa thích, nhưng bên ngoài Google thì ít được hỗ trợ và khó sử dụng.
  • Họ chọn PyTorch vì dễ tiếp cận hơn.
  • Cảm nhận rằng chất lượng codebase bên ngoài thua kém so với bên trong Google.

Bớt nguyên tắc hơn, Yolo nhiều hơn

  • Về nguyên tắc, mô hình nên được mở rộng một cách có hệ thống, nhưng trong startup, do ít tài nguyên tính toán nên phải chạy nhiều thử nghiệm kiểu Yolo.
  • Việc huấn luyện một mô hình mạnh với số lần thử hạn chế là một thách thức.

Tóm tắt

  • Trải nghiệm ngoài thực địa rất thú vị nhưng cũng đầy đau đớn.
  • Do thiếu tài nguyên tính toán và các nhà cung cấp thiếu ổn định, mọi thứ khó hơn dự kiến, nhưng họ đã vượt qua bằng năng lực kỹ thuật.
  • Đây chỉ là một phần câu chuyện về việc khởi nghiệp, gọi vốn, mua chip để cạnh tranh với Gemini pro/GPT 3.5 và vượt qua nhiều đối thủ khác.

Ý kiến của GN⁺

  • Bài viết này cho thấy rất rõ những vấn đề và thách thức thực tế mà một startup phải đối mặt khi huấn luyện mô hình ngôn ngữ lớn từ đầu. Điều này có thể mang lại góc nhìn thực tế cho các kỹ sư phần mềm mới vào nghề.
  • Tầm quan trọng của việc chọn phần cứng, cùng với sự khác biệt về tỷ lệ lỗi và mức độ hỗ trợ đi kèm, là những điều startup hoặc công ty nhỏ nhất định phải cân nhắc khi bắt đầu một dự án lớn.
  • Bài viết nhấn mạnh các ràng buộc kỹ thuật mà startup phải đối mặt khi so sánh với hạ tầng của các công ty lớn như Google. Điều này cho thấy vì sao startup cần thận trọng khi đưa ra lựa chọn công nghệ.
  • Bài viết gợi ý rằng quá trình xây dựng hạ tầng và công cụ cần thiết để huấn luyện các mô hình quy mô lớn trong startup có thể cực kỳ phức tạp và khó khăn. Đây là yếu tố quan trọng cần cân nhắc khi chọn nhà cung cấp dịch vụ đám mây hoặc quyết định tự xây dựng phần cứng.
  • Dù có nhiều vấn đề và thách thức kỹ thuật, bài viết vẫn truyền tải thông điệp tích cực rằng startup có thể vượt qua khó khăn và đạt được kết quả thành công nhờ năng lực kỹ thuật.

1 bình luận

 
GN⁺ 2024-03-08
Ý kiến Hacker News
  • Startup ở đây được hiểu là một tổ chức có ít người nhưng có lượng vốn lớn để đầu tư vào cụm huấn luyện. Bài viết giải thích rằng nhiều startup và cả các công ty hiện có vận hành bằng cách thuê máy chủ. Hầu hết các nhà phát triển LLM (Large Language Model) đều dùng phần cứng và dữ liệu tương tự nhau để huấn luyện trên dữ liệu văn bản và hình ảnh. Mỗi LLM đều có "bí quyết" riêng, và điều đó tạo ra khác biệt về chất lượng đầu ra. Tuy nhiên, nhìn tổng thể thì quá trình này có vẻ như là công việc trùng lặp tiêu tốn rất nhiều năng lượng.
  • Đây là bài viết về trải nghiệm của Yi Tay, người từng là lãnh đạo kỹ thuật cho PaLM, UL2, Flan, Bard của Google, sau đó đồng sáng lập Reka và huấn luyện LLM như một startup độc lập. Cuộc trò chuyện đã dẫn đến việc Yi Tay viết bài đăng này được ghi lại tại đây.
  • Tôi biết đến Reka.ai qua bài viết này. LLM của Reka.ai không được thảo luận nhiều trên Hacker News. Vì tò mò, tôi đã thử giao diện chat của Reka Flash và so sánh với ChatGPT 4, Gemini Advanced, Claude 3, Mistral Large. Kết quả ở đây. Nhìn chung, Reka Flash không tệ hơn hẳn cũng không tốt hơn hẳn so với các LLM khác. Tất nhiên, cần nhiều thử nghiệm hơn để có thể kết luận chắc chắn.
  • Tác giả dường như giả định rằng độc giả hiểu "hoang dã" là "bên ngoài Google". Bài viết dành nhiều công lao cho đội ngũ hạ tầng và phần cứng của Google, và tôi muốn đọc góc nhìn của một người trong Google khi làm công việc tương tự ở nơi khác.
  • Trang chính của Reka.AI trông giống một bản sao ChatGPT thông thường, tính phí theo token, tức là một LLM. Chưa rõ nó khác các công ty khác ở điểm nào. Mức giá có vẻ tương tự ChatGPT 3.5-Turbo.
  • Huấn luyện LLM từ đầu là một vấn đề quan trọng đối với tốc độ và phạm vi tiến hóa của AI, ngang với các cải tiến phần cứng thuần túy. Blog khá thú vị nhưng hơi nông và không quá kỹ thuật, và với người từng có kinh nghiệm xử lý cụm GPU thì không có gì đáng ngạc nhiên. Tôi cũng chưa hiểu rõ vì sao bên ngoài Google lại nên khuyến nghị Jax thay vì PyTorch cho LLM. Mong công ty mới này sẽ công bố một báo cáo kỹ thuật hơn về hành trình huấn luyện của họ.
  • Bài viết chỉ kể một phần nhỏ của câu chuyện: thành lập công ty, gọi vốn, mua chip rồi xây dựng một LLM ở mức GPT 3.5 trong chưa đầy một năm và vượt qua nhiều sản phẩm khác. Tôi tò mò ngân sách dành cho chip/GPU đám mây là bao nhiêu. Có phải đâu đó khoảng 2 đến 5 triệu USD không?
  • Một câu hỏi lớn là các startup nhỏ không có nền tảng hay sự nghiệp phù hợp làm sao có thể huy động vốn cho sản phẩm LLM. Thế giới startup LLM có vẻ giống thế giới của các quỹ hedge fund và private equity, nơi điều kiện tiên quyết để nhận seed/funding là có lý lịch làm việc danh giá/sự nghiệp phù hợp và một mạng lưới nhà đầu tư vững chắc sẵn sàng rót tiền trước cả khi sản phẩm bắt đầu.
  • Tôi tự hỏi liệu tiêu đề có nên là "from the ground up" thay vì "ground zero" hay không.
  • Phần nói về quy trình dữ liệu huấn luyện rất thú vị, nhưng tôi muốn nghe thêm nữa.