Jeff Dean: Những xu hướng mới nhất trong machine learning [Video]

(youtube.com)

25 điểm bởi GN⁺ 2024-02-21 | 3 bình luận | Chia sẻ qua WhatsApp

Jeff Dean (Google): Những xu hướng thú vị trong machine learning

Những xu hướng thú vị và kỳ vọng đối với machine learning

Machine learning trong vài năm gần đây đã thay đổi rất lớn kỳ vọng của chúng ta về những gì máy tính có thể làm.
Trong mọi lĩnh vực như ngôn ngữ, hình ảnh, xử lý ngôn ngữ tự nhiên, máy tính đã có được khả năng nhận biết và hiểu thế giới tốt hơn.
Sự phát triển của các công nghệ giúp máy tính có thể nhìn thấy và cảm nhận đã mở ra nhiều cơ hội trong gần như mọi lĩnh vực hoạt động của con người.
Sự phát triển của tài nguyên tính toán quy mô lớn hơn, máy tính chuyên dụng và các yếu tố tương tự đã mang lại kết quả tốt hơn, đồng thời mở ra những khả năng mới.
Chúng ta cần nhiều dạng phần cứng đa dạng hơn có thể vận hành với hiệu suất cao, đồng thời thu hẹp hiệu quả phạm vi những việc máy tính có thể làm.

Tiến bộ của công nghệ nhận dạng giọng nói, dịch thuật, phân tích hình ảnh và cải thiện độ chính xác dự đoán

Công nghệ nhận dạng giọng nói là việc chuyển đổi dạng sóng âm thanh thành lời nói có ý nghĩa trong khoảng 5 giây, và lĩnh vực này đã có những bước tiến lớn.
Công nghệ dịch thuật đang phát triển thành một chức năng rất hữu ích đối với máy tính, cho phép dịch từ ngôn ngữ này sang ngôn ngữ khác.
Công nghệ phân tích hình ảnh cũng đã đạt tiến bộ lớn trong lĩnh vực computer vision, không chỉ gắn nhãn mà còn chuyển đổi thành những câu ngắn mô tả cảnh vật.
Ngoài ra, trong vài năm gần đây, việc sử dụng những công nghệ này theo chiều ngược lại cũng đã trở nên khả thi.
Thật đáng kinh ngạc khi trong 10 năm, hiệu năng đã được cải thiện vượt cả độ chính xác của con người.

Tầm quan trọng của việc mở rộng phần cứng để nâng cao chất lượng mô hình AI

'Word Error Rate', một benchmark tiêu biểu để đo độ chính xác của nhận dạng giọng nói, đã được cải thiện mạnh từ 13.25% xuống còn 2.5%.
Nhờ đó, khả năng sử dụng được cải thiện đáng kể, đến mức hiện nay hệ thống đủ đáng tin cậy để chép lại email hoặc thực hiện đọc chính tả.
Đặc biệt, việc scale-up phần cứng giúp nâng cao chất lượng mô hình, và vì vậy cần phần cứng được tối ưu hóa cho machine learning.
Các mô hình neural network có đặc điểm là vẫn hoạt động tốt ngay cả khi dùng độ chính xác giảm, từ đó cho phép huấn luyện mô hình hiệu quả hơn.
Ngoài ra, các thuật toán dùng trong huấn luyện mô hình được cấu thành từ nhiều tổ hợp phép toán đại số tuyến tính, nên cần những máy tính có thể xử lý hiệu quả các phép toán đại số tuyến tính với độ chính xác giảm.

Sự phát triển của mạng máy tính và niềm đam mê với mô hình ngôn ngữ

Ở thế hệ đầu tiên, đó là một mạng đơn giản nhưng băng thông cao. Mỗi chip được kết nối theo lưới 2D, và trong lưới 16x6, mỗi chip được nối với 4 chip lân cận bằng dây dẫn.
Điều này giúp không cần định tuyến trong mạng, và vì kết nối giữa các chip ở khoảng cách ngắn nên có thể đạt được băng thông cao, kết nối chi phí thấp.
Ở thế hệ tiếp theo, hệ thống được mở rộng lên 1024 chip trong 8 rack, và ở thế hệ sau nữa là 64 rack với mỗi rack dùng 64 chip.
Đặc biệt gần đây đã có dòng V5; mô hình V5P dùng 256 chip cho suy luận phân tán, cung cấp nhiều bộ nhớ hơn trên mỗi chip, băng thông cao hơn và băng thông bộ nhớ tốt hơn.
Mô hình này cung cấp hiệu năng gần nửa petaflop trên mỗi chip ở hiệu năng dấu phẩy động 16-bit, và theo thước đo XOR flop có thể tính thành khoảng 9.000 chip trên mỗi chip.
Một trong những lĩnh vực có thay đổi lớn nhất trong những gì máy tính có thể làm là ngôn ngữ. Chúng ta đã nói về tiến bộ trong nhận dạng hình ảnh và giọng nói, nhưng thực ra sự quan tâm tới mô hình ngôn ngữ đã có từ trước cả mạng NN. Vì vậy, chúng tôi đã hợp tác với đội Google Dịch để nghiên cứu mô hình ngôn ngữ.

Xây dựng hệ thống dịch chất lượng cao bằng lượng dữ liệu lớn và kỹ thuật đơn giản

Đã nỗ lực đưa một hệ thống dịch chất lượng cao được phát triển cho các cuộc thi khoa học vào sử dụng trong công việc thực tế
Xây dựng một hệ thống thống kê tần suất xuất hiện của các chuỗi 5 từ trong 2 nghìn tỷ token và lưu 300 tỷ 5-gram duy nhất trong bộ nhớ
Phát triển thuật toán mới 'stupid backoff' để khi không tìm thấy dữ liệu thì tham chiếu tới 4-gram, 3-gram trước đó
Rút ra bài học rằng kỹ thuật đơn giản khi kết hợp với lượng dữ liệu khổng lồ có thể tạo ra kết quả hiệu quả

Biểu diễn từ bằng vector nhiều chiều để đưa các từ trong ngữ cảnh tương tự lại gần nhau và đẩy các từ ở ngữ cảnh khác xa nhau

Thay vì biểu diễn từ theo cách rời rạc, sử dụng vector nhiều chiều để đưa các từ trong ngữ cảnh tương tự lại gần nhau và đẩy các từ trong ngữ cảnh khác xa nhau.
Thông qua quy trình training với lượng dữ liệu khổng lồ, các từ xuất hiện trong ngữ cảnh tương tự được đưa lại gần nhau và các từ trong ngữ cảnh khác được đẩy xa nhau, từ đó nhóm các từ tương tự trong không gian.
Biểu diễn phân tán mã hóa nhiều thông tin trong vector 100 chiều đại diện cho từ, và bằng phương pháp này, mô hình dịch ngôn ngữ 'sequence to sequence learning' đã được phát triển.
'Sequence to sequence learning' sử dụng neural network để nhận từng câu đầu vào, cấu thành câu và cập nhật biểu diễn phân tán của từng từ để xuất ra kết quả dịch.

Sử dụng mô hình để dịch ngôn ngữ tự nhiên và thực hiện hội thoại nhiều lượt

Dữ liệu huấn luyện gồm các câu tiếng Anh và các câu tiếng Pháp mang ý nghĩa tương ứng, và mô hình được huấn luyện bằng dữ liệu này.
Xây dựng một mô hình dịch câu tiếng Anh đầu vào sang câu tiếng Pháp.
Với hội thoại nhiều lượt, mô hình được huấn luyện để tạo ra phản hồi phù hợp bằng cách sử dụng ngữ cảnh gồm các tương tác trước đó.
Sử dụng mô hình Transformer để xử lý đầu vào song song và tập trung vào từng phần nhằm cải thiện độ chính xác dịch thuật.
Hiện nay, nhờ sự phát triển của thuật toán và phần cứng machine learning, có thể huấn luyện các mô hình quy mô lớn hơn và tạo ra phản hồi hiệu quả hơn.

Phát triển mô hình hội thoại đa phương thức có thể xử lý nhiều modality mà không phân biệt

Ông đã nói về tiến bộ của các mô hình hội thoại neural network như Mina của OpenAI, ChatGPT và Bard của Google.
Ông cũng đề cập đến sự thay đổi của mô hình ngôn ngữ, cùng với các công trình GPT2 của OpenAI và T5 của Google. Các mô hình này đang gia tăng mạnh về số lượng tham số.
Ông cũng nhắc tới sự phát triển của Transformer, nền tảng được sử dụng cho các công trình này.
Ông nói về GPT3, GPT-4 của OpenAI và các dự án như Gemini của Google. Dự án Gemini hướng tới phát triển mô hình có thể xử lý đồng thời nhiều modality như văn bản, hình ảnh, âm thanh chứ không chỉ văn bản.
Dự án Gemini xử lý văn bản, hình ảnh, video, âm thanh như một chuỗi duy nhất và huấn luyện mô hình dựa trên Transformer. Qua đó có thể xây dựng biểu diễn nhất quán cho nhiều modality khác nhau.

Hạ tầng huấn luyện TensorFlow, các sản phẩm Gemini với nhiều kích cỡ và hệ thống tự động khôi phục

Gemini của TensorFlow được cung cấp với 3 kích cỡ: Ultra, Pro, Nano; mỗi mô hình phù hợp với mục đích hoặc môi trường khác nhau.
Gemini cung cấp một fabric có khả năng mở rộng rất cao cho việc huấn luyện mô hình, cùng với mạng hiệu năng cao và hệ thống tự động khôi phục.
Để giảm thiểu các failure được phát hiện, hệ thống thực hiện nâng cấp đồng thời trong môi trường multi-node, khôi phục trạng thái của các bản sao khác qua mạng tốc độ cao và có thể rút ngắn thời gian phục hồi xuống chỉ còn vài giây.
Mô hình được huấn luyện bằng nhiều loại dữ liệu khác nhau, sử dụng web document, sách, code, hình ảnh, âm thanh, video và nhiều định dạng khác làm dữ liệu huấn luyện.
Thành phần cuối cùng của dữ liệu huấn luyện được quyết định bằng cách thử nghiệm trên mô hình nhỏ và đánh giá hiệu năng, dùng nhiều chỉ số đánh giá để tìm ra phối trộn dữ liệu tối ưu.

Chất lượng dữ liệu rất quan trọng và cần được cân nhắc. Chất lượng dữ liệu quan trọng hơn kiến trúc mô hình.

Ở giai đoạn cuối của huấn luyện, dữ liệu liên quan đến domain được sử dụng để bổ sung dữ liệu đa ngôn ngữ.
Dữ liệu chất lượng cao tạo ra khác biệt lớn về hiệu năng mô hình.
Khả năng tự động học curriculum là một trong những hướng nghiên cứu tương lai.
Nghiên cứu cũng đang được tiến hành về cách giúp mô hình trả lời hiệu quả hơn khi đặt câu hỏi, cũng như cách khai thác tối đa điểm mạnh của mô hình.
Khi sử dụng kỹ thuật prompting chain of thought, mô hình có thể cân nhắc nhiều bước đa dạng hơn và đưa ra câu trả lời chính xác hơn.

Tìm hiểu kết quả đánh giá mô hình và phân tích hiệu năng

Mô hình này giới thiệu ví dụ về trường hợp học sinh đưa ra đáp án sai và chỉ ra phần cần được sửa.
Mô hình đã được đánh giá trên 32 benchmark học thuật, và Gemini Ultra cho kết quả vượt kỳ vọng hiệu năng trước đó ở 30 benchmark.
Mô hình này cũng xem xét hiệu năng đa ngôn ngữ và cân nhắc những trade-off phức tạp.
Mô hình cho thấy khả năng hiểu video và năng lực multimodal rất nổi bật, đồng thời đạt thành tích xuất sắc trên nhiều benchmark khác nhau.

Gemini có hiệu năng nhận dạng giọng nói xuất sắc và năng lực đa ngôn ngữ, thậm chí có thể lập trình như một chatbot

Mô hình Gemini cho thấy tỷ lệ lỗi ở mức hàng đầu trên nhiều tiêu chí nhận dạng giọng nói, và cũng có năng lực đa ngôn ngữ rất tốt.
Trước đây, đội ngũ đã dành nhiều nỗ lực để đánh giá mô hình và hiểu chi tiết các năng lực của nó.
Việc Gemini có thể cung cấp thông tin hữu ích và cả mã lập trình là điều hết sức ấn tượng.
Ngoài ra, mô hình cũng có kiến thức về TPU và được mô tả là mang lại hiệu quả và cải thiện hiệu năng rất tốt.
Gemini có thể mang nhiều cá tính chatbot khác nhau; trong đó Bard đóng vai trò như một người bạn hữu ích giúp trả lời câu hỏi, và mô hình này được biết đến là đã đạt điểm ELO cao trên trang LMY.

Ứng dụng mô hình AI và huấn luyện theo từng domain

Có nhiều mô hình khác nhau, trong đó có các dịch vụ miễn phí thể hiện thứ hạng cao và cũng có những dịch vụ trả phí không như vậy.
Gemini cung cấp dưới dạng bảng phép tính 'số doanh nghiệp trên mỗi một triệu dân' cho Anh, Mỹ, Hàn Quốc, Đài Loan và Singapore.
Số liệu của Anh là cao nhất, và hệ thống cũng diễn giải điều này, sau đó liệt kê theo thứ tự Mỹ, Hàn Quốc, Đài Loan, Singapore.
Mỗi thông tin được thu thập từ nhiều nguồn khác nhau, và tùy theo định nghĩa chính xác mà con số thực tế có thể hơi khác.
Nếu huấn luyện các mô hình AI theo từng domain, có thể thu được kết quả chuyên sâu cho các vấn đề cụ thể.

Giải thích nhanh về các mô hình sinh tạo hình ảnh và video

Video này giải thích ngắn gọn về các mô hình sinh tạo hình ảnh và video.
Có các dự án nghiên cứu liên quan như 'Party' và 'Imagine', trong đó sử dụng đầu vào văn bản để tạo ra hình ảnh cụ thể khi xây dựng mô hình tạo ảnh trực quan.
Ví dụ, với đầu vào văn bản yêu cầu tạo một hình ảnh mới, mô hình sẽ diễn giải điều đó và tạo ra hình ảnh thực tế.
Những mô hình sinh tạo này tạo ảnh dựa trên biểu diễn văn bản về pixel cùng với mô tả sự vật.
Bằng cách này, có thể tạo ra hình ảnh dựa trên văn bản mong muốn.

Sự phát triển của các tính năng hình ảnh mang lại sự tiện lợi cho người dùng smartphone.

Khi huấn luyện nhiều mô hình phân tích hình ảnh với các tham số khác nhau, kết quả sẽ thay đổi tùy theo quy mô.
Tính năng camera trên smartphone đã được cải thiện hơn nữa nhờ sự kết hợp giữa nhiếp ảnh tính toán và machine learning.
Với nhiều tính năng như chế độ chụp ảnh, chế độ ban đêm, nhấn mạnh màu sắc, phản hồi hội thoại tự động, hệ thống có thể chuyển đổi theo thời gian thực và trích xuất văn bản.
Các tính năng này cân nhắc ngữ cảnh của người dùng để cung cấp những chuyển đổi và phản hồi dường như không thể tồn tại.
Chúng mang lại những lợi ích đột phá trong các môi trường literacy hạn chế, như truyền tải hình ảnh rõ nét và dịch đa ngôn ngữ.

Ứng dụng công nghệ machine learning trong khoa học vật liệu và lĩnh vực y tế

Trong lĩnh vực khoa học vật liệu, machine learning đang được sử dụng và ảnh hưởng tới nhiều khía cạnh như tạo simulator nhanh.
Có tiềm năng lớn trong việc khảo sát các vật liệu khả thi và xác định những vật liệu có các đặc tính mong muốn thông qua machine learning.
Trong lĩnh vực y tế, machine learning cũng được dùng để chẩn đoán ảnh y khoa và có thể phát hiện sớm bệnh võng mạc do tiểu đường.
Thông qua phân tích hình ảnh y khoa, có thể sàng lọc bệnh nhân ngay cả ở những khu vực thiếu bác sĩ, và mô hình AI có thể đạt hiệu quả tương tự chuyên gia.

Trong khi machine learning và máy tính đang thay đổi thế giới, các nguyên tắc về ứng dụng và trách nhiệm đối với machine learning

Thực hiện sàng lọc nhanh bằng GPU, chẩn đoán da liễu thông qua hình ảnh
Công bố các nguyên tắc về ứng dụng machine learning như loại bỏ thiên lệch không công bằng, khả năng diễn giải của mô hình, cân nhắc quyền riêng tư và lợi ích xã hội
Hiện vẫn đang tiếp tục nghiên cứu về thiên lệch, quyền riêng tư, an toàn và các vấn đề liên quan
Với sự phát triển của machine learning và computing, có thể kỳ vọng vào việc người dùng sẽ trò chuyện và tương tác tự nhiên với máy tính, đồng thời máy tính có thể hiểu và tạo ra thông tin ở nhiều dạng khác nhau
Cùng với tiềm năng của công nghệ này, chúng ta cũng phải có trách nhiệm đối với xã hội

Thông qua các câu hỏi được đặt ra, thảo luận về tầm quan trọng của dữ liệu và nhu cầu khách hàng

Ông chọn và chia sẻ một số câu hỏi có xu hướng đáng chú ý trong số các câu hỏi được gửi qua Slido.
Trong lĩnh vực dữ liệu, dữ liệu chất lượng cao và dung lượng mô hình có thể cải thiện hiệu năng mô hình.
Tuy nhiên, cần cân nhắc cả chất lượng dữ liệu lẫn kích thước mô hình. Dữ liệu chất lượng thấp có thể ảnh hưởng tiêu cực tới năng lực giải toán của mô hình.
Việc huấn luyện bằng lượng lớn dữ liệu video vẫn chưa diễn ra đủ nhiều; và việc hiểu thế giới thông qua dữ liệu thị giác và giọng nói, chứ không chỉ dữ liệu ngôn ngữ, sẽ khác với việc chỉ học bằng ngôn ngữ.
Nhìn chung, dữ liệu vẫn chưa cạn kiệt và vẫn còn nhiều khả năng phát triển hơn nữa.

Mô hình multimodal có cho hiệu năng tốt hơn các mô hình mục tiêu dành cho từng domain không?

Trong một số trường hợp, mô hình multimodal có thể cho hiệu năng tốt hơn.
Càng tăng số lượng modality thì hiệu năng ở các modality khác có xu hướng được cải thiện.
Nếu thu thập được dataset nhắm trúng một bài toán hẹp, hiệu năng cho bài toán đó có thể tăng lên.
Nhưng nếu bài toán phức tạp hoặc khó thu thập dữ liệu chuyên biệt, thì cần một mô hình có kiến thức đa dạng.
Những cá nhân có ít tài nguyên sẽ khó huấn luyện mô hình lớn, vì vậy vẫn có thể khám phá nhiều chủ đề nghiên cứu khác nhau trong lĩnh vực machine learning.

Nhấn mạnh nghiên cứu mô hình bằng GPU và tầm quan trọng của nhiều modality dữ liệu

Có thể thực hiện các nghiên cứu như đánh giá chất lượng dữ liệu, đánh giá tự động, học curriculum trực tuyến và phương pháp tối ưu hóa bằng một GPU hoặc một số ít GPU.
Nghiên cứu về Transformer đã được thực hiện trên 8 GPU. LLM và các mô hình sequence-to-sequence cũng đã được nghiên cứu với 8 GPU.
Đã xuất hiện những câu hỏi rằng liệu LLM và Transformer có phải là tất cả hay không, cũng như vai trò của việc nghiên cứu các mô hình khác trong lĩnh vực machine learning là gì.
Điều đáng lo là những ý tưởng khác có thể bị loại bỏ chỉ vì chúng chưa đủ cụ thể hoặc chưa được khám phá nhiều, làm cản trở những tiến bộ đáng chú ý.
Việc xử lý nhiều modality được đánh giá là quan trọng; và ngoài thị giác, âm thanh, ngôn ngữ, còn cần cân nhắc các modality khác như dữ liệu cảm biến nhịp tim trong y tế.

3 bình luận

everfrost314 2024-02-21

Một nửa nội dung đều nói về Gemini nhỉ haha

xguru 2024-02-21

Nội dung video được Lilys.AI tóm tắt.

https://lilys.ai/digest/297050/…

iyeti 2024-02-21

Cảm ơn.. vì xguru đã làm sẵn rồi nên tôi xem được kết quả chỉ trong 1 giây... ^^

Jeff Dean: Những xu hướng mới nhất trong machine learning [Video]

Bài viết liên quan

3 bình luận