30 điểm bởi xguru 2023-08-22 | 1 bình luận | Chia sẻ qua WhatsApp
  • 10 bài toán chính đang được bàn luận trong lĩnh vực LLM cùng bộ sưu tập liên kết để học thêm

Giảm và đo lường hiện tượng ảo giác (Hallucination)

  • Rào cản lớn nhất khi doanh nghiệp áp dụng LLM là hiện tượng ảo giác
  • Việc phát triển các chỉ số để giảm nhẹ và đo lường ảo giác là một chủ đề nghiên cứu phổ biến, được nhiều startup tập trung theo đuổi
  • Một số mẹo tạm thời để giảm ảo giác gồm thêm ngữ cảnh vào prompt, Chain-Of-Thought, Self-Consistency, và yêu cầu mô hình trả lời ngắn gọn

Tối ưu độ dài ngữ cảnh và cách cấu thành ngữ cảnh

  • Phần lớn câu hỏi đều cần ngữ cảnh
  • Theo bài báo SituatedQA, một phần đáng kể các câu hỏi truy xuất thông tin có câu trả lời thay đổi theo ngữ cảnh (16.5% trong bộ dữ liệu NQ-Open)
  • Trong các trường hợp của doanh nghiệp, tỷ lệ này có thể còn cao hơn nhiều (ví dụ chatbot hỗ trợ khách hàng thì ngữ cảnh là lịch sử của khách đó hoặc thông tin về sản phẩm)
  • Độ dài ngữ cảnh đặc biệt quan trọng với RAG (Retrieval Augmented Generation)
  • RAG hoạt động theo 2 bước
    • Chia khối (indexing): thu thập mọi tài liệu sẽ dùng cho LLM. Tạo embedding, chia thành các chunk để đưa embedding vào LLM, rồi lưu embedding vào vector DB
    • Truy vấn: khi người dùng gửi truy vấn, LLM chuyển truy vấn thành embedding. Sau đó lấy từ cơ sở dữ liệu vector các chunk giống embedding đó nhất
  • Ngữ cảnh càng dài thì càng có thể đưa vào nhiều chunk hơn. Nếu mô hình có thể truy cập nhiều thông tin hơn thì câu trả lời hẳn sẽ tốt hơn?
  • Không phải lúc nào cũng vậy. Lượng ngữ cảnh mô hình sử dụng và mức độ hiệu quả mà mô hình khai thác ngữ cảnh là hai câu hỏi khác nhau
  • Song song với nỗ lực tăng độ dài ngữ cảnh của mô hình, cũng có những nỗ lực làm cho ngữ cảnh hiệu quả hơn
    • Điều này được gọi là prompt engineering hoặc prompt construction
    • Ví dụ, các bài báo gần đây cho thấy mô hình hiểu thông tin ở phần đầu hoặc cuối ngữ cảnh tốt hơn so với phần giữa

Tích hợp các kiểu dữ liệu khác (modalities)

  • Multimodality rất mạnh nhưng vẫn đang bị đánh giá thấp
  • Những lý do quan trọng
    • Có nhiều trường hợp sử dụng liên quan tới dữ liệu đa dạng như y tế, robot, thương mại điện tử, bán lẻ, game và giải trí
      • Dự đoán y khoa cần cả văn bản (ghi chú của bác sĩ, bảng hỏi) và hình ảnh (CT, X-Ray, MRI)
      • Metadata sản phẩm gồm hình ảnh, video, mô tả và dữ liệu dạng bảng
    • Multimodality sẽ mang lại cải thiện lớn về hiệu năng mô hình
      • Mô hình hiểu được cả văn bản và hình ảnh sẽ cho hiệu năng tốt hơn mô hình chỉ hiểu văn bản
      • Vì các mô hình dựa trên văn bản cần lượng dữ liệu chữ khổng lồ, nên cũng có lo ngại rằng dữ liệu internet cần thiết để huấn luyện mô hình sớm muộn sẽ cạn kiệt
      • Khi văn bản trở nên thiếu hụt, ta sẽ phải tận dụng các kiểu dữ liệu khác
  • Điều đặc biệt được kỳ vọng: multimodality sẽ giúp người khiếm thị có thể tìm kiếm internet và khám phá thế giới thực

Làm cho LLM nhanh hơn và rẻ hơn

  • Khi GPT-3.5 ra mắt vào tháng 11/2022, nhiều người lo ngại về độ trễ và chi phí sử dụng trong môi trường production
  • Nhưng phân tích về độ trễ/chi phí đã thay đổi rất nhiều kể từ đó
  • Chưa đầy nửa năm sau, cộng đồng đã tìm ra cách tạo ra các mô hình chỉ dùng 2% dung lượng bộ nhớ của GPT-3.5 nhưng hiệu năng rất sát GPT-3.5
  • Điểm mấu chốt: nếu tạo được thứ đủ tốt, con người sẽ tìm ra cách làm cho nó nhanh và rẻ
  • Bốn năm trước đã có tổng kết về 4 kỹ thuật chính để tối ưu/nén mô hình
    • Quantization (lượng tử hóa): cách tối ưu mô hình phổ biến nhất. Giảm kích thước mô hình bằng cách dùng ít bit hơn để biểu diễn tham số. Thay vì số thực dấu phẩy động 32-bit, có thể dùng 16-bit, thậm chí 4-bit
    • Knowledge distillation (chưng cất tri thức): huấn luyện một mô hình nhỏ hơn (student) để bắt chước một mô hình lớn hơn hoặc một tập hợp mô hình (teacher)
    • Low-rank factorization (phân rã hạng thấp): thay tensor chiều cao bằng tensor chiều thấp để giảm số lượng tham số. Ví dụ, phân rã tensor 3x3 thành tích của tensor 3x1 và 1x3 để chỉ còn 6 tham số thay vì 9
    • Pruning (cắt tỉa)
  • Đến giờ, cả 4 kỹ thuật này vẫn còn liên quan và phổ biến. Alpaca dùng kỹ thuật chưng cất tri thức, còn QLoRA dùng kết hợp phân rã hạng thấp và lượng tử hóa

Thiết kế kiến trúc mô hình mới

  • Kể từ AlexNet năm 2012, nhiều kiến trúc như LSTM, seq2seq từng nổi lên rồi biến mất
  • So với chúng, Transformer rất bền bỉ. Nó xuất hiện từ năm 2017, và thật tò mò không biết sẽ còn thịnh hành đến bao giờ
  • Phát triển một kiến trúc mới vượt qua Transformer không hề dễ. Nó đã được tối ưu cực nhiều trong 6 năm qua
  • Kiến trúc mới phải thể hiện hiệu năng ở quy mô đủ lớn để con người ngày nay quan tâm
    • Transformer ban đầu được thiết kế để chạy nhanh trên TPU, rồi sau đó mới được tối ưu cho GPU
  • Năm 2021, phòng thí nghiệm của Chris Ré đã tạo ra nhiều hào hứng xoay quanh S4.
    Gần đây họ vẫn tiếp tục đầu tư vào kiến trúc mới, và mới nhất là cùng startup Together phát triển kiến trúc Monarch Mixer

Phát triển giải pháp thay thế GPU

  • GPU là phần cứng thống trị cho deep learning kể từ sau AlexNet năm 2012
  • Một trong những lý do AlexNet nổi tiếng là vì đó là bài báo đầu tiên huấn luyện mạng nơ-ron thành công bằng GPU
    Trước GPU, để huấn luyện mô hình ở quy mô AlexNet cần tới hàng nghìn CPU
    So với hàng nghìn CPU, 2 GPU dễ tiếp cận hơn nhiều đối với nghiên cứu sinh và nhà nghiên cứu, từ đó khởi phát làn sóng bùng nổ nghiên cứu deep learning
  • Trong 10 năm qua, các tập đoàn lớn, startup và nhiều công ty đã cố gắng tạo ra phần cứng mới cho AI
  • Nổi bật nhất là TPU của Google, IPU của Graphcore và Cerebras
  • SambaNova đã gọi vốn hơn 1 tỷ USD để phát triển chip AI mới, nhưng sau đó chuyển hướng sang nền tảng AI tạo sinh
  • Đã có một thời gian quantum computing được kỳ vọng rất lớn, với các bên nổi bật như sau
    • QPU của IBM
    • Máy tính lượng tử của Google đã công bố một cột mốc lớn về giảm lỗi lượng tử trên Nature vào đầu năm nay. Có thể truy cập quantum virtual machine qua Google Colab
    • Trung tâm Kỹ thuật Lượng tử MIT, Viện Quang học Lượng tử Max Planck, Chicago Quantum Exchange, Phòng thí nghiệm Quốc gia Oak Ridge, v.v.
  • Một hướng khác cũng rất thú vị là chip quang tử
    • Các con chip ngày nay dùng điện để di chuyển dữ liệu nên tiêu tốn nhiều năng lượng và cũng phát sinh độ trễ
    • Chip quang tử dùng photon để di chuyển dữ liệu và tận dụng tốc độ ánh sáng để tính toán nhanh và hiệu quả hơn
    • Nhiều startup trong lĩnh vực này đã gọi được hàng trăm triệu USD, bao gồm Lightmatter ($270M), Ayar Labs ($220M), Lightelligence ($200M+) và Luminous Computing ($115M)

Làm cho agent trở nên khả dụng

  • Agent là LLM có thể thực hiện các tác vụ như tìm kiếm internet, gửi email, đặt lịch hẹn, v.v.
  • So với các hướng nghiên cứu khác trong bài này, đây có thể xem là lĩnh vực còn ở giai đoạn sớm nhất
  • Do tính mới mẻ và tiềm năng khổng lồ, agent đang nhận được sự quan tâm cuồng nhiệt
  • Auto-GPT hiện là repo phổ biến thứ 25 trên GitHub tính theo số Star
  • GPT-Engineering cũng là một kho lưu trữ rất phổ biến
  • Dù rất hào hứng, vẫn còn nghi ngờ liệu LLM có đủ đáng tin cậy và đủ năng lực để được trao quyền hành động hay không
  • Startup đáng chú ý nhất trong lĩnh vực này là Adept
    • Do 2 đồng tác giả của Transformer và cựu VP OpenAI sáng lập, đến nay đã gọi gần 500 triệu USD

Cải thiện học từ Human Preference

  • RLHF, Reinforcement Learning from Human Preference, rất thú vị nhưng hơi mang tính vá víu
    Sẽ không có gì ngạc nhiên nếu con người tìm ra cách tốt hơn để huấn luyện LLM. RLHF còn có những câu hỏi chưa được giải quyết như sau
    • Làm thế nào để biểu diễn sở thích của con người bằng toán học?
      • Hiện nay sở thích của con người được xác định thông qua so sánh
      • Người gán nhãn quyết định câu trả lời A có tốt hơn câu trả lời B hay không, nhưng không xét A tốt hơn B bao nhiêu
    • Sở thích của con người là gì?
      • Anthropic đo chất lượng câu trả lời của mô hình theo ba trục: hữu ích, trung thực và vô hại
      • DeepMind cố gắng tạo ra các câu trả lời làm hài lòng phần lớn mọi người
      • Chúng ta có muốn AI biết đưa ra lập trường, hay muốn một AI tẻ nhạt né tránh các chủ đề có thể gây tranh cãi?
    • Khi xét đến khác biệt về văn hóa, tôn giáo, khuynh hướng chính trị, v.v., sở thích của ai mới là sở thích “con người”?
  • Có rất nhiều khó khăn trong việc thu thập dữ liệu huấn luyện có thể đại diện đầy đủ cho mọi người dùng tiềm năng
    Ví dụ, trong dữ liệu InstructGPT của OpenAI không có người gán nhãn nào trên 65 tuổi. Những người gán nhãn chủ yếu là người Philippines và Bangladesh
  • Các nỗ lực do cộng đồng dẫn dắt, dù có ý định tốt, vẫn có thể tạo ra dữ liệu thiên lệch
    Ví dụ, với bộ dữ liệu OpenAssistant, 201 trên 222 người trả lời (90.5%) tự nhận là nam giới

Nâng cao hiệu quả của giao diện chat

  • Từ sau ChatGPT, đã có nhiều tranh luận về việc chat có phải là giao diện phù hợp cho nhiều tác vụ khác nhau hay không
  • Đây không phải là thảo luận mới; ở châu Á, chat đã được dùng làm giao diện của các super app suốt khoảng 10 năm qua
  • Cá nhân tôi thích giao diện chat vì những lý do sau
    • Chat là giao diện mà người dùng có thể nhanh chóng học cách sử dụng, kể cả những người trước đây chưa từng tiếp xúc với máy tính hay internet
    • Giao diện chat có tính tiếp cận. Khi tay bận, có thể dùng giọng nói thay cho văn bản
    • Chat là một giao diện mạnh đến khó tin. Bạn có thể đưa ra bất kỳ yêu cầu nào, và ngay cả khi câu trả lời chưa tốt thì nó vẫn đưa ra một phản hồi
  • Nhưng tôi vẫn nghĩ còn những mảng có thể cải thiện thêm cho giao diện chat
    • Nhiều tin nhắn trong mỗi lượt
    • Đầu vào multimodal
    • Tích hợp AI tạo sinh vào workflow
    • Chỉnh sửa và xóa tin nhắn

Xây dựng LLM cho các ngôn ngữ không phải tiếng Anh

  • Các LLM English-first hiện nay không hoạt động tốt với những ngôn ngữ khác về mặt hiệu năng, độ trễ và tốc độ
  • Một vài độc giả đầu tiên của bài viết này từng cho rằng không nên đưa hướng này vào
    • Họ cho rằng đây gần với vấn đề logistics hơn là nghiên cứu. Chúng ta đã biết cách làm, chỉ cần đầu tư tiền bạc và công sức là được
      Nhưng điều đó không đúng. Phần lớn ngôn ngữ là ngôn ngữ ít tài nguyên. So với tiếng Anh hay tiếng Trung, dữ liệu chất lượng cao ít hơn rất nhiều, và việc huấn luyện mô hình lớn có thể cần các kỹ thuật khác
    • Những người bi quan hơn còn cho rằng trong tương lai nhiều ngôn ngữ sẽ biến mất, và internet sẽ trở thành hai thế giới với hai ngôn ngữ là tiếng Anh và tiếng Quan Thoại. Còn ai nhớ Esperando không?
  • Tác động của các công cụ AI như máy dịch và chatbot đối với việc học ngôn ngữ vẫn chưa rõ ràng
    Liệu chúng sẽ giúp con người học ngôn ngữ mới nhanh hơn, hay sẽ khiến việc học ngôn ngữ mới trở nên hoàn toàn không cần thiết?

1 bình luận

 
joone 2023-08-31

Tác giả bài này chính là người đã viết cuốn sách Designing Machine Learning Systems do O'Reilly xuất bản.
Bản dịch tiếng Hàn được Hanbit Publishing phát hành.
https://m.hanbit.co.kr/store/books/book_view.html?p_code=B1811121220