4 điểm bởi GN⁺ 2023-12-03 | 1 bình luận | Chia sẻ qua WhatsApp

Kỷ niệm 1 năm ChatGPT ra mắt: Cuộc bám đuổi của các mô hình ngôn ngữ lớn mã nguồn mở

  • ChatGPT, ra mắt vào cuối năm 2022, đã mang đến những thay đổi lớn trên toàn bộ lĩnh vực AI.
  • Bằng cách tinh chỉnh mô hình ngôn ngữ lớn (LLM) với học có giám sát và học tăng cường từ phản hồi của con người, nó đã cho thấy khả năng trả lời câu hỏi của con người và làm theo chỉ dẫn trong nhiều tác vụ khác nhau.
  • Sau thành công này, sự quan tâm đến LLM trong giới học thuật và công nghiệp đã gia tăng, nhiều startup đang tập trung vào LLM, và các LLM mã nguồn mở đang phát triển nhanh chóng, với tuyên bố rằng trong một số tác vụ cụ thể, chúng cho hiệu năng tương đương hoặc tốt hơn ChatGPT.

Tác động đến nghiên cứu và kinh doanh

  • Dù các LLM nguồn đóng (ví dụ: GPT của OpenAI, Claude của Anthropic) nhìn chung vẫn cho hiệu năng tốt hơn các mô hình mã nguồn mở, nhưng các LLM mã nguồn mở đang phát triển rất nhanh và có những tuyên bố rằng ở một số tác vụ, chúng đã đạt hiệu năng tương đương hoặc tốt hơn.
  • Những tiến bộ này có tác động quan trọng không chỉ với nghiên cứu mà còn với kinh doanh.

Ý kiến của GN⁺

  • Nhân dịp tròn 1 năm ChatGPT ra mắt, điểm đáng chú ý là các mô hình ngôn ngữ lớn mã nguồn mở đang tiến bộ rất nhanh và trong một số tác vụ cụ thể đã cho thấy hiệu năng tương đương hoặc tốt hơn ChatGPT.
  • Điều này có ảnh hưởng lớn tới cả nghiên cứu lẫn kinh doanh, đồng thời có thể góp phần thúc đẩy dân chủ hóa công nghệ AI và đổi mới sáng tạo.
  • Bài viết này mang đến nội dung thú vị cho những ai quan tâm đến sự phát triển của công nghệ AI và tác động của nó đối với xã hội.

1 bình luận

 
GN⁺ 2023-12-03
Ý kiến Hacker News
  • Những mô hình lớn và mạnh đã được công bố trong vài ngày gần đây:

    • Qwen 72B (và 1.8B): ngữ cảnh 32K, được huấn luyện với 3T token, giấy phép thương mại cho người dùng hàng tháng dưới 100 triệu, hiệu năng mạnh trên các benchmark
    • DeepSeek LLM 67B: ngữ cảnh 4K, 2T token, giấy phép Apache 2.0, mạnh trong lĩnh vực code (thậm chí còn tốt hơn khi so với DeepSeek Code 33B)
    • Các mô hình được phát hành tại Trung Quốc: Yi 34B(có tin đồn 100B), XVERSE-65B, Aquila2-70B, Yuan 2.0-102B
    • OpenChat 3.5: mô hình 7b đạt kết quả tương tự ChatGPT vào tháng 3 năm 2023, cửa sổ ngữ cảnh 8k, xếp hạng cao hơn Llama-2-70b-chat trên bảng xếp hạng Chatbot Arena
    • LLM mã nguồn mở đang dẫn đầu ngành, đặc biệt ở khía cạnh hiệu quả tham số và cung cấp các mô hình hữu ích mà người dùng có thể chạy trên phần cứng của chính mình
  • Trình diễn khả năng tinh chỉnh llama2 1,3 tỷ tham số bằng qlora:

    • Inkbot tạo knowledge graph và trả về cấu trúc phù hợp ở định dạng YAML, cho kết quả tốt hơn GPT4
    • Cung cấp ví dụ cho prompt đơn giản và prompt phức tạp
    • Cũng thực hiện chức năng tóm tắt theo chunk
  • Có vẻ sẽ cần đặt một prompt router phía trước nhiều mô hình chuyên biệt (code, chat, toán, SQL, y tế, v.v.):

    • Mô hình tổng quát gửi yêu cầu đến router đang chạy
    • Prompt/câu hỏi được phân tách, phân loại và chuyển đến các mô hình chuyên gia
    • Phản hồi quay lại và được mô hình tổng quát lắp ghép lại
    • Câu hỏi liệu đã có dự án tương tự như vậy đang được triển khai hay chưa
  • Hiện tại các mô hình khoảng 70B đang ở mức tương đương ChatGPT 3.5, còn các mô hình nhỏ lúc đầu có thể trông tương tự nhưng có tỷ lệ hallucination cao hơn và thiếu kiến thức về thế giới

  • GPT 4 "hiểu" ở mức độ sâu hơn, và các mô hình mã nguồn mở vẫn chưa thể so sánh được

  • Công nghệ mã nguồn mở có các tính năng kiểm soát đầu ra mà OpenAI không triển khai (ví dụ: grammar của llama.cpp hoặc ControlNet), nên ở khía cạnh này mã nguồn mở đang đi trước OpenAI

  • Chia sẻ trải nghiệm dùng mô hình DeepSeek 67B:

    • Đủ tốt để thay thế nhu cầu dùng ChatGPT
  • Mistral OpenOrca gần như tương đương GPT4-turbo trong viết sáng tạo/phân tích, và có xu hướng xuất ra văn bản tương tự

  • Về dài hạn, việc LLM mã nguồn mở bắt kịp gần như là điều không thể tránh khỏi; cộng đồng mã nguồn mở có nguồn lực hạn chế hơn nhiều nhưng đã tăng tốc đáng kể việc phát triển các mô hình <30B tham số

  • Theo kinh nghiệm cá nhân, LLM mã nguồn mở vẫn chưa đạt chất lượng của GPT 3.5, nhưng đã hữu ích ngay từ hôm nay và có thể chạy trên máy cục bộ

  • Dùng plugin Neovim gen.nvim để xử lý các tác vụ đơn giản và tiết kiệm được rất nhiều thời gian

  • Bày tỏ sự kỳ vọng vào tương lai

  • Tin chắc rằng các mô hình mã nguồn mở đang bắt kịp khi GPT4 liên tục thụt lùi trong suốt một tháng qua