Kỷ niệm 1 năm ChatGPT ra mắt: Cuộc bám đuổi của các mô hình ngôn ngữ lớn mã nguồn mở
- ChatGPT, ra mắt vào cuối năm 2022, đã mang đến những thay đổi lớn trên toàn bộ lĩnh vực AI.
- Bằng cách tinh chỉnh mô hình ngôn ngữ lớn (LLM) với học có giám sát và học tăng cường từ phản hồi của con người, nó đã cho thấy khả năng trả lời câu hỏi của con người và làm theo chỉ dẫn trong nhiều tác vụ khác nhau.
- Sau thành công này, sự quan tâm đến LLM trong giới học thuật và công nghiệp đã gia tăng, nhiều startup đang tập trung vào LLM, và các LLM mã nguồn mở đang phát triển nhanh chóng, với tuyên bố rằng trong một số tác vụ cụ thể, chúng cho hiệu năng tương đương hoặc tốt hơn ChatGPT.
Tác động đến nghiên cứu và kinh doanh
- Dù các LLM nguồn đóng (ví dụ: GPT của OpenAI, Claude của Anthropic) nhìn chung vẫn cho hiệu năng tốt hơn các mô hình mã nguồn mở, nhưng các LLM mã nguồn mở đang phát triển rất nhanh và có những tuyên bố rằng ở một số tác vụ, chúng đã đạt hiệu năng tương đương hoặc tốt hơn.
- Những tiến bộ này có tác động quan trọng không chỉ với nghiên cứu mà còn với kinh doanh.
Ý kiến của GN⁺
- Nhân dịp tròn 1 năm ChatGPT ra mắt, điểm đáng chú ý là các mô hình ngôn ngữ lớn mã nguồn mở đang tiến bộ rất nhanh và trong một số tác vụ cụ thể đã cho thấy hiệu năng tương đương hoặc tốt hơn ChatGPT.
- Điều này có ảnh hưởng lớn tới cả nghiên cứu lẫn kinh doanh, đồng thời có thể góp phần thúc đẩy dân chủ hóa công nghệ AI và đổi mới sáng tạo.
- Bài viết này mang đến nội dung thú vị cho những ai quan tâm đến sự phát triển của công nghệ AI và tác động của nó đối với xã hội.
1 bình luận
Ý kiến Hacker News
Những mô hình lớn và mạnh đã được công bố trong vài ngày gần đây:
Trình diễn khả năng tinh chỉnh llama2 1,3 tỷ tham số bằng qlora:
Có vẻ sẽ cần đặt một prompt router phía trước nhiều mô hình chuyên biệt (code, chat, toán, SQL, y tế, v.v.):
Hiện tại các mô hình khoảng 70B đang ở mức tương đương ChatGPT 3.5, còn các mô hình nhỏ lúc đầu có thể trông tương tự nhưng có tỷ lệ hallucination cao hơn và thiếu kiến thức về thế giới
GPT 4 "hiểu" ở mức độ sâu hơn, và các mô hình mã nguồn mở vẫn chưa thể so sánh được
Công nghệ mã nguồn mở có các tính năng kiểm soát đầu ra mà OpenAI không triển khai (ví dụ: grammar của llama.cpp hoặc ControlNet), nên ở khía cạnh này mã nguồn mở đang đi trước OpenAI
Chia sẻ trải nghiệm dùng mô hình DeepSeek 67B:
Mistral OpenOrca gần như tương đương GPT4-turbo trong viết sáng tạo/phân tích, và có xu hướng xuất ra văn bản tương tự
Về dài hạn, việc LLM mã nguồn mở bắt kịp gần như là điều không thể tránh khỏi; cộng đồng mã nguồn mở có nguồn lực hạn chế hơn nhiều nhưng đã tăng tốc đáng kể việc phát triển các mô hình <30B tham số
Theo kinh nghiệm cá nhân, LLM mã nguồn mở vẫn chưa đạt chất lượng của GPT 3.5, nhưng đã hữu ích ngay từ hôm nay và có thể chạy trên máy cục bộ
Dùng plugin Neovim gen.nvim để xử lý các tác vụ đơn giản và tiết kiệm được rất nhiều thời gian
Bày tỏ sự kỳ vọng vào tương lai
Tin chắc rằng các mô hình mã nguồn mở đang bắt kịp khi GPT4 liên tục thụt lùi trong suốt một tháng qua