12 điểm bởi xguru 2023-10-17 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp
  • “Dữ liệu là dầu mỏ mới” từng là khẩu hiệu của 10 năm qua
    • Các công ty đã nhận ra dữ liệu có giá trị đến mức nào, hoặc có thể có giá trị đến đâu
    • Các công ty vội vã đầu tư vào data stack mới nhất và lưu trữ dữ liệu ở quy mô terabyte trong các data warehouse
    • Các nhóm khoa học dữ liệu được kỳ vọng sẽ phân tích các con số và dùng kết quả đó cho các quyết định sản phẩm (hoặc trong một số trường hợp là các tính năng hướng tới khách hàng như feed đề xuất)
    • Đã có những câu chuyện thành công, nhưng nhiều tổ chức đã thất bại trong việc triển khai
    • Lý do gồm dữ liệu bị silo hóa (hoặc các nhóm dữ liệu bị silo hóa), data warehouse đám mây đắt đỏ và các truy vấn kém hiệu quả (hiện đang được thu hẹp), cũng như thiếu các data pipeline gọn gàng (đòi hỏi lượng vận hành đáng kể để giữ dữ liệu ở trạng thái đã được làm sạch)
  • Giờ đây, khi dùng “AI tạo sinh”, dữ liệu có còn là hào lũy không?
  • Khi các bộ dữ liệu tổng hợp chiếm một phần không bằng 0 trong pipeline huấn luyện và suy luận, giá trị của dữ liệu sẽ tăng lên hay giảm xuống?
  • Một mặt, “dữ liệu chất lượng vẫn quan trọng
    • Phần lớn sự chú ý trong việc cải thiện LLM tập trung vào mô hình và kích thước bộ dữ liệu
    • Có những bằng chứng ban đầu cho thấy LLM có thể bị ảnh hưởng lớn bởi chất lượng dữ liệu mà chúng được huấn luyện trên đó
    • WizardLM, TinyStories, phi-1 là các ví dụ
    • Tương tự, các bộ dữ liệu RLHF cũng quan trọng
  • Mặt khác, với fine-tuning cho định dạng đầu ra và phong cách tùy chỉnh, “chỉ khoảng 100 điểm dữ liệu cũng có thể tạo ra cải thiện lớn
    • Các nhà nghiên cứu LLM tại Databricks, Meta, Spark và Audible đã thực hiện phân tích thực nghiệm về lượng dữ liệu cần thiết cho fine-tuning
    • Lượng dữ liệu này đủ nhỏ để dễ dàng tạo hoặc tuyển chọn thủ công
  • Model distillation là điều thực tế và có thể thực hiện đơn giản
    • Có thể dùng LLM để tạo dữ liệu tổng hợp nhằm huấn luyện hoặc fine-tuning LLM riêng, và một phần tri thức sẽ được chuyển giao
    • Điều này là vấn đề nếu bạn để lộ LLM gốc cho bên kia (còn nếu chỉ dùng nội bộ thì không quá đáng lo), nhưng nó cũng có nghĩa là những dữ liệu không thật sự độc nhất có thể bị sao chép dễ dàng

Chưa có bình luận nào.

Chưa có bình luận nào.