LLM không còn được "huấn luyện từ Internet" nữa

(allenpike.com)

20 điểm bởi GN⁺ 2024-06-03 | 2 bình luận | Chia sẻ qua WhatsApp

Trước đây, LLM chủ yếu được huấn luyện bằng dữ liệu Internet, và hiện tại phần lớn vẫn vậy, nhưng điều đó ngày càng kém đúng hơn (less true)
Khái niệm "trình mô phỏng Internet" không còn hữu ích để dự đoán cách các mô hình từ GPT-5 trở lên hoạt động
- Các mô hình mới đã vượt ra ngoài định nghĩa này, và sự thay đổi đó mới chỉ bắt đầu

Bức tường dữ liệu (Data Wall)

Bài báo GPT-3 năm 2020 của OpenAI mô tả chi tiết bộ dữ liệu huấn luyện, nhưng đó giờ là di vật của quá khứ
- Từ năm 2022, phản hồi tùy biến từ người dùng bắt đầu được dùng trong huấn luyện LLM, và OpenAI cùng các công ty khác ngày càng kín tiếng về dữ liệu huấn luyện
- Không ai biết GPT-4, Sora hay GPT-5 được huấn luyện bằng gì, nhưng chắc chắn không chỉ là dữ liệu Internet đơn thuần
Những người huấn luyện LLM gần đây đã đụng phải một "bức tường dữ liệu"
- OpenAI gần như đã có trong tay hầu hết dữ liệu trên web, nên để tạo ra LLM tốt hơn, họ cần thu thập và tạo ra dữ liệu không công khai
Với những phòng thí nghiệm có tiền, câu trả lời là bảo đảm nguồn dữ liệu và tạo ra dữ liệu riêng
- Ban đầu, trọng tâm là làm cho dữ liệu huấn luyện hiện có hữu ích hơn, hoặc thêm dữ liệu riêng sẵn có vào tập huấn luyện
- Ví dụ
  1. Gắn nhãn và lọc: Các nhà nghiên cứu tạo nhãn cho dữ liệu huấn luyện để tập trung vào dữ liệu chất lượng cao và xây dựng mô hình tốt hơn
  2. RLHF: Các phòng thí nghiệm để con người đánh giá đầu ra của mô hình, rồi dùng dữ liệu đó để tinh chỉnh mô hình và khuyến khích hành vi hữu ích
  3. Dữ liệu sử dụng: Có thông tin cho rằng ChatGPT tạo ra khoảng 10 tỷ token dữ liệu mỗi ngày
  4. Thu thập dữ liệu: Email, nhật ký chat, tài liệu hướng dẫn độc quyền, ticket JIRA, ghi âm cuộc gọi, báo cáo nội bộ, hợp đồng và nhiều loại dữ liệu khác không có trên Internet; những bên huấn luyện mô hình có thể thêm chúng vào dữ liệu huấn luyện
  Quảng cáo
Tuy nhiên, những kỹ thuật này không giải quyết triệt để vấn đề rằng LLM yếu khi phải tạo ra đầu ra khác với dữ liệu sẵn có
- LLM gặp khó với các tác vụ như sau (vì trên mạng không có nhiều văn bản thể hiện điều đó)
  1. Thể hiện sự nghi ngờ hoặc bất định về câu trả lời
  2. Duy trì hội thoại dài mà không lặp câu hay rơi vào vòng lặp
  3. Lập kế hoạch cấp cao để tác tử LLM theo đuổi
  4. Suy luận như một kỹ sư kỳ cựu trên một codebase kế thừa quy mô lớn
  5. Tuân thủ ổn định các prompt rất dài hoặc phức tạp
Kiến trúc tốt hơn và nhiều tham số hơn có thể giúp giải quyết các giới hạn này, nhưng OpenAI, Meta, Google, Microsoft và các công ty khác đang chi rất nhiều tiền để lấp khoảng trống bằng cách tạo ra các ví dụ mới để huấn luyện

LLM hiện đang được huấn luyện bằng dữ liệu tùy biến

Báo cáo kỹ thuật Phi-3 của Microsoft (công bố vào tháng 4) là một ví dụ gần đây cho xu hướng gia tăng dữ liệu tùy biến
- phi-3-mini chỉ có 3,8 tỷ tham số, nhưng cho hiệu năng đủ sức cạnh tranh với mô hình Mixtral lớn và nặng hơn
- Một phần của cải thiện này được giải thích bởi việc đưa dữ liệu tổng hợp chất lượng cao do các LLM lớn hơn tạo ra vào dữ liệu huấn luyện
- Dữ liệu tổng hợp có thể lấp những khoảng trống của dữ liệu nguồn từ Internet và cải thiện hiệu năng mô hình ở một kích cỡ nhất định
Quảng cáo
Dữ liệu tổng hợp hiện là chủ đề rất được chú ý trong nghiên cứu LLM
- Vẫn chưa rõ có thể đi xa đến đâu với việc huấn luyện LLM bằng chính đầu ra của nó (kiểu như một con rắn mạng nơ-ron khổng lồ tự ăn đuôi mình)
- Nhưng ít nhất, dữ liệu tổng hợp sẽ giúp lấp khoảng trống phát sinh khi LLM hoạt động như một "trình mô phỏng Internet"
  - Ví dụ, khi thiếu ví dụ huấn luyện về cách thể hiện sự bất định, hoặc dữ liệu bị thiên lệch do thiếu tính đại diện, ta có thể tạo ra ví dụ tốt hơn
Tuy nhiên, tạo ra dữ liệu tổng hợp thật sự xuất sắc bằng LLM là một bài toán khó và sẽ có giới hạn
- Vì vậy, nguồn dữ liệu khổng lồ cuối cùng nằm ngoài Internet là "con người" bắt đầu bước vào cuộc chơi

Với 1 tỷ USD mỗi năm ($1B), có thể tạo ra bao nhiêu dữ liệu?

Nếu trả tiền, con người sẵn sàng tạo dữ liệu
- Scale.ai tự gọi mình là "nhà máy sản xuất dữ liệu cho AI" và vận hành dịch vụ để các phòng thí nghiệm trả tiền cho con người tạo dữ liệu
- Các công ty AI được cho là đã trả cho dịch vụ của Scale hơn 1 tỷ USD mỗi năm
- Một phần trong số đó dùng cho việc gắn nhãn và đánh giá dữ liệu lấy từ web hoặc từ LLM, nhưng cũng có cả việc tạo dữ liệu huấn luyện mới từ đầu
- Scale tập trung vào các lao động có chuyên môn rất cao như học giả cấp độ tiến sĩ, luật sư, kế toán, nhà thơ, nhà văn, hay người thành thạo ngôn ngữ cụ thể
- Họ huấn luyện và kiểm thử mô hình cho các công ty như OpenAI, Cohere, Anthropic, Google và nhận mức lương theo giờ cao hơn
Các công ty như OpenAI có thể trả tiền cho chuyên gia để tạo ra dữ liệu mới, chất lượng cao nhằm lấp đầy những khoảng trống của dữ liệu nguồn Internet, rồi dùng dữ liệu đó cho huấn luyện mô hình sau này
- Một bộ dữ liệu kiểu như "50.000 ví dụ về cách thể hiện sự bất định một cách thấu đáo khi một tiến sĩ không biết câu trả lời" có thể đáng giá hơn rất nhiều so với chi phí để sản xuất ra nó
Ban đầu, có thể hiểu rằng LLM được huấn luyện từ Internet và nhiều điểm yếu thời kỳ đầu của chúng bắt nguồn từ mớ nội dung tạp nham được đăng trên web
Nhưng khi quy mô và ảnh hưởng của dữ liệu huấn luyện tùy biến tăng lên, dự kiến LLM sẽ vượt rất xa khỏi vai trò "mô phỏng Internet"
- Đặc biệt, chúng sẽ tiếp tục tiến bộ ở những năng lực không có sẵn trên Internet nhưng có thể được chứng minh bằng hơn 1 tỷ USD chi cho việc tạo dữ liệu tùy biến
Nói cách khác, con tàu này sẽ còn tiếp tục lăn bánh trong một thời gian dài

Ý kiến của GN⁺

Tầm quan trọng của dữ liệu: Để cải thiện hiệu năng của LLM, cần dữ liệu từ nhiều nguồn khác nhau. Chỉ dữ liệu Internet thôi là không đủ.
Bài toán chi phí: Việc tạo dữ liệu tùy biến rất tốn kém. Đây có thể là gánh nặng lớn với các phòng thí nghiệm hoặc doanh nghiệp nhỏ.
Giới hạn của dữ liệu tổng hợp: Dữ liệu tổng hợp hữu ích, nhưng có thể vẫn khác dữ liệu do con người thực sự tạo ra. Vì vậy, tính thực tế của mô hình có thể vẫn bị giới hạn.
Triển vọng tương lai: Sự phát triển của LLM dùng dữ liệu tùy biến và dữ liệu tổng hợp được kỳ vọng sẽ tiếp tục. Điều này có thể mang lại đổi mới trong nhiều lĩnh vực.
Cục diện cạnh tranh: Các công ty lớn như OpenAI, Google, Microsoft đang đầu tư vào việc tạo dữ liệu tùy biến, nên cạnh tranh có thể sẽ ngày càng khốc liệt.

2 bình luận

bytebrawlers 2024-06-04

Cái gọi là data wall rốt cuộc chỉ trở thành vấn đề khi có đủ Compute, và ngược lại, khi nhìn vào vấn đề hiệu suất điện năng và nguồn cung, giới hạn của việc tăng Compute — tức vấn đề về lượng điện tiêu thụ — sẽ trở nên quan trọng hơn.

GN⁺ 2024-06-03

Ý kiến trên Hacker News

Bài viết này nêu ra một số điểm hay, đặc biệt Phi-3 là một công nghệ rất thú vị. Việc không nhắc đến các kiến trúc mới hơn như Anthropic, Mistral, FAIR là điều khá lạ.
Các LLM hiện đại không chỉ được huấn luyện bằng dữ liệu thu thập từ web mà còn bằng các bộ dữ liệu tùy chỉnh do rất nhiều người tạo ra. Điều này cho thấy tiềm năng phát triển, nhưng cũng có nguy cơ bị mở rộng vô hạn theo hướng sai lầm.
Việc con người tạo ra dữ liệu thiên lệch là một vấn đề. Một ví dụ cho thấy LLM không thể tạo ra phản hồi thật sự độc đáo là chúng không thể đưa ra nhiều cách khác nhau để khuyến khích người dùng nhấn nút đăng ký YouTube.
Dữ liệu dùng để huấn luyện LLM được cung cấp bởi các lập trình viên Ấn Độ lương thấp. Hiện nay dữ liệu do các chuyên gia cung cấp, nhưng vẫn có khả năng lại chuyển sang lao động lương thấp.
Lý do các hệ chuyên gia thất bại là vì phải liên tục trả tiền cho các chuyên gia. Sự hợp tác giữa OpenAI và MS đặt mục tiêu đạt được AGI (trí tuệ nhân tạo tổng quát), nhưng có những giới hạn thực tế.
Việc huấn luyện các mô hình đa phương thức vẫn là một thách thức. Không phải thiếu dữ liệu mà những vấn đề khác mới đang tạo ra nút thắt cổ chai.
Một bộ dữ liệu như "50.000 ví dụ về cách thể hiện sự không chắc chắn một cách thận trọng đối với những câu hỏi mà các tiến sĩ không biết" có thể có giá trị lớn hơn cả chi phí tạo ra nó.
Mong rằng nhờ đầu tư công nghệ sẽ xuất hiện một chương trình kiểu WPA để các cây bút lành nghề có thể viết lách. Điều này có thể tạo ra một tập hợp các tác phẩm xuất sắc do con người viết.
Có vẻ như bước tiến lớn tiếp theo của AI sẽ không liên quan đến dữ liệu.
OpenAI và những công ty tương tự sẽ trả những khoản tiền khổng lồ cho các công ty đã hứa giữ dữ liệu ở chế độ riêng tư. Các công ty như Slack, Atlassian, Dropbox thuộc nhóm này.