Mô hình ngôn ngữ chứa hàng tỷ khái niệm trong 12.000 chiều như thế nào

(nickyoder.com)

1 điểm bởi GN⁺ 2025-09-16 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Trong không gian embedding nhiều chiều, có thể biểu diễn vô số khái niệm bằng cách tận dụng tính gần trực giao (quasi-orthogonality) thay vì yêu cầu trực giao hoàn toàn
Bổ đề Johnson-Lindenstrauss đảm bảo rằng dữ liệu nhiều chiều bất kỳ có thể được chiếu xuống số chiều thấp hơn mà gần như không mất thông tin
Trong quá trình tối ưu hóa, thiết kế của hàm mất mát là yếu tố quan trọng, vì hàm mất mát cơ bản có thể tạo ra cách sắp xếp vector kém hiệu quả hoặc bị lệch
Kết quả thực nghiệm cho thấy dung lượng thực tế của không gian embedding lớn hơn rất nhiều so với suy đoán lý thuyết ban đầu, cho phép hàng triệu đến hàng tỷ khái niệm cùng tồn tại một cách tự nhiên
Phát hiện này có ý nghĩa thực tiễn lớn đối với thực hành machine learning như biểu diễn dữ liệu và giảm chiều trong xử lý ngôn ngữ tự nhiên, thiết kế embedding

Giới thiệu: Câu hỏi về dung lượng của không gian embedding trong mô hình ngôn ngữ

Trong loạt video gần đây của 3Blue1Brown về mô hình transformer, Grant Sanderson đã đặt ra một câu hỏi thú vị: làm sao không gian embedding 12.288 chiều của GPT-3 có thể chứa hàng triệu khái niệm của thế giới thực
Câu hỏi này gắn với hình học nhiều chiều và một kết quả toán học là bổ đề Johnson-Lindenstrauss (JL)
Quá trình khám phá vấn đề này đã dẫn đến những hiểu biết mới về các tính chất nền tảng của không gian vector và tối ưu hóa, thậm chí còn dẫn tới sự hợp tác với Grant

Tính gần trực giao của vector và dung lượng của không gian embedding

Trong không gian N chiều chỉ tồn tại N vector trực giao hoàn toàn
Nhưng nếu cho phép quan hệ gần trực giao (quasi-orthogonal), tức góc lệch nhẹ khỏi 90 độ (ví dụ 85~95 độ), thì số vector có thể biểu diễn trong cùng không gian tăng theo cấp số nhân
Trong video của Grant, có một hình minh họa cho thấy 10.000 vector đơn vị được sắp xếp gần như trực giao trong không gian 100 chiều
Tuy nhiên, trong quá trình tái hiện lại thí nghiệm này, người ta phát hiện ra một cạm bẫy tinh vi trong thiết kế hàm mất mát tối ưu hóa

Vấn đề và các mẫu hình của hàm mất mát

Hàm mất mát cơ bản:
loss = (dot_products.abs()).relu().sum()
Trên thực tế, với mặt cầu đơn vị, hàm mất mát này gây ra hai vấn đề
1. Gradient Trap: khi góc giữa các vector tiến gần 90 độ thì gradient hoạt động mạnh, nhưng gần 0 độ hoặc 180 độ thì gradient gần như bằng 0, khiến việc cải thiện bị chặn lại
2. Lời giải 99%: kỹ thuật tối ưu hóa sẽ tối thiểu hóa tổng mất mát bằng cách tạo ra một cấu hình trong đó mỗi vector trực giao đúng cách với 9.900 vector, nhưng lại gần như song song với 99 vector còn lại (tức là các bản sao của vector chuẩn) trong tập 10.000 vector
Nếu nhìn tổng thể, lời giải này khác về bản chất so với điều mong đợi, nên cần một hàm mất mát tinh vi hơn
Vì vậy, hàm mất mát được đổi sang dạng áp dụng penalty theo hàm mũ: loss = exp(20*dot_products.abs()**2).sum()
Cách này tạo ra kết quả gần hơn với phân bố mong muốn (góc cặp lớn nhất khoảng 76,5 độ)

Bổ đề Johnson-Lindenstrauss (JL): Bảo đảm hình học

Bổ đề JL đảm bảo rằng ngay cả khi chiếu ngẫu nhiên một tập điểm dữ liệu nhiều chiều bất kỳ xuống không gian có số chiều thấp hơn, khoảng cách Euclid vẫn được bảo toàn gần như nguyên vẹn
Với từ 1 đến N điểm, hệ số sai số ε và số chiều chiếu k:
(1-ε)||u-v||² ≤ ||f(u)-f(v)||² ≤ (1+ε)||u-v||²
Số chiều tối thiểu cần thiết là: k ≥ (C/ε²) * log(N)
trong đó C là hằng số điều chỉnh xác suất thành công
Thông thường, người ta lấy C khá bảo thủ trong khoảng 4~8, nhưng với những cách chiếu đặc biệt (ví dụ Hadamard matrix, phương pháp tối ưu hóa), có thể đạt C nhỏ hơn

Các lĩnh vực ứng dụng thực tiễn

Giảm chiều:
- Ví dụ: chuyển đổi hiệu quả sở thích khách hàng trong thương mại điện tử từ không gian có số chiều bằng hàng chục nghìn sản phẩm xuống vài nghìn chiều
- Có thể áp dụng cho phân tích thời gian thực và hệ gợi ý trên dữ liệu nhiều chiều
Phân tích giới hạn dung lượng của không gian embedding:
- Thay vì trực giao hoàn toàn, không gian có thể biểu diễn tự nhiên phổ tương đồng/khác biệt giữa các khái niệm
- Ví dụ từ thực tế như "archery", "fire", "gelatinous", "green" cho thấy các nghĩa vật lý và trừu tượng được chồng lấp trong không gian nhiều chiều

Phân tích thực nghiệm về dung lượng embedding

Khi tối ưu bằng các phép biến đổi như Hadamard matrix, giá trị C đạt khoảng 2,5~4; còn với tối ưu hóa dựa trên GPU thì có thể thấp hơn nhiều
Phương pháp thí nghiệm: lần lượt chiếu N vector basis chuẩn vào không gian k chiều, rồi lặp tối ưu hóa 50.000 lần
Kết quả quan sát:
1. Giá trị C tăng đến mức cực đại (~0,9) khi N tăng, rồi dần giảm xuống
2. Khi tỷ lệ N/k càng cao, C giảm xuống dưới 0,2
Điều này xuất phát từ hiệu quả sphere packing trong không gian nhiều chiều
Nó cho thấy trên thực tế có thể biểu diễn nhiều khái niệm hơn giới hạn trên theo lý thuyết

Ý nghĩa thực tế của embedding trong mô hình ngôn ngữ

Tùy theo số chiều embedding k, góc gần trực giao F(90°-góc thực tế), và giá trị C, số khái niệm có thể chứa là Vectors ≈ 10^(k * F² / 1500)
- k=12,288, F=1(89°) → 10^8
- F=2(88°) → 10^32
- F=3(87°) → 10^73
- F=5(85°) → có thể lưu trữ hơn 10^200 vector
Chỉ với 86° cũng đã nhiều hơn số nguyên tử trong vũ trụ quan sát được (10^80)
Nói cách khác, mô hình ngôn ngữ thực tế có thể bảo toàn phong phú hàng triệu ý nghĩa ngay cả trong số chiều tương đối nhỏ

Ứng dụng thực tiễn và hướng đi tương lai

Giảm chiều hiệu quả:
- Thông qua các phương pháp chiếu ngẫu nhiên kết hợp biến đổi Hadamard, mã hóa BCH, v.v., có thể giảm chiều dữ liệu quy mô lớn và tính toán nhanh mà không cần tối ưu hóa phức tạp
Thiết kế không gian embedding:
- Những hiểu biết về dung lượng không gian giúp giải thích vì sao các mô hình ngôn ngữ lớn như transformer có thể đồng thời bảo toàn quan hệ ngữ nghĩa, kể cả với những khái niệm tinh tế như "Canadian", "Muppet-like"

Kết luận lại, các chuẩn embedding hiện nay (1.000~20.000 chiều) là đủ để biểu diễn tri thức của con người; điều quan trọng là học được cách sắp xếp lý tưởng trong không gian đó

Kết luận

Bắt đầu từ việc khám phá những vấn đề tối ưu hóa tinh vi trong hàm mất mát, câu chuyện này dẫn tới những hiểu biết sâu sắc về hình học nhiều chiều và cấu trúc nền tảng của machine learning
Bổ đề JL được công bố năm 1984 hiện vẫn cung cấp nền tảng cốt lõi cho embedding, biểu diễn thông tin và nguyên lý giảm chiều trong machine learning ngày nay
Bài viết cũng bày tỏ lời cảm ơn tới Grant Sanderson, kênh 3Blue1Brown và Suman Dev vì sự hợp tác, đồng thời chia sẻ niềm vui trong quá trình nghiên cứu và biên soạn này

Đọc thêm

Sphere Packings, Lattices and Groups – Conway & Sloane
Database-friendly random projections: Johnson-Lindenstrauss with binary coins – Achlioptas
Hadamard Matrices, Sequences, and Block Designs – Seberry & Yamada