22 điểm bởi GN⁺ 2025-03-20 | 1 bình luận | Chia sẻ qua WhatsApp
  • Hệ thống gợi ý và tìm kiếm về mặt lịch sử đã phát triển nhờ lấy cảm hứng từ mô hình ngôn ngữ
    • Word2vec → học embedding cho item (tìm kiếm dựa trên embedding)
    • GRU, Transformer, BERT → dự đoán item được gợi ý tiếp theo (xếp hạng)
  • Hiện nay, mô hình phát triển của các mô hình ngôn ngữ lớn (LLM) cũng đang tiến hóa theo cùng hướng đó
  • Các tiến triển chính
    • 1. Kiến trúc mô hình tăng cường bằng LLM/đa phương thức

    • 2. Tạo sinh và phân tích dữ liệu dựa trên LLM

    • 3. Scaling Laws, học chuyển giao, chưng cất tri thức, LoRA

    • 4. Kiến trúc hợp nhất tìm kiếm và gợi ý

Kiến trúc mô hình tăng cường bằng LLM/đa phương thức

  • Các mô hình gợi ý đang đưa mô hình ngôn ngữ (LLM)nội dung đa phương thức vào để vượt qua giới hạn của cách tiếp cận truyền thống dựa trên ID
  • Kết hợp thế mạnh của mô hình hóa hành vi với khả năng hiểu nội dung → giải quyết bài toán cold startlong-tail
  • 1. Semantic IDs (YouTube)

    • Sử dụng Semantic ID được suy ra từ nội dung thay vì ID dạng hash truyền thống
    • Áp dụng khung hai giai đoạn:
      1. Video encoder dựa trên Transformer → tạo embedding nội dung mật độ cao
      2. RQ-VAE(Residual Quantization Variational AutoEncoder) → chuyển embedding thành Semantic ID ở dạng số nguyên
    • Cấu trúc RQ-VAE:
      • Không gian latent 256 chiều, 8 mức lượng tử hóa, mỗi mức có 2048 mục codebook
      • Tạo embedding 2048 chiều từ backbone VideoBERT dựa trên Transformer
    • Kết quả:
      • Embedding mật độ cao trực tiếp cho hiệu năng kém hơn so với ID hash ngẫu nhiên
      • Cách tiếp cận dựa trên N-gram và SPM(SentencePiece Model) cho hiệu năng nổi bật, đặc biệt trong kịch bản cold start
  • 2. M3CSR (Kuaishou)

    • Embedding nội dung đa phương thức (hình ảnh, văn bản, âm thanh) → phân cụm bằng K-means rồi chuyển thành ID có thể học được
    • Kiến trúc hai tháp:
      • Tháp phía người dùng: mô hình hóa hành vi người dùng
      • Tháp phía item: tính trước embedding item và lập chỉ mục
    • Quy trình huấn luyện:
      • Hợp nhất embedding từ ResNet(hình ảnh), Sentence-BERT(văn bản), VGGish(âm thanh) → phân cụm K-means (~1000 cụm)
      • Ánh xạ cluster ID thành embedding có thể học được
    • Kết quả:
      • Trong A/B test, click +3.4%, like +3.0%, follow +3.1%
      • Trong kịch bản cold start, tốc độ +1.2%, độ bao phủ +3.6%
  • 3. FLIP (Huawei)

    • Căn chỉnh giữa mô hình gợi ý dựa trên IDLLM
    • Học đồng thời từ văn bản bị mask và dữ liệu bảng → thực hiện căn chỉnh đa phương thức
    • Các bước huấn luyện:
      • 1. Chuyển đổi modality: chuyển dữ liệu bảng thành văn bản
      • 2. Tiền huấn luyện căn chỉnh modality: tái tạo văn bản bị mask và ID
      • 3. Fine-tuning thích ứng: tối ưu trọng số của cả hai mô hình cho dự đoán click
    • Kết quả:
      • Hiệu năng vượt các mô hình dựa trên ID, dựa trên LLM, và mô hình ID + LLM
      • Mức độ masking và căn chỉnh đa phương thức đóng vai trò quan trọng trong cải thiện hiệu năng
  • 4. beeFormer

    • Huấn luyện mô hình Transformer dựa trên thông tin văn bảndữ liệu tương tác người dùng-item
    • Sử dụng decoder dựa trên ELSA(Scalable Linear Shallow Autoencoder) → tăng cường học mẫu tương tác
    • Quy trình huấn luyện:
      • Tạo embedding bằng Transformer → học mẫu hành vi người dùng thông qua ELSA
      • Dùng gradient checkpointing, mở rộng batch size, negative sampling để tối ưu huấn luyện trên catalog lớn
    • Kết quả:
      • Cho hiệu năng tốt hơn các mô hình hiện có như mpnet-base-v2, bge-m3
      • Ghi nhận cải thiện hiệu năng trong học chuyển giao liên miền
  • 5. CALRec (Google)

    • Mô hình hóa tương tác người dùng-item bằng prompt dựa trên văn bản
    • Fine-tuning hai giai đoạn cho mô hình dựa trên PaLM-2 XXS
    • Các giai đoạn huấn luyện:
      • 1. Học đa danh mục: học các mẫu gợi ý tổng quát
      • 2. Học theo danh mục cụ thể: học các mẫu chuyên biệt theo danh mục item
    • Kết quả:
      • Trên Amazon Review Dataset, hiệu năng tốt hơn các mô hình dựa trên ID và văn bản
      • Học đa danh mục và học tương phản góp phần cải thiện hiệu năng
  • 6. EmbSum (Meta)

    • Tạo tóm tắt sở thích người dùngtóm tắt item ứng viên
    • Sử dụng các mô hình T5-small và Mixtral-8x22B-Instruct
    • Thành phần:
      • User Poly-Embeddings (UPE) → embedding sở thích người dùng
      • Content Poly-Embeddings (CPE) → embedding item
      • Tạo tóm tắt → đưa vào encoder → sinh gợi ý cuối cùng
    • Kết quả:
      • Hiệu năng tốt hơn mô hình gợi ý dựa trên nội dung
      • Gom nhóm theo session và loss cho tóm tắt đóng vai trò quan trọng với hiệu năng

Tạo sinh và phân tích dữ liệu dựa trên LLM

  • LLM được dùng để giải quyết bài toán thiếu dữ liệunâng cao chất lượng dữ liệu trong hệ thống gợi ý và tìm kiếm
  • Các trường hợp áp dụng chính:
    • Bing → tạo metadata cho trang web và tăng hiệu năng dự đoán click
    • Indeed → lọc các kết quả ghép việc làm chất lượng thấp
    • Yelp → cải thiện hiểu truy vấn tìm kiếm và phần highlight của review
    • Spotify → tạo truy vấn tìm kiếm khám phá
    • Amazon → tăng cường metadata cho playlist và cải thiện hiệu năng tìm kiếm
  • 1. Recommendation Quality Improvement (Bing)

    • Dùng GPT-4 để tạo tiêu đề và tóm tắt chất lượng cao từ trang web
    • Fine-tuning mô hình Mistral-7B bằng metadata được tạo ra từ khoảng 2 triệu trang web
    • Huấn luyện cross-encoder dựa trên MiniLM để kết hợp dự đoán click và điểm chất lượng
    • Kết quả:
      • Nội dung clickbait giảm 31%, nội dung trùng lặp giảm 76%
      • Nội dung có thẩm quyền tăng 18%, gợi ý đa phương tiện tăng 48%
  • 2. Expected Bad Match (Indeed)

    • Fine-tuning GPT-3.5 bằng dữ liệu review của con người để xây dựng mô hình lọc ghép việc làm chất lượng thấp (eBadMatch)
    • Cải thiện chi phí và tốc độ trong khi vẫn giữ được hiệu năng ở mức GPT-4
    • Mô hình lọc cuối cùng giảm 17.68% số email mời ghép việc, giảm 4.97% tỷ lệ hủy đăng ký, tăng 4.13% tỷ lệ ứng tuyển
    • Kết quả:
      • Hiệu năng AUC-ROC của mô hình lọc: 0.86
  • 3. Query Understanding (Yelp)

    • Dùng LLM để cải thiện phân tách truy vấn tìm kiếmhighlight review
    • Phân tách truy vấn:
      • Phân biệt chủ đề, tên gọi, thời gian, địa điểm... rồi thêm thẻ ngữ nghĩa
      • Áp dụng kỹ thuật RAG(Retrieval-Augmented Generation) để tăng cường hiểu truy vấn theo ngữ cảnh
    • Highlight review:
      • Dùng LLM để tạo highlight → mở rộng quy mô lớn bằng batch call của OpenAI
    • Kết quả:
      • Cải thiện session tìm kiếm và CTR
      • Hiệu năng cũng được cải thiện với các truy vấn long-tail
  • 4. Query Recommendations (Spotify)

    • Tại Spotify, ngoài kết quả tìm kiếm trực tiếp còn đưa vào gợi ý truy vấn tìm kiếm mang tính khám phá
    • Cách tạo truy vấn:
      • Trích xuất từ tiêu đề trong catalog, playlist và podcast
      • Phản ánh các tìm kiếm gần đây của người dùng từ search log
      • Áp dụng kỹ thuật sinh câu bằng LLM (Doc2query, InPars...)
    • Xếp hạng gợi ý truy vấn bằng vector embedding được cá nhân hóa
    • Kết quả:
      • Tỷ lệ truy vấn khám phá tăng +9%
      • Độ dài truy vấn tối đa tăng +30%, độ dài truy vấn trung bình tăng +10%
  • 5. Playlist Search (Amazon)

    • Dùng LLM để tạo và tăng cường metadata cho playlist cộng đồng
    • Fine-tuning mô hình Flan-T5-XL để nâng cao hiệu quả tạo dữ liệu
    • Huấn luyện mô hình bi-encoder bằng dữ liệu khớp giữa truy vấn do LLM sinh ra và playlist
    • Kết quả:
      • Cải thiện recall của kết quả tìm kiếm ở mức hai chữ số
      • Cải thiện hiệu năng SEO và paraphrasing

Scaling Laws, học chuyển giao, chưng cất tri thức, LoRA

  • Scaling Laws

    • Nghiên cứu phân tích tác động của kích thước mô hìnhlượng dữ liệu tới hiệu năng
    • Sử dụng kiến trúc Decoder-only Transformer (trong khoảng 98.3K ~ 0.8B tham số)
    • Đánh giá trên các bộ dữ liệu MovieLens-20M và Amazon-2018
    • Dùng chuỗi cố định gồm 50 item để dự đoán item tiếp theo
    • Kỹ thuật chính:
      • Dropout thích ứng theo tầng → tầng thấp dùng dropout cao, tầng cao dùng dropout thấp
      • Chuyển từ Adam sang SGD → giai đoạn đầu học bằng Adam, sau đó chuyển sang SGD để cải thiện tốc độ hội tụ
    • Kết quả:
      • Kích thước mô hình càng lớn thì cross-entropy loss càng giảm
      • Mô hình nhỏ cần nhiều dữ liệu hơn, trong khi mô hình lớn vẫn đạt hiệu năng tốt với ít dữ liệu hơn
      • Các mô hình 75.5M và 98.3K cho thấy cải thiện hiệu năng trong 2~5 epoch
  • PrepRec

    • Áp dụng tiền huấn luyện trong hệ thống gợi ý → cho phép học chuyển giao liên miền
    • Có thể học chỉ từ biến động động của độ phổ biến item mà không cần metadata của item
    • Sử dụng khoảng cách thời gian tương đối giữa các tương tác người dùng và positional encoding
    • Kết quả:
      • Trong gợi ý zero-shot, recall@10 giảm 2~6% nhưng sau huấn luyện hiệu năng tương đương
      • Sau huấn luyện trên miền đích, đạt mức tương đương các mô hình SasREC và BERT4Rec
  • E-CDCTR (Meituan)

    • Áp dụng học chuyển giao cho mô hình dự đoán click quảng cáo
    • Dùng cấu trúc học 3 giai đoạn TPM → CPM → A-CTR
      • TPM → học embedding người dùng và item
      • CPM → tiền huấn luyện bằng dữ liệu organic mới nhất
      • A-CTR → tinh chỉnh chi tiết bằng dữ liệu quảng cáo
    • Kết quả:
      • CPM có ảnh hưởng lớn nhất đến hiệu năng → có thể học tín hiệu collaborative filtering dài hạn
      • Cải thiện hiệu năng bằng cách dùng embedding của 3 tháng trước đó
  • Bridging the Gap (YouTube)

    • Gợi ý video cá nhân hóa quy mô lớn thông qua chưng cất tri thức
    • Dùng cấu trúc teacher-student (mô hình teacher lớn gấp 2~4 lần mô hình student)
    • Dùng chiến lược auxiliary distillation thay vì dự đoán trực tiếp → giải quyết vấn đề dịch chuyển phân phối
    • Kết quả:
      • Khi áp dụng auxiliary distillation, hiệu năng cải thiện 0.4%
      • Khi mô hình teacher lớn gấp 2 lần đạt +0.42%, gấp 4 lần đạt +0.43%
  • Self-Auxiliary Distillation (Google)

    • Cải thiện hiệu quả mẫu cho mô hình gợi ý quy mô lớn
    • Cấu trúc nhánh hai chiều → học kết hợp teacher label và label gốc
    • Xử lý nhãn âm không phải là 0 mà là giá trị CTR ước lượng
    • Kết quả:
      • Hiệu năng được cải thiện nhất quán trên nhiều miền
      • Tăng độ ổn định huấn luyện và độ chính xác đầu ra của mô hình
  • DLLM2Rec

    • Chưng cất tri thức gợi ý từ mô hình ngôn ngữ lớn sang mô hình nhẹ
    • Sử dụng ranking distillation dựa trên độ quan trọngcollaborative embedding distillation
      • Ranking distillation dựa trên độ quan trọng → gán trọng số cho thứ hạng item và tính nhất quán
      • Collaborative embedding distillation → hiệu chỉnh khác biệt embedding giữa teacher và student
    • Kết quả:
      • Hiệu năng trung bình tăng 47.97% trên các mô hình GRU4Rec, SASRec, DROS
      • Thời gian suy luận giảm từ 3~6 giờ → 1.6~1.8 giây so với mô hình teacher
  • MLoRA (Alibaba)

    • Áp dụng LoRA theo miền (Low-Rank Adaptation) trong dự đoán CTR
    • Tiền huấn luyện một backbone chung rồi fine-tuning bằng LoRA theo từng miền
    • Thiết lập hạng LoRA động theo từng layer
    • Kết quả:
      • Hiệu năng AUC tăng +0.5%
      • CTR tăng +1.49%, tỷ lệ chuyển đổi tăng +3.37%, người mua trả phí tăng +2.71%
  • Taming One-Epoch (Pinterest)

    • Giải quyết vấn đề overfitting xảy ra chỉ trong một epoch
    • Tách các giai đoạn huấn luyện bằng học tương phản
      • Giai đoạn thứ nhất → học embedding
      • Giai đoạn thứ hai → tinh chỉnh chi tiết
    • Kết quả:
      • Hiệu năng tốt hơn loss BCE truyền thống
      • Homefeed +1.32%, related pin +2.18%
  • Sliding Window Training (Netflix)

    • Đưa vào huấn luyện cửa sổ trượt để học lịch sử người dùng dài mà không gây gánh nặng bộ nhớ
    • Ở mỗi epoch huấn luyện, chọn các đoạn lịch sử người dùng khác nhau để học
    • Giữ cân bằng giữa 100 tương tác gần nhất và tương tác dài hạn
    • Kết quả:
      • Cải thiện hiệu năng ổn định hơn so với mô hình chỉ dùng tương tác gần đây
      • Mean Average Precision(MAP) +1.5%, recall +7.01%

Kiến trúc hợp nhất tìm kiếm và gợi ý

  • Bridging Search & Recommendations (Spotify)

    • Học hợp nhất dữ liệu tìm kiếm và gợi ý trong một mô hình sinh duy nhất
    • Dựa trên Flan-T5-base và chuyển item ID thành token để huấn luyện
    • Mô hình gợi ý sinh: dự đoán item tiếp theo dựa trên tương tác người dùng
    • Mô hình tìm kiếm sinh: dự đoán item ID từ truy vấn văn bản
    • Kết quả:
      • Hiệu năng trung bình tốt hơn 16% so với mô hình đơn nhiệm vụ (theo recall@30)
      • Trên bộ dữ liệu podcast, hiệu năng tìm kiếm tăng +855%, hiệu năng gợi ý tăng +262%
      • Vẫn chưa đạt tới hiệu năng của các mô hình gợi ý và tìm kiếm hiện có như BM25, SASRec...
  • 360Brew (LinkedIn)

    • Một mô hình duy nhất quy mô 150B tham số xử lý hơn 30 tác vụ xếp hạng
    • Dựa trên Mixtral-8x22B → thực hiện continuous pre-training (CPT)instruction fine-tuning (IFT)supervised fine-tuning (SFT)
    • Đưa vào giao diện ngôn ngữ tự nhiên → dùng prompt engineering thay cho feature engineering
    • Kết quả:
      • Đạt hiệu năng tương đương hoặc tốt hơn các mô hình chuyên biệt trước đây
      • Hiệu năng cải thiện trên tập dữ liệu quy mô lớn (tăng gấp 3)
      • Cải thiện hiệu năng với người dùng cold start → tốt hơn mô hình hiện có
  • UniCoRn (Netflix)

    • Xử lý tác vụ tìm kiếm và gợi ý trong cùng một mô hình
    • Sử dụng thông tin ngữ cảnh như user ID, truy vấn tìm kiếm, quốc gia, source entity...
    • Tận dụng chức năng context-targetfeature crossing
    • Kết quả:
      • Hiệu năng gợi ý +10%, hiệu năng tìm kiếm +7%
      • Hiệu năng được cải thiện nhờ tăng cường cá nhân hóa
      • Xác nhận tầm quan trọng của loại tác vụ và xử lý giá trị thiếu
  • Unified Embeddings (Etsy)

    • Hợp nhất embedding dựa trên Transformer, văn bản và đồ thị
    • Fine-tuning mô hình T5 để tăng cường matching giữa truy vấn và sản phẩm
    • Áp dụng hard negative samplingtìm kiếm gần đúng (ANN)
    • Kết quả:
      • Tỷ lệ chuyển đổi +2.63%, tỷ lệ mua từ tìm kiếm organic +5.58%
      • Graph embedding đóng góp lớn nhất vào hiệu năng (+15%)
  • Embedding Long Tail (Best Buy)

    • Giải quyết bài toán truy vấn long-tail
    • Dùng mô hình BERT nội bộ dựa trên hành vi người dùng → mã hóa tìm kiếm và sản phẩm
    • Tăng cường dữ liệu bằng truy vấn tổng hợp do Llama-13B sinh ra
    • Kết quả:
      • Tỷ lệ chuyển đổi +3%
      • Hiệu năng matching truy vấn-sản phẩm được cải thiện (+4.67%)
  • User Behavioral Service (YouTube)

    • Tách riêng mô hình tạo embedding người dùng và mô hình gợi ý
    • Tạo embedding người dùng bất đồng bộ → dùng cache tốc độ cao
    • Khi request không có embedding thì trả về giá trị rỗng rồi cập nhật bất đồng bộ
    • Kết quả:
      • Mở rộng kích thước mô hình chuỗi người dùng → kìm hãm mức tăng chi phí (28.7% → 2.8%)
      • Cải thiện tổng thể hiệu năng gợi ý (0.01% ~ 0.40%)
  • Modern Ranking Platform (Zalando)

    • Xây dựng hệ thống hợp nhất tìm kiếm và duyệt
    • Sử dụng cấu trúc tạo ứng viên → xếp hạng → lớp policy
    • Áp dụng embedding khách hàng dựa trên Transformer + cơ sở dữ liệu vector
    • Kết quả:
      • Mức độ tương tác tổng thể +15%, doanh thu +2.2%
      • Sau khi đưa embedding có thể huấn luyện vào, hiệu năng tiếp tục được cải thiện

Kết luận

  • Nghiên cứu giai đoạn đầu năm 2023 (áp dụng LLM vào gợi ý và tìm kiếm) còn thiếu hụt, nhưng các nỗ lực gần đây cho thấy nhiều triển vọng hơn, đặc biệt được hậu thuẫn bởi kết quả trong ngành
  • Điều này cho thấy việc khám phá cách dùng LLM để tăng cường hệ thống gợi ý và hệ thống tìm kiếm mang lại lợi ích thực tế, đồng thời có thể giảm chi phí và công sức trong khi tăng kết quả đầu ra

1 bình luận

 
GN⁺ 2025-03-24

Ý kiến trên Hacker News

  • Có phân tích cho rằng bản cập nhật liên quan đến truy vấn tìm kiếm của Spotify đã giúp người dùng diễn đạt những ý định phức tạp hơn

    • Tuy nhiên, khó có thể xem đây là một cải thiện khi người dùng phải tìm kiếm nhiều hơn và nhập các truy vấn dài hơn để có được thông tin họ muốn
  • Có nhiều đội ngũ đang tận dụng LLM để tăng cường truy vấn tìm kiếm và chỉ mục

    • Ngay cả với mô hình nhỏ và prompt đơn giản, vẫn có thể chuyển chuỗi tìm kiếm thành truy vấn có cấu trúc
    • Cũng có thể phân loại tài liệu hoặc tận dụng bộ nhớ đệm
    • Không làm những việc này có thể là một sai lầm
  • Thật thú vị khi Eugene công bố công việc ngay sau hội nghị

    • Theo truyền thống, đây có lẽ sẽ là một bài báo mà nghiên cứu sinh tiến sĩ mất khoảng 12 tháng để công bố
    • Tò mò không biết đây là nhờ năng lực của Eugene hay là một xu hướng mới
  • Giải thích lý do trải nghiệm Spotify trở nên tệ hơn theo thời gian

  • Ngay khi thức dậy vào buổi sáng, đã bắt đầu nghe bài viết này bằng mô hình chuyển văn bản thành giọng nói

    • Có quá nhiều thuật ngữ chuyên môn nên tác giả trông rất uyên bác, nhưng lại không truyền đạt thông tin hiệu quả
    • Đây là hiện tượng thường thấy trong các bài báo học thuật, và bài nghiên cứu của chính người viết cũng không ngoại lệ
    • Vì không phải chuyên gia trong lĩnh vực ML nên có thể không phải độc giả mục tiêu
    • Tò mò không biết người khác có cảm thấy như vậy không
    • Mong rằng ý kiến này không quá tiêu cực
  • Các biến thể của SASRec và Bert4Rec được huấn luyện bằng token ID và cho thấy các quy luật mở rộng tương tự LLM

    • Cách tiếp cận của Meta được đưa ra làm ví dụ
  • Cho rằng việc kết hợp hệ thống gợi ý với diễn đàn đã trở thành một thảm họa lớn đối với xã hội

  • Thắc mắc vì sao không có công cụ tìm kiếm dựa trên LLM trên PC và điện thoại thông minh

    • Đặc biệt, vì dữ liệu trên điện thoại thông minh được lưu trên đám mây, nên thay vì bị cào dữ liệu phục vụ quảng cáo hay FBI, nó có thể cung cấp các tính năng hữu ích cho người dùng
  • Có vẻ đây là một bản tổng quan rất hay về hệ thống gợi ý

    • Điểm chính là độ trễ mới là vấn đề chủ yếu
    • Fine-tuning có thể mang lại cải thiện lớn và giảm độ trễ
    • Có những ngưỡng hoặc bài toán quyết định khi nào nên dùng prompt hay fine-tuning
  • Thật thú vị khi những bài báo như thế này không xuất phát từ các phòng thí nghiệm học thuật