8 điểm bởi GN⁺ 2025-10-12 | 1 bình luận | Chia sẻ qua WhatsApp
  • REFRAG, kết quả nghiên cứu đầu tiên của Meta Superintelligence(MSI), là một cách tiếp cận mới giúp cải thiện mạnh kiến trúc RAG (Retrieval-Augmented Generation) hiện có và đạt được tốc độ phản hồi nhanh hơn 30 lần
  • Điểm cốt lõi là chuyển các mảnh tài liệu từ dạng token sang 'Chunk Embedding' mà LLM có thể hiểu trực tiếp, đồng thời đưa vào mạng chính sách có khả năng chỉ khôi phục một phần khi cần
  • Nhờ đó, hệ thống cắt giảm đáng kể KV cache và chi phí attention, giảm độ trễ phản hồi token đầu tiên (TTFT) để cải thiện UX, đồng thời giúp giảm chi phí vận hành
  • Bài báo tập trung vào hiệu quả ở tầng hệ thống và ứng dụng thay vì đổi mới cấu trúc mô hình, qua đó đề xuất một hướng công nghệ có thể hiện thực hóa ROI ngay lập tức
  • Cách làm này né được giới hạn hiệu năng và bài toán chi phí của các mô hình lớn, đồng thời cho thấy tiềm năng tái định nghĩa tính kinh tế của các sản phẩm AI trong tương lai

Bối cảnh công bố bài báo đầu tiên của MSI

  • Phòng nghiên cứu Meta Superintelligence(MSI) đã thu hút nhiều chú ý nhờ quy tụ nhân tài hàng đầu ngành và mức lương đột phá
  • Việc MSI chọn chủ đề RAG (retrieval-augmented generation) mang tính thực dụng cho bài báo đầu tiên là điều rất khác thường
  • Giới trong ngành từng kỳ vọng MSI sẽ tập trung vào cải thiện hiệu năng mô hình nền hoặc phát triển kiến trúc mới, nên việc họ chọn một chủ đề thực dụng với hiệu quả kinh tế tức thì là điều bất ngờ
  • RAG là thành phần cốt lõi của các dịch vụ thương mại như AI agent, tìm kiếm, hỗ trợ khách hàng và tóm tắt; vì vậy độ trễ phản hồi và chi phí ảnh hưởng trực tiếp đến mô hình kinh doanh
  • Bài báo này đưa ra cách giảm mạnh chi phí và độ trễ của các sản phẩm AI dựa trên RAG, từ đó tạo ra ROI (lợi nhuận trên đầu tư) ngay lập tức

Cấu trúc kỹ thuật của REFRAG

  • 1. Cách làm RAG truyền thống là truy xuất các tài liệu liên quan (chunk) từ vector DB, rồi để LLM xử lý toàn bộ các chunk đó dưới dạng token đầy đủ
  • 2. Trong REFRAG, tài liệu được chia thành chunk (khoảng 128 token), sau đó mỗi chunk được encoder nhẹ chuyển thành một vector embedding duy nhất và chiếu vào không gian embedding của LLM
    • Embedding này có thể được tính trước và lưu cache
  • 3. Khi người dùng gửi truy vấn, hệ thống truy xuất các chunk liên quan
      - phần lớn chunk được chuyển cho LLM dưới dạng embedding, và
      - chỉ một số rất ít chunk do mạng chính sách (policy) dựa trên RL chọn mới được mở rộng thành chuỗi token đầy đủ để gửi đi
  • 4. Mạng chính sách này được tối ưu bằng mục tiêu RL (học tăng cường), chọn các chunk cần mở rộng trong một ngân sách giới hạn
    • Nó được huấn luyện bằng hàm thưởng giúp giảm perplexity trong khi vẫn giữ chất lượng sinh
  • 5. LLM thực hiện sinh văn bản bằng cách kết hợp chuỗi token đầu vào (truy vấn + chunk đã mở rộng) với nhiều placeholder vector đơn lẻ (chunk đã nén)
  • Kết quả là LLM có thể nhận đầu vào gồm “truy vấn + một phần token đã khôi phục + nhiều vector embedding” để tạo ra cùng đầu ra với đầu vào ngắn hơn
  • Cấu trúc này giúp giảm mạnh dung lượng cache, khối lượng tính toán attention và thời gian phản hồi ban đầu

Ý nghĩa kỹ thuật và các trực giác cốt lõi

  • Điểm cốt lõi trong bài báo là mạng chính sách có thể nén hiệu quả các chunk ít quan trọng trong quy trình RAG và áp dụng chính sách chỉ bung ra những phần quan trọng
  • Một insight ẩn quan trọng hơn là: “nếu embedding vốn đã được tạo ra trong các tầng bên trong LLM, thì không cần diễn giải lại thành ngôn ngữ tự nhiên mà có thể truyền embedding trực tiếp
  • Nói cách khác, bằng cách xử lý dữ liệu trực tiếp trong không gian biểu diễn mà LLM đã hiểu, hệ thống loại bỏ bước nén lặp dư thừa và tăng tốc độ mạnh mẽ mà không làm mất độ chính xác
  • Điều này có thể được tóm lại bằng góc nhìn: thay vì tối ưu token, hãy thay đổi chính khái niệm token

Ý nghĩa trong chuỗi giá trị AI hiện tại

  • So sánh hai vector đổi mới trong lĩnh vực LLM
    • Đổi mới ở cấp mô hình: kiến trúc mới, mô hình lớn hơn, tiền huấn luyện mới
      • rủi ro cao, lợi nhuận cao, timeline dài, cần vốn lớn
    • Hiệu quả ở cấp ứng dụng/hệ thống: tối ưu suy luận, kỹ thuật truy xuất, orchestration
      • rủi ro thấp, ROI tức thì, có thể kiếm tiền trực tiếp
  • REFRAG đi theo hướng thứ hai và mang lại ROI rõ ràng qua tăng throughput trên mỗi GPU, giảm chi phí vận hành và cải thiện UX
  • Các doanh nghiệp và đội ngũ sản phẩm có thể kiểm thử ngay hiệu quả tăng throughput trên mỗi GPU, giảm chi phí hạ tầng và tăng cường UX thông qua việc triển khai thực tế cách làm của REFRAG
  • Cách tiếp cận này có thể kết hợp độc lập với retriever và reranker, nên có thể áp dụng linh hoạt vào các pipeline RAG hiện có
  • Đặc biệt, trong bối cảnh cạnh tranh ngày càng gay gắt trên thị trường vectorDB, cùng với các biến động công nghiệp như tin đồn Pinecone bị bán, thì cải thiện hiệu quả RAG là một chủ đề nghiên cứu rất đúng thời điểm

Những hạn chế dự kiến

  • Độ phức tạp trong huấn luyện và kỹ thuật
    • Cần thêm encoder + projection và huấn luyện để LLM hiểu embedding (tiền huấn luyện tái cấu trúc + SFT)
    • Chính sách chọn lọc là một bài toán RL tuy ổn định nhưng làm tăng độ phức tạp phát triển
  • Giới hạn nén
    • Nén quá mạnh cuối cùng sẽ làm giảm chất lượng downstream
    • Tồn tại trade-off giữa kích thước embedding và tần suất mở rộng
  • Vấn đề độ mới của dữ liệu
    • Chunk embedding tính trước phù hợp với corpus tĩnh
    • Với dữ liệu thay đổi thường xuyên, cần pipeline tính lại embedding hoặc phụ thuộc vào chiến lược hybrid
  • Các điểm cần cân nhắc theo từng use case
    • Phần tóm tắt chỉ mang tính khái quát; với các tác vụ đòi hỏi độ chính xác cao ở chi tiết cụ thể như suy luận pháp lý, trích dẫn chính xác hoặc dữ kiện y khoa nhạy cảm, cần đánh giá cẩn trọng
    • Trong các trường hợp đó có thể cần ngân sách nén thấp hơn

Kết luận và hàm ý

  • Câu hỏi cốt lõi của bài báo: "Đừng cố tối ưu chi phí token nữa, mà hãy thử dùng một loại token hoàn toàn khác thì sao?"
  • REFRAG, bằng cách “tái định nghĩa khái niệm token mà LLM đọc”, đã làm dịu các giới hạn cấu trúc của RAG và đề xuất một đổi mới thực dụng có thể thay đổi cấu trúc đơn giá của sản phẩm AI
  • Khả năng mở rộng trong tương lai
    • Nếu LLM có thể trở nên embedding-native ở phía READ, liệu ở phía WRITE nó cũng có thể embedding-native để tăng tốc toàn bộ agent lên 30 lần không?
    • Chi phí trên mỗi token của mô hình embedding gần như bằng 0 — đây có phải là việc chuyển sang một kiến trúc khác để giảm mạnh giá token không? Nhược điểm là gì?
  • REFRAG nhắc lại rằng không phải mọi đổi mới đều đến từ mô hình lớn hơn
    • Việc làm cho RAG rẻ hơn và nhanh hơn ở quy mô lớn là một đòn bẩy trực tiếp cho tính kinh tế của sản phẩm
    • Ngành sẽ tưởng thưởng cho những đội ngũ biết vận hành hóa các chiến thắng như vậy

1 bình luận

 
GN⁺ 2025-10-12
Ý kiến trên Hacker News
  • Bài báo này không liên quan đến superintelligence; nó giải thích rằng đây là bài báo do một nhóm đã nghiên cứu từ trước khi tái cơ cấu tổ chức, rồi công bố sau khi đổi tên. Nhiều người từng dự đoán Meta sẽ không còn công bố bài báo nữa và sẽ trở nên giống OpenAI, nhưng Meta vẫn đang tiếp tục công bố bài báo và phát hành model trọng số mở rất nhanh

    • Cần nhấn mạnh rằng thứ Meta công bố không phải là open source, mà là model có trọng số mở. Ngay cả các trọng số này cũng được phát hành dưới giấy phép chặt hơn Apache 2

    • Cũng cần nhấn mạnh rằng MSL (nhóm này) không chỉ gồm một vài nhân vật nổi tiếng

  • Tôi đang thấy khá bối rối vì trong các cuộc thảo luận về RAG (Retrieval-Augmented Generation), thuật ngữ này được dùng với nhiều nghĩa khác nhau. Với tôi, RAG là một hệ thống biến từng mảnh tài liệu trong một kho tài liệu được định nghĩa sẵn thành vector embedding, rồi khi cần chỉ đưa những mảnh cụ thể vào ngữ cảnh. Hoặc đó là chức năng trong giao diện chat LLM dùng từ khóa để tìm kiếm trên web và tạm thời đưa các tài liệu liên quan vào ngữ cảnh. Tôi tự hỏi điều gì sẽ xảy ra khi có hỗ trợ cửa sổ ngữ cảnh dài. Nếu đưa toàn bộ thông tin vào ngữ cảnh cùng lúc thì tôi lo ngại sự đa dạng sẽ giảm; trong trường hợp đó có thể sẽ tốt hơn cho tính nhất quán, nhưng rốt cuộc cách quyết định giữ lại hay loại bỏ thông tin nào chẳng phải vẫn là RAG sao. Tôi muốn nghe giải thích từ người am hiểu

    • Về mặt kỹ thuật, RAG là mọi kỹ thuật hỗ trợ quá trình sinh bằng truy xuất bên ngoài. Nhưng thông thường nó được dùng theo nghĩa hẹp hơn, chỉ cách dùng vector DB. Việc đưa toàn bộ thông tin vào một cửa sổ ngữ cảnh rất lớn là không thực tế. Nó mất nhiều thời gian xử lý hơn, và khi có quá nhiều thông tin, model sẽ khó tìm đúng phần cần thiết. Kết quả là khi cần độ trễ thấp hoặc có giới hạn bộ nhớ, cách RAG “cổ điển” vẫn rất hữu ích

    • Cốt lõi là tính thích ứng. Khác biệt chính giữa RAG và non-RAG là ở thời điểm tạo chỉ mục có biết trước câu hỏi hay không, và có khả năng so sánh chéo giữa các tài liệu truy xuất được cũng như phân rã câu hỏi hay không. Non-RAG dùng các kiến trúc như transformer phi nhân quả nhiều lớp để xem đồng thời câu hỏi và tài liệu, nên tổng quát hơn và dễ tối ưu bằng deep learning hơn. Ngược lại, RAG nhanh và rẻ hơn nhưng vì dùng công cụ bên ngoài nên khó huấn luyện end-to-end hơn (cần kiểu học theo phần thưởng như RL). RAG giả định các tài liệu độc lập và không biết câu hỏi tại thời điểm lập chỉ mục. Cũng có các dạng lai kết hợp đầu ra của RAG rồi đưa vào non-RAG. Non-RAG cần dataset quy mô lớn, nhưng nếu học trên toàn bộ web thì hiệu năng vẫn tiếp tục cải thiện. Việc cải thiện hiệu năng trong các trường hợp cụ thể thậm chí còn dễ hơn. RAG có lợi thế về kiểm soát đầu vào và dữ liệu có cấu trúc, đồng thời dễ ngăn chặn các trường hợp tệ nhất, nhưng khó cải thiện best case

    • Tôi nghĩ không thể nhét vô hạn thông tin vào ngữ cảnh. Theo kinh nghiệm của tôi, GPT-5 bắt đầu rối khá nhanh chỉ sau vài trang. Dù đưa vào nhiều như vậy thì nó cũng không nhớ được

    • Tôi không nghĩ thực sự có ai nói “RAG đã chết”. Không thể đưa toàn bộ Internet vào ngữ cảnh của LLM, và càng đưa nhiều vào thì chi phí càng tăng

  • Meta từng có những người giỏi nhất, nhưng có vẻ đã không tận dụng hết tiềm năng của họ. Theo tôi, nếu bớt ám ảnh với các chỉ số thành tích và trao nhiều quyền tự chủ hơn cho các nhà nghiên cứu, họ có thể tiến xa hơn trong cuộc đua AI. Đội ngũ mới gia nhập tạo cảm giác gồm những người giỏi hệ thống hóa và những người quan tâm đến tiền bạc nhiều hơn. Thực ra xu hướng này tồn tại khá rõ ở mọi phòng nghiên cứu của big tech. Các tổ chức này quá né tránh rủi ro. Trước đây chính vì trao tự do cho nhà nghiên cứu mà Silicon Valley mới có được ngày hôm nay. Bản thân tôi, cũng như hàng trăm nhà nghiên cứu ML khác, nếu được trao quyền tự chủ và tài nguyên thì sẵn sàng làm việc với mức lương thấp hơn nhiều. Meta cũng cần dùng số tiền đang đầu tư theo cách đa dạng hơn và nhìn lại các nguyên tắc từng giúp Silicon Valley phát triển

    • Theo tôi, càng có nhiều đối thủ cạnh tranh thì lại càng xuất hiện hiện tượng những người biết tối ưu cho hệ thống sống sót ở nhóm dẫn đầu, thay vì những “cao thủ thực sự”. Chỉ cần nhìn vào việc ứng tuyển vào GAFAM hay các trường hợp như Tinder là thấy xu hướng đó

    • Việc các lab doanh nghiệp trao tự do cho nhà nghiên cứu dường như không thực sự giúp ích cho kinh doanh. Nhìn vào các trường hợp như Bell Labs hay Microsoft Research, họ làm ra rất nhiều nghiên cứu lớn nhưng cực hiếm khi gắn với mảng kinh doanh cốt lõi của công ty. Luận điểm ở đây là nghiên cứu AI không mang lại doanh thu hay năng lực cạnh tranh thực chất cho Meta, mà chỉ thúc đẩy tri thức tập thể tăng trưởng. Với doanh nghiệp, cách này không thật sự phù hợp. Ngay cả nếu làm nhà nghiên cứu, hiện nay trong giới học thuật cũng bận rộn với quản lý sinh viên và các cuộc họp

    • Tôi nghi ngờ nhận định rằng tốc độ phát triển AI đã chậm lại. Dựa vào tiêu chí nào để đánh giá vậy? Nếu thực sự theo dõi lĩnh vực này thì khó mà đồng ý với nhận định đó

    • Ngay cả dưới áp lực ở Meta, tôi luôn tự hỏi liệu những nhà toán học nhận mức lương khổng lồ có thực sự còn thời gian để suy nghĩ tự do hay không

    • Lựa chọn Alex Wang khá thú vị. Có nhiều CEO viện nghiên cứu AI xuất sắc, còn Wang dù có điểm nổi bật nhưng về cơ bản tất cả chỉ là MTurk và chọn đúng thời điểm thị trường. Anh ấy không phù hợp để làm CEO dẫn dắt AGI

  • Tôi khá bất ngờ khi chủ đề của bài báo đầu tiên từ viện nghiên cứu mới lại là RAG thực dụng và mang tính hiện thực như vậy. Thông thường, với một lab mới, tôi nghĩ giai đoạn đầu sẽ là vài bài báo theo các chủ đề mà mỗi người đã làm từ trước, rồi khi tinh thần đồng đội và hiệp lực tích lũy đủ thì mới xuất hiện nghiên cứu thật sự đột phá. Nếu gán quá nhiều ý nghĩa cho “bài báo đầu tiên” quan trọng này thì có thể lại tạo áp lực ngay từ lúc khởi đầu

    • Bản thân tôi trong giới học thuật cũng không xem bài báo đầu tiên là điều gì đặc biệt. Đa số bài báo đầu tiên là kết quả nghiên cứu sinh đóng góp vào dự án sẵn có của giáo sư hướng dẫn. Trên thực tế, phần lớn bài báo được tạo ra từ tay các giáo sư. Ngay cả ở cấp độ lab nghiên cứu, tôi cũng chưa từng nghe nói “bài báo đầu tiên” có giá trị gì đặc biệt
  • Tôi tò mò không biết bài báo từ đội superintelligence của Meta là do chính đội đó trực tiếp lên kế hoạch, hay là bài báo do các nhân sự vốn đang làm việc từ trước công bố sau khi chuyển đội. Tôi đoán khả năng đầu cao hơn

    • Theo một ý kiến khác thì đó là trường hợp sau (bài báo được công bố theo đợt tái cơ cấu tổ chức) tham khảo
  • Chia sẻ bản tổng hợp video giải thích trên YouTube về bài báo RAG này liên kết video

  • Trong các biểu đồ và bảng của bài báo, tôi không thấy ngay phần so sánh với các kỹ thuật nén ngữ cảnh cũ, đơn giản và mang tính thống kê như TF-IDF hay chồng lặp từ đơn thuần. Trong thực tế triển khai ở doanh nghiệp, những cách đơn giản như vậy rất quan trọng vì cho hiệu năng gần như tương đương nhưng giảm lượng thông tin tới 10 lần

  • Tôi từng nghĩ ra và tự triển khai một ý tưởng tương tự. Về sau sẽ cần một framework giúp LLM xử lý nhiều định dạng embedding khác nhau dễ dàng hơn, qua đó đơn giản hóa việc này

  • Giới thiệu liên kết dự án open-source liên quan đến RAG REFRAG

  • Tiêu đề bài báo quá giật gân, tôi muốn một tiêu đề giàu thông tin hơn và ít câu clickbait hơn

    • Tôi tò mò nếu tận dụng ngôn ngữ tiêu biểu của bài viết thì một tiêu đề nhiều thông tin hơn và bớt giật gân sẽ là gì