GraphRAG - Công cụ khám phá dữ liệu của Microsoft

xguru · 2024-07-03T10:41:01+09:00

Một bộ sản phẩm đường ống dữ liệu và chuyển đổi được thiết kế để trích xuất dữ liệu có cấu trúc có ý nghĩa từ văn bản phi cấu trúc bằng cách sử dụng sức mạnh của LLM Cách tiếp cận dựa trên đồ thị cho phép hỏi đáp trên các tập dữ liệu chưa từng được thấy trước đó Đây là công cụ đã được giới thiệu vào tháng 2, nay được phát hành mã nguồn mở để cung cấp khả năng truy xuất thông tin có cấu trúc hơn và tạo phản hồi toàn diện hơn Các tính năng chính Tự động trích xuất đồ thị tri thức phong phú từ tập hợp tài liệu văn bản bằng cách sử dụng mô hình ngôn ngữ lớn (LLM) Chỉ mục dữ liệu dựa trên đồ thị này có thể biểu diễn cấu trúc ngữ nghĩa của dữ liệu trước khi có truy vấn từ người dùng Phát hiện các "cộng đồng" gồm những nút liên kết dày đặc theo cách phân cấp để chia đồ thị thành nhiều cấp độ, từ chủ đề cấp cao đến chủ đề cấp thấp Việc dùng LLM để tóm tắt từng cộng đồng này tạo ra bản tóm tắt phân cấp của tập dữ liệu, giúp hiểu tập dữ liệu mà không cần phải biết trước nên đặt câu hỏi gì Mỗi cộng đồng đóng vai trò là nền tảng cho bản tóm tắt cộng đồng mô tả các thực thể và mối quan hệ tương ứng Ưu điểm khi trả lời các câu hỏi bao quát toàn bộ tập dữ liệu Những "bản tóm tắt cộng đồng" này có thể giúp ích như thế nào cho các câu hỏi mang tính toàn cục (câu hỏi bao quát toàn bộ tập dữ liệu), vốn là điểm yếu của cách tiếp cận naive RAG dựa trên tìm kiếm vector? Ví dụ, với câu hỏi như "Các chủ đề chính của tập dữ liệu là gì?", naive RAG thường đưa ra câu trả lời gây hiểu nhầm Để trả lời các câu hỏi toàn cục, cần phải xem xét toàn bộ văn bản đầu vào Bản tóm tắt cộng đồng có thể trả lời các câu hỏi toàn cục này bằng cách sử dụng phương pháp map-reduce, giữ lại mọi nội dung liên quan trong ngữ cảnh dữ liệu toàn cục: Nhóm các báo cáo cộng đồng theo kích thước cửa sổ ngữ cảnh của LLM Ánh xạ câu hỏi vào từng nhóm để tạo câu trả lời cấp cộng đồng Rút gọn tất cả các câu trả lời cấp cộng đồng liên quan thành câu trả lời toàn cục cuối cùng Đánh giá và kết quả Để so sánh cách tiếp cận này với naive RAG và tóm tắt phân cấp của văn bản nguồn, nhóm đã dùng LLM GPT-4 để tạo ra nhiều câu hỏi sense-making lấy hoạt động làm trung tâm Với các câu trả lời được tạo ra, nhóm chọn 3 chỉ số đánh giá: comprehensiveness (bao quát chi tiết mọi khía cạnh), diversity (cung cấp nhiều góc nhìn), empowerment (hỗ trợ ra quyết định có cơ sở thông tin) GraphRAG cho hiệu năng tốt hơn naive RAG ở các khía cạnh comprehensiveness và diversity (~70-80% tỷ lệ thắng) Ngoài ra, khi sử dụng tóm tắt cộng đồng cấp trung và cấp thấp, GraphRAG cũng đạt hiệu năng tốt hơn so với tóm tắt văn bản nguồn với chi phí token thấp hơn ở các khía cạnh này (~20-70% lượng token cho mỗi truy vấn) Với cộng đồng ở cấp cao nhất, GraphRAG cho hiệu năng cạnh tranh với tóm tắt phân cấp của văn bản nguồn nhưng có chi phí token thấp hơn rất nhiều (~2-3% lượng token cho mỗi truy vấn) Insight nghiên cứu và hướng đi tiếp theo Chu kỳ nghiên cứu ban đầu đã chứng minh rằng LLM có thể thành công trong việc suy ra các đồ thị tri thức phong phú từ đầu vào văn bản phi cấu trúc Các đồ thị này có thể hỗ trợ một loại truy vấn toàn cục mới, nơi naive RAG không thể tạo phản hồi phù hợp còn tóm tắt phân cấp của văn bản nguồn thì quá tốn kém Hiện nhóm đang tìm kiếm nhiều cách tiếp cận khác nhau để giảm các chi phí này trong khi vẫn duy trì chi phí khởi tạo của việc tạo chỉ mục đồ thị Các nghiên cứu gần đây về việc tự động điều chỉnh prompt trích xuất của LLM theo miền bài toán là ví dụ về cách giảm phần công việc chuẩn bị cần thiết để tùy biến các prompt này, liệt kê loại thực thể và tạo ví dụ few-shot Mục tiêu là bằng cách công khai GraphRAG và solution accelerator, có thể giúp cách tiếp cận RAG dựa trên đồ thị trở nên dễ tiếp cận hơn với những người dùng và các trường hợp sử dụng mà việc hiểu dữ liệu một cách tổng thể là rất quan trọng

(microsoft.com)

12 điểm bởi xguru 2024-07-03 | 1 bình luận | Chia sẻ qua WhatsApp

Một bộ sản phẩm đường ống dữ liệu và chuyển đổi được thiết kế để trích xuất dữ liệu có cấu trúc có ý nghĩa từ văn bản phi cấu trúc bằng cách sử dụng sức mạnh của LLM
Cách tiếp cận dựa trên đồ thị cho phép hỏi đáp trên các tập dữ liệu chưa từng được thấy trước đó
Đây là công cụ đã được giới thiệu vào tháng 2, nay được phát hành mã nguồn mở để cung cấp khả năng truy xuất thông tin có cấu trúc hơn và tạo phản hồi toàn diện hơn

Các tính năng chính

Tự động trích xuất đồ thị tri thức phong phú từ tập hợp tài liệu văn bản bằng cách sử dụng mô hình ngôn ngữ lớn (LLM)
Chỉ mục dữ liệu dựa trên đồ thị này có thể biểu diễn cấu trúc ngữ nghĩa của dữ liệu trước khi có truy vấn từ người dùng
Phát hiện các "cộng đồng" gồm những nút liên kết dày đặc theo cách phân cấp để chia đồ thị thành nhiều cấp độ, từ chủ đề cấp cao đến chủ đề cấp thấp
Việc dùng LLM để tóm tắt từng cộng đồng này tạo ra bản tóm tắt phân cấp của tập dữ liệu, giúp hiểu tập dữ liệu mà không cần phải biết trước nên đặt câu hỏi gì
Mỗi cộng đồng đóng vai trò là nền tảng cho bản tóm tắt cộng đồng mô tả các thực thể và mối quan hệ tương ứng

Ưu điểm khi trả lời các câu hỏi bao quát toàn bộ tập dữ liệu

Những "bản tóm tắt cộng đồng" này có thể giúp ích như thế nào cho các câu hỏi mang tính toàn cục (câu hỏi bao quát toàn bộ tập dữ liệu), vốn là điểm yếu của cách tiếp cận naive RAG dựa trên tìm kiếm vector?
Ví dụ, với câu hỏi như "Các chủ đề chính của tập dữ liệu là gì?", naive RAG thường đưa ra câu trả lời gây hiểu nhầm
Để trả lời các câu hỏi toàn cục, cần phải xem xét toàn bộ văn bản đầu vào
Bản tóm tắt cộng đồng có thể trả lời các câu hỏi toàn cục này bằng cách sử dụng phương pháp map-reduce, giữ lại mọi nội dung liên quan trong ngữ cảnh dữ liệu toàn cục:
1. Nhóm các báo cáo cộng đồng theo kích thước cửa sổ ngữ cảnh của LLM
2. Ánh xạ câu hỏi vào từng nhóm để tạo câu trả lời cấp cộng đồng
3. Rút gọn tất cả các câu trả lời cấp cộng đồng liên quan thành câu trả lời toàn cục cuối cùng

Đánh giá và kết quả

Để so sánh cách tiếp cận này với naive RAG và tóm tắt phân cấp của văn bản nguồn, nhóm đã dùng LLM GPT-4 để tạo ra nhiều câu hỏi sense-making lấy hoạt động làm trung tâm
Với các câu trả lời được tạo ra, nhóm chọn 3 chỉ số đánh giá: comprehensiveness (bao quát chi tiết mọi khía cạnh), diversity (cung cấp nhiều góc nhìn), empowerment (hỗ trợ ra quyết định có cơ sở thông tin)
GraphRAG cho hiệu năng tốt hơn naive RAG ở các khía cạnh comprehensiveness và diversity (~70-80% tỷ lệ thắng)
Ngoài ra, khi sử dụng tóm tắt cộng đồng cấp trung và cấp thấp, GraphRAG cũng đạt hiệu năng tốt hơn so với tóm tắt văn bản nguồn với chi phí token thấp hơn ở các khía cạnh này (~20-70% lượng token cho mỗi truy vấn)
Với cộng đồng ở cấp cao nhất, GraphRAG cho hiệu năng cạnh tranh với tóm tắt phân cấp của văn bản nguồn nhưng có chi phí token thấp hơn rất nhiều (~2-3% lượng token cho mỗi truy vấn)

Insight nghiên cứu và hướng đi tiếp theo

Chu kỳ nghiên cứu ban đầu đã chứng minh rằng LLM có thể thành công trong việc suy ra các đồ thị tri thức phong phú từ đầu vào văn bản phi cấu trúc
Các đồ thị này có thể hỗ trợ một loại truy vấn toàn cục mới, nơi naive RAG không thể tạo phản hồi phù hợp còn tóm tắt phân cấp của văn bản nguồn thì quá tốn kém
Hiện nhóm đang tìm kiếm nhiều cách tiếp cận khác nhau để giảm các chi phí này trong khi vẫn duy trì chi phí khởi tạo của việc tạo chỉ mục đồ thị
Các nghiên cứu gần đây về việc tự động điều chỉnh prompt trích xuất của LLM theo miền bài toán là ví dụ về cách giảm phần công việc chuẩn bị cần thiết để tùy biến các prompt này, liệt kê loại thực thể và tạo ví dụ few-shot
Mục tiêu là bằng cách công khai GraphRAG và solution accelerator, có thể giúp cách tiếp cận RAG dựa trên đồ thị trở nên dễ tiếp cận hơn với những người dùng và các trường hợp sử dụng mà việc hiểu dữ liệu một cách tổng thể là rất quan trọng

1 bình luận

xguru 2024-07-04

Ý kiến trên Hacker News

Dự án GraphRAG của Microsoft sử dụng cách xây dựng đồ thị tri thức mà không cần thư viện trích xuất hiện đại
- Có thể là vì các mô hình như GPT-4 tuân thủ khá tốt các hướng dẫn về định dạng cụ thể
- Cung cấp ví dụ để chúng làm theo schema mong muốn
Rất vui khi Microsoft đã phát hành mã nguồn mở GraphRAG
- Có kế hoạch thử GraphRAG và Llama3 trên MacBook
- Nghĩ rằng công cụ này có thể trở thành một bước ngoặt lớn
Chia sẻ liên kết dành cho những ai đang tìm thêm thông tin chi tiết về phương pháp GraphRAG
Dự án GraphRAG cho thấy cơ sở dữ liệu vector có thể cung cấp một giải pháp RAG hoàn chỉnh cho các truy vấn tìm kiếm phức tạp
- Chỉ nạp văn bản vào LLM là chưa đủ để xây dựng một đồ thị tri thức chính xác
- Vì vậy đã viết GraphRAG-SDK để tạo ontology ổn định
Đồ thị tri thức không thay thế tìm kiếm ngữ nghĩa truyền thống, nhưng mang lại những năng lực mới khi triển khai RAG
- Có thể duyệt ngữ cảnh dài hoặc khám phá các ngữ cảnh khác một cách nhất quán và hiệu quả
- Kết quả khi thử tạo đồ thị bằng LLM trước đây chưa đủ tốt
- Đang mong chờ được thử cách này
Nếu tôi hiểu đúng bài báo, họ chạy LLM nhiều lần ở giai đoạn lập chỉ mục để trích xuất thực thể và xây dựng chỉ mục đồ thị
- Chạy đồ thị nhiều lần để tạo các cụm
- Tại thời điểm truy vấn, chạy qua tất cả các cụm để tạo và chấm điểm câu trả lời từ từng cụm
- Chạy tiếp tất cả câu trả lời trừ câu có điểm thấp nhất để tạo ra “câu trả lời toàn cục”
- Mức độ yêu cầu tính toán như vậy có thể là không thể gánh nổi với các tập dữ liệu lớn
Đã thực hiện nhiều dự án nhỏ với đồ thị và LLM, và xác nhận rằng cách tiếp cận này có hiệu quả
- Nhận ra rằng có thể giải quyết bằng prompt engineering và nhiều lượt xử lý
- Sẽ thử cách này, và nếu kết quả tốt thì sẽ cố gắng rời khỏi môi trường Python
Tò mò không biết nó có liên quan đến Knowledge Graph RAG Query engine của LlamaIndex hay không
Việc chọn chiến tranh Nga-Ukraine làm ví dụ khá thú vị
- Có thể đây là một lựa chọn có chủ đích nhằm nhắm đến các hợp đồng phân tích dữ liệu quân sự
Sau khi đọc bài báo, đã muốn thử dự án này
- Từng định tự triển khai, nhưng nghĩ rằng mã nguồn sẽ xuất hiện sau vài tuần nữa
- Sự kiên nhẫn đã được đền đáp