Morphik - Cơ sở tri thức AI native mã nguồn mở

xguru · 2025-05-29T09:46:28+09:00

Công cụ mã nguồn mở giúp tìm kiếm và quản lý hợp nhất dữ liệu đa phương thức như hình ảnh, PDF, video Được tối ưu để xử lý tài liệu kỹ thuật và tài liệu trực quan tốt hơn so với phương pháp RAG truyền thống Sử dụng embedding ColPali để xử lý toàn bộ trang như một hình ảnh, cung cấp tìm kiếm ngữ nghĩa có thể hiểu cả bố cục, kiểu chữ và ngữ cảnh trực quan Có thể tạo đồ thị tri thức chuyên biệt theo miền với khả năng liên kết thực thể giữa nhiều tài liệu, đồng thời có thể dùng system prompt tùy chỉnh hoặc được huấn luyện sẵn Tìm kiếm nhiều loại tài liệu bằng một API duy nhất như PDF, hình ảnh, video, đồng thời hỗ trợ MCP Chức năng trích xuất metadata nhanh và có thể mở rộng, đồng thời hỗ trợ bounding box, phân loại, v.v. Có thể tích hợp workflow với Google Suite, Slack, Confluence, v.v. Cũng bao gồm tính năng Cache-Augmented-Generation dựa trên KV cache giúp cải thiện tốc độ sinh từ tài liệu Các tính năng cơ bản được cung cấp mã nguồn mở theo giấy phép MIT, có thể bắt đầu miễn phí; một số tính năng nâng cao được cung cấp trả phí trong namespace ee Giới thiệu các khái niệm và tính năng chính Tìm kiếm đa phương thức (ColPali) Xử lý từng trang PDF như một hình ảnh, tạo biểu diễn multi-vector theo đơn vị trang thay vì theo từng text token Có thể nắm bắt ý nghĩa và tìm kiếm hình ảnh, PDF, video cũng như cấu trúc trực quan (bảng, sơ đồ, định dạng, v.v.) Hỗ trợ truy vấn đa phương thức hợp nhất thông qua một endpoint duy nhất Đồ thị tri thức (Knowledge Graphs) Có thể tạo đồ thị tri thức chuyên biệt theo miền chỉ với một dòng code Có thể dùng prompt cấu hình sẵn hoặc tự tùy chỉnh Trích xuất metadata nhanh và có thể mở rộng (Rules Processing) Tự động trích xuất bounding box, nhãn, thông tin phân loại trong tài liệu Xử lý nhanh và ổn định cả với tài liệu dung lượng lớn Nhiều tính năng tích hợp (Integrations) Hỗ trợ tích hợp trực tiếp với Google Workspace, Slack, Confluence v.v. Sinh có tăng cường bộ nhớ đệm (Cache-Augmented-Generation) Tạo KV cache cho từng tài liệu để tăng tốc độ sinh Hữu ích trong môi trường có nhiều truy vấn lặp lại

(github.com/morphik-org)

20 điểm bởi xguru 2025-05-29 | 2 bình luận | Chia sẻ qua WhatsApp

Công cụ mã nguồn mở giúp tìm kiếm và quản lý hợp nhất dữ liệu đa phương thức như hình ảnh, PDF, video
- Được tối ưu để xử lý tài liệu kỹ thuật và tài liệu trực quan tốt hơn so với phương pháp RAG truyền thống
Sử dụng embedding ColPali để xử lý toàn bộ trang như một hình ảnh, cung cấp tìm kiếm ngữ nghĩa có thể hiểu cả bố cục, kiểu chữ và ngữ cảnh trực quan
Có thể tạo đồ thị tri thức chuyên biệt theo miền với khả năng liên kết thực thể giữa nhiều tài liệu, đồng thời có thể dùng system prompt tùy chỉnh hoặc được huấn luyện sẵn
Tìm kiếm nhiều loại tài liệu bằng một API duy nhất như PDF, hình ảnh, video, đồng thời hỗ trợ MCP
Chức năng trích xuất metadata nhanh và có thể mở rộng, đồng thời hỗ trợ bounding box, phân loại, v.v.
Có thể tích hợp workflow với Google Suite, Slack, Confluence, v.v.
Cũng bao gồm tính năng Cache-Augmented-Generation dựa trên KV cache giúp cải thiện tốc độ sinh từ tài liệu
Các tính năng cơ bản được cung cấp mã nguồn mở theo giấy phép MIT, có thể bắt đầu miễn phí; một số tính năng nâng cao được cung cấp trả phí trong namespace ee

Giới thiệu các khái niệm và tính năng chính

Tìm kiếm đa phương thức (ColPali)
- Xử lý từng trang PDF như một hình ảnh, tạo biểu diễn multi-vector theo đơn vị trang thay vì theo từng text token
- Có thể nắm bắt ý nghĩa và tìm kiếm hình ảnh, PDF, video cũng như cấu trúc trực quan (bảng, sơ đồ, định dạng, v.v.)
- Hỗ trợ truy vấn đa phương thức hợp nhất thông qua một endpoint duy nhất
Đồ thị tri thức (Knowledge Graphs)
- Có thể tạo đồ thị tri thức chuyên biệt theo miền chỉ với một dòng code
- Có thể dùng prompt cấu hình sẵn hoặc tự tùy chỉnh
Trích xuất metadata nhanh và có thể mở rộng (Rules Processing)
- Tự động trích xuất bounding box, nhãn, thông tin phân loại trong tài liệu
- Xử lý nhanh và ổn định cả với tài liệu dung lượng lớn
Nhiều tính năng tích hợp (Integrations)
- Hỗ trợ tích hợp trực tiếp với Google Workspace, Slack, Confluence v.v.
Sinh có tăng cường bộ nhớ đệm (Cache-Augmented-Generation)
- Tạo KV cache cho từng tài liệu để tăng tốc độ sinh
- Hữu ích trong môi trường có nhiều truy vấn lặp lại

2 bình luận

blizard4479 2025-05-29

Tôi đã thử dùng cái này cách đây vài tháng, nhưng nó cần tài nguyên GPU nhiều hơn tôi tưởng và tốc độ cũng giảm khá nhiều, nên có vẻ khó để các công ty quy mô nhỏ áp dụng. Ngay cả khi dùng 2 GPU A10 để tìm kiếm cũng mất khoảng 30 giây đến 1 phút, ghê thật,,

2025-05-29

[Bình luận này đã bị ẩn.]

Morphik - Cơ sở tri thức AI native mã nguồn mở

Giới thiệu các khái niệm và tính năng chính

Tìm kiếm đa phương thức (ColPali)

Đồ thị tri thức (Knowledge Graphs)

Trích xuất metadata nhanh và có thể mở rộng (Rules Processing)

Nhiều tính năng tích hợp (Integrations)

Sinh có tăng cường bộ nhớ đệm (Cache-Augmented-Generation)

Bài viết liên quan

2 bình luận