Alignment Scry của ExoPriors: truy vấn chỉ mục 600GB từ Hacker News, arXiv... bằng Claude Code

(exopriors.com)

1 điểm bởi GN⁺ 2026-01-01 | 1 bình luận | Chia sẻ qua WhatsApp

Alignment Scry của ExoPriors là nền tảng cho phép tìm kiếm 60 triệu tài liệu và 22 triệu embedding được thu thập từ arXiv, Hacker News, LessWrong... bằng SQL và phép toán vector thông qua Claude Code
Cung cấp API key công khai, đồng thời hỗ trợ cả tìm kiếm văn bản dựa trên BM25 và tìm kiếm ngữ nghĩa dựa trên khoảng cách cosine của pgvector
Có thể phân biệt giữa tìm kiếm mẫu nhanh và tìm kiếm đầy đủ bằng các hàm alignment.search() và alignment.search_exhaustive()
Có thể thiết lập đơn giản trong môi trường Claude Web hoặc Claude Code để gọi API, đồng thời cung cấp handle cá nhân (@handle) và tính năng lưu embedding
Mở miễn phí cho nhà nghiên cứu, và có ý nghĩa như một môi trường thử nghiệm truy vấn dữ liệu quy mô lớn phục vụ nghiên cứu AI và tự động hóa khám phá thông tin

Tổng quan

Alignment Scry là hệ thống tìm kiếm cho phép thực hiện SQL và đại số vector trên chỉ mục tài liệu liên quan đến bùng nổ trí tuệ
- Các nguồn dữ liệu chính gồm arXiv, Hacker News, LessWrong, community-archive.org...
- Người dùng có thể khám phá dữ liệu bằng truy vấn ngôn ngữ tự nhiên hoặc lệnh SQL thông qua Claude Code
Hệ thống hiện ở giai đoạn thử nghiệm Alpha, đồng thời bao gồm Lens Studio, một công cụ khám phá tập trung vào LessWrong

Tích hợp với Claude và cách truy cập

Có thể dùng ngay qua thiết lập truy cập API trong Claude Code hoặc Claude Web
- Cho phép chạy code, tạo file, truy cập mạng, và thêm api.exopriors.com vào danh sách trắng tên miền
Có thể truy cập mà không cần đăng nhập thông qua API key công khai exopriors_public_readonly_v1_2025
Có thể dùng tùy chọn --dangerously-skip-permissions để Claude không phải xin xác nhận người dùng mỗi lần gọi API (đi kèm rủi ro)
Khuyến nghị sử dụng các model từ Opus 4.5 trở lên, đồng thời nêu rõ có tồn tại rủi ro tấn công prompt injection

Tính năng chính

Query: thực hiện truy vấn SQL trên 60 triệu tài liệu
Embed: lưu trữ và tái sử dụng embedding cho tìm kiếm ngữ nghĩa
Timeout: tự động điều chỉnh trong khoảng 20–120 giây tùy theo tải
Đối tượng tìm kiếm: nhiều loại tài liệu như post, comment, paper, tweet...
Lexical Search: hỗ trợ tìm kiếm từ khóa dựa trên BM25, tìm kiếm cụm từ, và fuzzy matching
Semantic Search: tìm kiếm độ tương đồng ngữ nghĩa bằng khoảng cách cosine của pgvector (<=>)

Truy vấn và quản lý hiệu năng

alignment.search() chỉ trả về 100 kết quả BM25 hàng đầu, phù hợp cho lấy mẫu để khám phá nhanh
alignment.search_exhaustive() thực hiện tìm kiếm đầy đủ và hỗ trợ phân trang
Hướng dẫn hiệu năng
- Tìm kiếm đơn giản: 1–5 giây
- Join embedding (dưới 500.000 hàng): 5–20 giây
- Tổng hợp phức tạp (dưới 2 triệu hàng): 20–60 giây
- Quét quy mô lớn (trên 5 triệu hàng): có thể timeout khi tải cao
Hiển thị tóm tắt trước khi chạy truy vấn và quy trình xác nhận người dùng để tránh quá tải
Tự động nhận diện truy vấn nặng dựa trên LIMIT, estimated_rows, kích thước join...

Cấu trúc dữ liệu và view

Cung cấp materialized view trong schema alignment
- Ví dụ: mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments...
- Các cột chính: entity_id, uri, source, kind, original_author, title, score, embedding...
Có thể join với bảng alignment.entities để truy cập metadata
Hàm alignment.author_topics() cho phép phân tích chéo giữa chủ đề cụ thể và tác giả

Phép toán vector và tính năng kết hợp

<=>: toán tử khoảng cách cosine của pgvector (càng gần 0 càng giống nhau)
@handle: tham chiếu đến vector đã lưu
Trộn vector: kết hợp có trọng số theo dạng scale(@rigor,.6) - scale(@hype,.3)
Khử thiên lệch: loại bỏ ảnh hưởng của một chủ đề nhất định bằng debias_vector(@axis, @topic)
Có thể biểu diễn ý nghĩa trung bình của tác giả hoặc thời kỳ bằng cách tính vector trung tâm (centroid)
Có thể theo dõi sự dịch chuyển tư tưởng theo thời gian bằng cách tính temporal delta

Tìm kiếm lai và ví dụ

Hỗ trợ tìm kiếm kết hợp Lexical + Semantic
- Ví dụ: tái xếp hạng các ứng viên văn bản bằng vector ngữ nghĩa theo dạng WITH hits AS (search(...)) <=> @q
Ví dụ BM25
- alignment.search('corrigibility')
- alignment.search('"inner alignment"')
Ví dụ SQL
- Tính danh sách các tác giả hàng đầu của một chủ đề cụ thể
- Phân trang kết quả quy mô lớn bằng alignment.search_exhaustive()

Quy mô hệ thống và điều kiện cung cấp

Sở hữu 65M+ tài liệu, 22M+ embedding, 600GB+ chỉ mục
Miễn phí cho nhà nghiên cứu, bao gồm 1.5M token embedding
Khi tạo tài khoản sẽ có namespace handle cá nhân, timeout dài hơn (tối đa 10 phút), và hạn mức truy vấn mở rộng

Tóm tắt

Alignment Scry là nền tảng truy vấn dữ liệu nghiên cứu AI quy mô lớn kết hợp với Claude, hỗ trợ tìm kiếm lai giữa SQL và phép toán vector
Thông qua API công khai và hướng dẫn truy vấn rõ ràng, nền tảng này mang lại khả năng tiếp cận dữ liệu mang tính thử nghiệm cho các nhà nghiên cứu và lập trình viên AI
Dựa trên chỉ mục quy mô 600GB và hơn 60 triệu tài liệu, hệ thống tạo ra môi trường có thể tự động hóa việc khám phá liên quan đến AI alignment và nghiên cứu trí tuệ

1 bình luận

GN⁺ 2026-01-01

Ý kiến trên Hacker News

Tôi thích điểm là dự án này tạo SQL chứ không chỉ là một chatbot hộp đen đơn thuần
Thay vì dùng LLM như cơ sở dữ liệu, tôi nghĩ hướng đúng là tận dụng nó như công cụ dịch ngôn ngữ tự nhiên sang ngôn ngữ truy vấn có cấu trúc
Tuy vậy, tôi vẫn tò mò không biết họ có dùng timeout hay sandboxing để tránh API bị lạm dụng hay không
Tôi cũng muốn biết liệu có hiện tượng semantic bleeding giữa các tập dữ liệu khác nhau hay không — ví dụ “optimization” có thể được dùng khác nhau trong ArXiv, LessWrong và HN
- Đúng vậy, đôi khi con người muốn độ chính xác và khả năng kiểm soát
  Bộ lập kế hoạch truy vấn SQL vẫn rất mạnh khi phải xử lý vô số view và index
  Chúng tôi cũng rất chú ý đến bảo mật và rate-limit, đồng thời chặn các join nguy hiểm bằng cách phân tích AST
  Claude có thể dùng tổ hợp vector trung tâm (centroid) để giảm khác biệt ngữ nghĩa giữa các miền khác nhau
  Ví dụ, có thể lấy trung bình embedding của từ “optimization” trong LessWrong và ArXiv để làm thí nghiệm so sánh
- Tôi cũng đã làm một cách tiếp cận tương tự. Tôi biến lịch sử trò chuyện của Claude Code và Codex thành DB cục bộ để có thể truy vấn trực tiếp từ CLI
  Tôi đã ghi lại quá trình triển khai trong bài blog này
  Hiện tại là client cho macOS, nhưng engine cho Linux cũng đang được chuẩn bị
- Tôi nghĩ chính cách tiếp cận này mới là “đổi mới thật sự sẽ còn lại ngay cả khi bong bóng AI xì hơi”
  Phạm vi ứng dụng của diễn giải và dịch ngôn ngữ tự nhiên là cực kỳ rộng
  Cuối cùng dòng vốn đầu tư cũng sẽ chuyển sang các công cụ thực dụng như thế này
- Tôi chưa có thí nghiệm nào, nhưng theo kinh nghiệm của tôi, kích thước mô hình embedding ảnh hưởng đến mức độ tách biệt nghĩa của từ
  Mô hình càng lớn thì càng phân biệt tốt hơn các nghĩa khác nhau của cùng một từ
Dự án thật sự rất tuyệt. Tôi định dùng ngay nó để tìm các đa tạp Calabi–Yau trong nghiên cứu lý thuyết dây mà tôi đang làm
Sau khi cùng Claude nghiên cứu, tôi đã tìm ra hai bài báo về flux vacua dùng thuật toán di truyền, và tổ hợp SQL + BM25 cho phép tìm kiếm rất tinh vi
Tuy nhiên, việc escape dấu ngoặc kép trong bash khá phiền, và do giới hạn 100 kết quả của alignment.search(), tôi phải dùng search_exhaustive() mới lấy được kết quả đầy đủ
- Tôi cũng đã dùng công cụ này để tìm hiểu nghiên cứu gần đây của DESI về sự biến thiên của năng lượng tối
  Claude đã phân tích kho ngữ liệu ExoPriors, rồi tổng hợp các bài báo và kết quả chính, qua đó gợi ý rằng kết quả của DESI có thể thay đổi hướng tìm kiếm trong lý thuyết dây
  Đặc biệt, bài arXiv:2511.23463 giải thích hiện tượng “phantom crossing” của năng lượng tối bằng sự trộn axion-dilaton
  Sắp tới tôi dự định mở rộng nghiên cứu theo hướng đưa các tham số (w₀, wₐ) vào hàm khớp, đồng thời thêm động lực học axion
  Bài liên quan: BBC đưa tin
Dùng cờ “dangerously-skip-permissions” cùng với văn bản không an toàn là rất nguy hiểm
Đầu vào từ Internet có thể lẫn prompt injection, nên nhất định phải chạy trong môi trường sandbox
- Hôm nay tôi cũng mới bắt đầu chạy Claude trong devcontainer, và đang tò mò không biết tùy chọn sandbox nào là đơn giản nhất
Tôi đang tìm cách truy vấn thông tin gene và protein trong Supplementary Material của các bài báo khoa học sự sống
Hiện tại việc lập chỉ mục quá thiếu nhất quán, nên các hiểu biết rút ra từ nghiên cứu hệ gene suốt 15 năm qua đang bị chôn vùi
Nếu tận dụng dữ liệu open access thì có vẻ cách tiếp cận này sẽ hiệu quả
- Tôi cũng đã làm thứ tương tự — papers2dataset
  Nó dùng OpenAlex để lần theo đồ thị trích dẫn và phân tích các PDF open access
  Tôi dùng nó để tìm chất bảo vệ lạnh đông (cryoprotective agents) theo từng mức nhiệt độ, nhưng cũng có thể mở rộng cho bài toán của bạn
Những cách diễn đạt như “intelligence explosion”, “ARBITRARY SQL + VECTOR ALGEBRA” nghe giống thuật ngữ công nghệ cường điệu
- Không phải cường điệu đâu. Bây giờ thật sự là thời kỳ bùng nổ trí tuệ phần mềm
  Nhờ Opus 4.5 và GPT-5.2-Codex-xhigh mà tốc độ phát triển đã tăng vọt
  Scry là công cụ duy nhất có thể chạy SQL tùy ý trên kho ngữ liệu quy mô lớn và cho phép tự do thử nghiệm tổ hợp vector
Kết hợp prompt và các tập dữ liệu bên ngoài hiện là kênh khám phá đơn giản mà mạnh mẽ nhất
Giống như “curl | bash”, nó cho phép thử nghiệm rất nhanh
- Đúng vậy. Tổ hợp Prompt + Tool + External Dataset có tiềm năng khổng lồ
Họ gọi đây là công cụ nghiên cứu “state-of-the-art”, nhưng tôi muốn biết cụ thể điều gì làm nó tối tân đến vậy
- Vì quy mô. Có bao nhiêu công cụ cho phép truy vấn toàn văn mọi bài báo arXiv chứ
- Chỉ là thuật ngữ marketing thôi. Đây không phải cách gọi được bảo hộ nên ai cũng có thể dùng
  Ví dụ, mô hình Gemma cũng từng được gọi là “state-of-the-art” dù hiệu năng thấp hơn đối thủ
  Juicero khi ra mắt cũng là tối tân thật, nhưng cuối cùng bóp tay còn tốt hơn
- Công cụ thì tối tân, nhưng nguồn dữ liệu lại mang tính lịch sử
- Tôi cũng tự hỏi liệu “tốt nhất” ở đây có phải chỉ vì nó là đầu tiên hay không
Hiện tôi đang phát triển một hệ thống nghiên cứu học thuật tự trị và có kế hoạch tích hợp dự án này
Lúc này tôi đang dùng Edison Scientific API và prompt tùy chỉnh, nên muốn hỏi liệu có kế hoạch mã nguồn mở hay không
Dự án liên quan: gia-agentic-short
- Tôi muốn công khai mã nguồn mở, nhưng thành thật mà nói lúc này việc mưu sinh đang rất khó khăn
  Chỉ cần có $5,000 thì có lẽ tôi có thể công bố ngay

Alignment Scry của ExoPriors: truy vấn chỉ mục 600GB từ Hacker News, arXiv... bằng Claude Code

Tổng quan

Tích hợp với Claude và cách truy cập

Tính năng chính

Truy vấn và quản lý hiệu năng

Cấu trúc dữ liệu và view

Phép toán vector và tính năng kết hợp

Tìm kiếm lai và ví dụ

Quy mô hệ thống và điều kiện cung cấp

Tóm tắt

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News