1 điểm bởi GN⁺ 2026-01-01 | 1 bình luận | Chia sẻ qua WhatsApp
  • Alignment Scry của ExoPriors là nền tảng cho phép tìm kiếm 60 triệu tài liệu và 22 triệu embedding được thu thập từ arXiv, Hacker News, LessWrong... bằng SQL và phép toán vector thông qua Claude Code
  • Cung cấp API key công khai, đồng thời hỗ trợ cả tìm kiếm văn bản dựa trên BM25tìm kiếm ngữ nghĩa dựa trên khoảng cách cosine của pgvector
  • Có thể phân biệt giữa tìm kiếm mẫu nhanhtìm kiếm đầy đủ bằng các hàm alignment.search()alignment.search_exhaustive()
  • Có thể thiết lập đơn giản trong môi trường Claude Web hoặc Claude Code để gọi API, đồng thời cung cấp handle cá nhân (@handle) và tính năng lưu embedding
  • Mở miễn phí cho nhà nghiên cứu, và có ý nghĩa như một môi trường thử nghiệm truy vấn dữ liệu quy mô lớn phục vụ nghiên cứu AI và tự động hóa khám phá thông tin

Tổng quan

  • Alignment Scry là hệ thống tìm kiếm cho phép thực hiện SQL và đại số vector trên chỉ mục tài liệu liên quan đến bùng nổ trí tuệ
    • Các nguồn dữ liệu chính gồm arXiv, Hacker News, LessWrong, community-archive.org...
    • Người dùng có thể khám phá dữ liệu bằng truy vấn ngôn ngữ tự nhiên hoặc lệnh SQL thông qua Claude Code
  • Hệ thống hiện ở giai đoạn thử nghiệm Alpha, đồng thời bao gồm Lens Studio, một công cụ khám phá tập trung vào LessWrong

Tích hợp với Claude và cách truy cập

  • Có thể dùng ngay qua thiết lập truy cập API trong Claude Code hoặc Claude Web
    • Cho phép chạy code, tạo file, truy cập mạng, và thêm api.exopriors.com vào danh sách trắng tên miền
  • Có thể truy cập mà không cần đăng nhập thông qua API key công khai exopriors_public_readonly_v1_2025
  • Có thể dùng tùy chọn --dangerously-skip-permissions để Claude không phải xin xác nhận người dùng mỗi lần gọi API (đi kèm rủi ro)
  • Khuyến nghị sử dụng các model từ Opus 4.5 trở lên, đồng thời nêu rõ có tồn tại rủi ro tấn công prompt injection

Tính năng chính

  • Query: thực hiện truy vấn SQL trên 60 triệu tài liệu
  • Embed: lưu trữ và tái sử dụng embedding cho tìm kiếm ngữ nghĩa
  • Timeout: tự động điều chỉnh trong khoảng 20–120 giây tùy theo tải
  • Đối tượng tìm kiếm: nhiều loại tài liệu như post, comment, paper, tweet...
  • Lexical Search: hỗ trợ tìm kiếm từ khóa dựa trên BM25, tìm kiếm cụm từ, và fuzzy matching
  • Semantic Search: tìm kiếm độ tương đồng ngữ nghĩa bằng khoảng cách cosine của pgvector (<=>)

Truy vấn và quản lý hiệu năng

  • alignment.search() chỉ trả về 100 kết quả BM25 hàng đầu, phù hợp cho lấy mẫu để khám phá nhanh
  • alignment.search_exhaustive() thực hiện tìm kiếm đầy đủ và hỗ trợ phân trang
  • Hướng dẫn hiệu năng
    • Tìm kiếm đơn giản: 1–5 giây
    • Join embedding (dưới 500.000 hàng): 5–20 giây
    • Tổng hợp phức tạp (dưới 2 triệu hàng): 20–60 giây
    • Quét quy mô lớn (trên 5 triệu hàng): có thể timeout khi tải cao
  • Hiển thị tóm tắt trước khi chạy truy vấn và quy trình xác nhận người dùng để tránh quá tải
  • Tự động nhận diện truy vấn nặng dựa trên LIMIT, estimated_rows, kích thước join...

Cấu trúc dữ liệu và view

  • Cung cấp materialized view trong schema alignment
    • Ví dụ: mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments...
    • Các cột chính: entity_id, uri, source, kind, original_author, title, score, embedding...
  • Có thể join với bảng alignment.entities để truy cập metadata
  • Hàm alignment.author_topics() cho phép phân tích chéo giữa chủ đề cụ thể và tác giả

Phép toán vector và tính năng kết hợp

  • <=>: toán tử khoảng cách cosine của pgvector (càng gần 0 càng giống nhau)
  • @handle: tham chiếu đến vector đã lưu
  • Trộn vector: kết hợp có trọng số theo dạng scale(@rigor,.6) - scale(@hype,.3)
  • Khử thiên lệch: loại bỏ ảnh hưởng của một chủ đề nhất định bằng debias_vector(@axis, @topic)
  • Có thể biểu diễn ý nghĩa trung bình của tác giả hoặc thời kỳ bằng cách tính vector trung tâm (centroid)
  • Có thể theo dõi sự dịch chuyển tư tưởng theo thời gian bằng cách tính temporal delta

Tìm kiếm lai và ví dụ

  • Hỗ trợ tìm kiếm kết hợp Lexical + Semantic
    • Ví dụ: tái xếp hạng các ứng viên văn bản bằng vector ngữ nghĩa theo dạng WITH hits AS (search(...)) <=> @q
  • Ví dụ BM25
    • alignment.search('corrigibility')
    • alignment.search('"inner alignment"')
  • Ví dụ SQL
    • Tính danh sách các tác giả hàng đầu của một chủ đề cụ thể
    • Phân trang kết quả quy mô lớn bằng alignment.search_exhaustive()

Quy mô hệ thống và điều kiện cung cấp

  • Sở hữu 65M+ tài liệu, 22M+ embedding, 600GB+ chỉ mục
  • Miễn phí cho nhà nghiên cứu, bao gồm 1.5M token embedding
  • Khi tạo tài khoản sẽ có namespace handle cá nhân, timeout dài hơn (tối đa 10 phút), và hạn mức truy vấn mở rộng

Tóm tắt

  • Alignment Scry là nền tảng truy vấn dữ liệu nghiên cứu AI quy mô lớn kết hợp với Claude, hỗ trợ tìm kiếm lai giữa SQL và phép toán vector
  • Thông qua API công khai và hướng dẫn truy vấn rõ ràng, nền tảng này mang lại khả năng tiếp cận dữ liệu mang tính thử nghiệm cho các nhà nghiên cứu và lập trình viên AI
  • Dựa trên chỉ mục quy mô 600GB và hơn 60 triệu tài liệu, hệ thống tạo ra môi trường có thể tự động hóa việc khám phá liên quan đến AI alignment và nghiên cứu trí tuệ

1 bình luận

 
GN⁺ 2026-01-01
Ý kiến trên Hacker News
  • Tôi thích điểm là dự án này tạo SQL chứ không chỉ là một chatbot hộp đen đơn thuần
    Thay vì dùng LLM như cơ sở dữ liệu, tôi nghĩ hướng đúng là tận dụng nó như công cụ dịch ngôn ngữ tự nhiên sang ngôn ngữ truy vấn có cấu trúc
    Tuy vậy, tôi vẫn tò mò không biết họ có dùng timeout hay sandboxing để tránh API bị lạm dụng hay không
    Tôi cũng muốn biết liệu có hiện tượng semantic bleeding giữa các tập dữ liệu khác nhau hay không — ví dụ “optimization” có thể được dùng khác nhau trong ArXiv, LessWrong và HN

    • Đúng vậy, đôi khi con người muốn độ chính xác và khả năng kiểm soát
      Bộ lập kế hoạch truy vấn SQL vẫn rất mạnh khi phải xử lý vô số view và index
      Chúng tôi cũng rất chú ý đến bảo mật và rate-limit, đồng thời chặn các join nguy hiểm bằng cách phân tích AST
      Claude có thể dùng tổ hợp vector trung tâm (centroid) để giảm khác biệt ngữ nghĩa giữa các miền khác nhau
      Ví dụ, có thể lấy trung bình embedding của từ “optimization” trong LessWrong và ArXiv để làm thí nghiệm so sánh
    • Tôi cũng đã làm một cách tiếp cận tương tự. Tôi biến lịch sử trò chuyện của Claude Code và Codex thành DB cục bộ để có thể truy vấn trực tiếp từ CLI
      Tôi đã ghi lại quá trình triển khai trong bài blog này
      Hiện tại là client cho macOS, nhưng engine cho Linux cũng đang được chuẩn bị
    • Tôi nghĩ chính cách tiếp cận này mới là “đổi mới thật sự sẽ còn lại ngay cả khi bong bóng AI xì hơi”
      Phạm vi ứng dụng của diễn giải và dịch ngôn ngữ tự nhiên là cực kỳ rộng
      Cuối cùng dòng vốn đầu tư cũng sẽ chuyển sang các công cụ thực dụng như thế này
    • Tôi chưa có thí nghiệm nào, nhưng theo kinh nghiệm của tôi, kích thước mô hình embedding ảnh hưởng đến mức độ tách biệt nghĩa của từ
      Mô hình càng lớn thì càng phân biệt tốt hơn các nghĩa khác nhau của cùng một từ
  • Dự án thật sự rất tuyệt. Tôi định dùng ngay nó để tìm các đa tạp Calabi–Yau trong nghiên cứu lý thuyết dây mà tôi đang làm
    Sau khi cùng Claude nghiên cứu, tôi đã tìm ra hai bài báo về flux vacua dùng thuật toán di truyền, và tổ hợp SQL + BM25 cho phép tìm kiếm rất tinh vi
    Tuy nhiên, việc escape dấu ngoặc kép trong bash khá phiền, và do giới hạn 100 kết quả của alignment.search(), tôi phải dùng search_exhaustive() mới lấy được kết quả đầy đủ

    • Tôi cũng đã dùng công cụ này để tìm hiểu nghiên cứu gần đây của DESI về sự biến thiên của năng lượng tối
      Claude đã phân tích kho ngữ liệu ExoPriors, rồi tổng hợp các bài báo và kết quả chính, qua đó gợi ý rằng kết quả của DESI có thể thay đổi hướng tìm kiếm trong lý thuyết dây
      Đặc biệt, bài arXiv:2511.23463 giải thích hiện tượng “phantom crossing” của năng lượng tối bằng sự trộn axion-dilaton
      Sắp tới tôi dự định mở rộng nghiên cứu theo hướng đưa các tham số (w₀, wₐ) vào hàm khớp, đồng thời thêm động lực học axion
      Bài liên quan: BBC đưa tin
  • Dùng cờ “dangerously-skip-permissions” cùng với văn bản không an toàn là rất nguy hiểm
    Đầu vào từ Internet có thể lẫn prompt injection, nên nhất định phải chạy trong môi trường sandbox

    • Hôm nay tôi cũng mới bắt đầu chạy Claude trong devcontainer, và đang tò mò không biết tùy chọn sandbox nào là đơn giản nhất
  • Tôi đang tìm cách truy vấn thông tin gene và protein trong Supplementary Material của các bài báo khoa học sự sống
    Hiện tại việc lập chỉ mục quá thiếu nhất quán, nên các hiểu biết rút ra từ nghiên cứu hệ gene suốt 15 năm qua đang bị chôn vùi
    Nếu tận dụng dữ liệu open access thì có vẻ cách tiếp cận này sẽ hiệu quả

    • Tôi cũng đã làm thứ tương tự — papers2dataset
      Nó dùng OpenAlex để lần theo đồ thị trích dẫn và phân tích các PDF open access
      Tôi dùng nó để tìm chất bảo vệ lạnh đông (cryoprotective agents) theo từng mức nhiệt độ, nhưng cũng có thể mở rộng cho bài toán của bạn
  • Những cách diễn đạt như “intelligence explosion”, “ARBITRARY SQL + VECTOR ALGEBRA” nghe giống thuật ngữ công nghệ cường điệu

    • Không phải cường điệu đâu. Bây giờ thật sự là thời kỳ bùng nổ trí tuệ phần mềm
      Nhờ Opus 4.5 và GPT-5.2-Codex-xhigh mà tốc độ phát triển đã tăng vọt
      Scry là công cụ duy nhất có thể chạy SQL tùy ý trên kho ngữ liệu quy mô lớn và cho phép tự do thử nghiệm tổ hợp vector
  • Kết hợp prompt và các tập dữ liệu bên ngoài hiện là kênh khám phá đơn giản mà mạnh mẽ nhất
    Giống như “curl | bash”, nó cho phép thử nghiệm rất nhanh

    • Đúng vậy. Tổ hợp Prompt + Tool + External Dataset có tiềm năng khổng lồ
  • Họ gọi đây là công cụ nghiên cứu “state-of-the-art”, nhưng tôi muốn biết cụ thể điều gì làm nó tối tân đến vậy

    • Vì quy mô. Có bao nhiêu công cụ cho phép truy vấn toàn văn mọi bài báo arXiv chứ
    • Chỉ là thuật ngữ marketing thôi. Đây không phải cách gọi được bảo hộ nên ai cũng có thể dùng
      Ví dụ, mô hình Gemma cũng từng được gọi là “state-of-the-art” dù hiệu năng thấp hơn đối thủ
      Juicero khi ra mắt cũng là tối tân thật, nhưng cuối cùng bóp tay còn tốt hơn
    • Công cụ thì tối tân, nhưng nguồn dữ liệu lại mang tính lịch sử
    • Tôi cũng tự hỏi liệu “tốt nhất” ở đây có phải chỉ vì nó là đầu tiên hay không
  • Hiện tôi đang phát triển một hệ thống nghiên cứu học thuật tự trị và có kế hoạch tích hợp dự án này
    Lúc này tôi đang dùng Edison Scientific API và prompt tùy chỉnh, nên muốn hỏi liệu có kế hoạch mã nguồn mở hay không
    Dự án liên quan: gia-agentic-short

    • Tôi muốn công khai mã nguồn mở, nhưng thành thật mà nói lúc này việc mưu sinh đang rất khó khăn
      Chỉ cần có $5,000 thì có lẽ tôi có thể công bố ngay