- Một dự án DIY xây dựng công cụ tìm kiếm mang tên Searcha Page/Seek Ninja trên máy chủ cá nhân đặt trong phòng giặt, mang lại trải nghiệm tiệm cận Google
- Bắt đầu với chỉ mục khoảng 2 tỷ trang và đặt mục tiêu đạt 4 tỷ tài liệu trong nửa năm, kết hợp phương pháp lập chỉ mục truyền thống với mở rộng từ khóa và hiểu ngữ cảnh dựa trên LLM
- Tổng chi 5.000 USD cho hệ thống dùng linh kiện máy chủ cũ, cấu hình cỡ AMD EPYC 7532 (32 nhân)·RAM 0,5 TB, giúp giảm chi phí nhờ chiến lược kinh doanh chênh lệch giá nâng cấp (upgrade arbitrage)
- Giảm tối đa phụ thuộc vào đám mây nhưng vẫn dùng Llama 3 của SambaNova cho suy luận LLM; Seek Ninja là phiên bản ưu tiên quyền riêng tư, không lưu hồ sơ hay dùng vị trí
- Việc áp dụng AI giúp mở rộng với chi phí thấp; codebase 150.000 dòng của anh được LLM tăng tốc phát triển lặp, cho phép một người tự xây dựng hệ thống quy mô lớn
- Dù là cấu hình cá nhân, chi phí thấp, hệ thống vẫn đạt độ chính xác và tốc độ tốt cho tìm kiếm cục bộ; đồng thời cho thấy tiềm năng thử nghiệm của tìm kiếm thay thế, chẳng hạn cân nhắc chuyển sang colocated hosting khi lưu lượng tăng
Bối cảnh: trải nghiệm tìm kiếm ‘gần như Google’ với phần cứng nhỏ
- Đối chiếu với lịch sử Google khởi đầu từ máy chủ vỏ Duplo thời Stanford, đây là ví dụ cho thấy chỉ với một máy chủ cũ cũng có thể tiến gần tới trải nghiệm tìm kiếm hiện đại
- Cách đây 30 năm, Google bắt đầu từ Backrub trong khuôn viên Stanford, dùng một máy chủ thử nghiệm chứa 40 GB dữ liệu trong bộ vỏ làm bằng khối Duplo
- Sau đó hệ thống được nâng lên thành một rack máy chủ nhỏ nhờ tài trợ từ IBM và Intel, nhưng đến năm 2025, Google Search đã lớn đến mức không thể chứa trong chỉ một trung tâm dữ liệu
- Searcha Page của Ryan Pearce hiện thực hóa trải nghiệm tìm kiếm hiện đại bằng một cỗ máy có kích thước tương đương máy chủ Google thời đầu
- Máy chủ được đặt cạnh máy giặt và máy sấy, sau khi được chuyển ra khỏi phòng ngủ để giảm vấn đề nhiệt và tiếng ồn
- Dù bị giới hạn bởi môi trường phòng giặt, chất lượng kết quả tìm kiếm thực tế vẫn được đánh giá là thuộc nhóm khá cao theo cảm nhận sử dụng
- Quy mô chỉ mục hiện ở mức khoảng 2 tỷ tài liệu và được dự báo đạt 4 tỷ tài liệu trong 6 tháng
- Mốc so sánh: Google năm 1998 có 24 triệu trang, năm 2020 có 400 tỷ trang
- Dù quy mô tuyệt đối còn nhỏ, đây vẫn là mức rất lớn đối với một máy chủ tự lưu trữ duy nhất
Công nghệ cốt lõi: lập chỉ mục truyền thống + LLM hỗ trợ
- Kiến trúc tổng thể đi theo cấu trúc công cụ tìm kiếm truyền thống, nhưng dùng LLM để hỗ trợ mở rộng từ khóa và đánh giá ngữ cảnh theo thiết kế lai
- Điều này gợi lại lịch sử AI đã được tích hợp vào các công cụ tìm kiếm lớn như RankBrain, đồng thời nhấn mạnh rằng dù có phản cảm với LLM, AI từ lâu đã là yếu tố cốt lõi của tìm kiếm
- LLM được dùng như công cụ thực dụng để tăng tốc độ phát triển và khả năng mở rộng trong xây dựng bộ dữ liệu và ngữ cảnh hóa
- Người vận hành ban đầu triển khai bằng LLM rồi thay thế bằng logic truyền thống trong quá trình phát triển lặp, mở rộng codebase lên khoảng 150.000 dòng
- Nếu tính cả các vòng lặp phát triển, khối lượng công việc thực tế được ước tính tương đương 500.000 dòng
Hạ tầng: tự lập chỉ mục và ‘chênh lệch giá nâng cấp’ từ máy chủ cũ
- Thiết bị là máy chủ cũ dựa trên AMD EPYC 7532 (32 nhân), tận dụng mạnh việc giá giảm khi CPU từng có giá hơn 3.000 USD lúc ra mắt nay được giao dịch dưới 200 USD
- Tổng chi phí dựng hệ thống vào khoảng 5.000 USD, trong đó khoảng 3.000 USD dành cho lưu trữ
- Cấu hình như RAM 0,5 TB giúp hệ thống đủ sức xử lý hàng trăm phiên đồng thời
- Duy trì định hướng tự lưu trữ (self-hosting) để giảm tối đa dùng cloud, nhưng riêng suy luận LLM thì truy cập chi phí thấp, tốc độ cao qua SambaNova (Llama 3)
- Tận dụng các web corpus công khai như Common Crawl để tăng tốc crawler và indexer, đồng thời có kế hoạch giảm dần phụ thuộc về lâu dài
Sản phẩm: Searcha Page và Seek Ninja
- Searcha Page: UX SERP truyền thống tương tự Google, vẫn cho kết quả hiệu quả cả ở tìm kiếm cục bộ
- Thay vì meta description, hệ thống dùng tóm tắt bằng LLM để tăng cường phần giải thích mức độ liên quan giữa truy vấn và tài liệu
- Seek Ninja: biến thể ưu tiên quyền riêng tư, không lưu hồ sơ và không dùng vị trí
- Cách tiếp cận nhẹ và tối giản, phù hợp dùng thay cho chế độ ẩn danh
- Về kiếm tiền, dự án đang thử nghiệm quảng cáo liên kết ở mức vừa phải thay vì banner dày đặc, và có kế hoạch chuyển sang colocation khi lưu lượng tăng mạnh
Trường hợp so sánh: hướng tiếp cận cloud và vector của Wilson Lin
- Trong một thử nghiệm cá nhân cùng thời khác, Wilson Lin theo đuổi chiến lược cloud-native kết hợp engine vector riêng (CoreNN) để vận hành ở chi phí siêu thấp
- Anh tạo tóm tắt bằng LLM cho từng tài liệu để biểu diễn ghép nối truy vấn - tài liệu theo cách khác
- Mục tiêu chung là nhận thức rằng rào cản lớn hơn nằm ở thị trường và kênh phân phối, chứ không chỉ ở công nghệ
- Pearce từng thử vector DB nhưng nhận thấy kết quả mơ hồ, mang tính “nghệ thuật” đến mức thiếu chính xác, nên quay lại kỹ thuật truyền thống xét về độ chính xác xếp hạng
Vấn đề vận hành: nhiệt, tiếng ồn và giới hạn vật lý của phòng giặt
- Máy chủ từng gây phiền toái sinh hoạt do nhiệt trong phòng ngủ, nên được chuyển sang phòng tiện ích, với các lỗ đi dây để đảm bảo kết nối
- Nếu đóng cửa quá lâu, nhiệt tích tụ có thể trở thành vấn đề, nên thông gió là yếu tố quan trọng
- Dù có xu hướng hoài nghi cloud, anh vẫn đang cân nhắc chuyển sang colocate tại trung tâm dữ liệu theo kiểu kích hoạt theo ngưỡng, xét đến giới hạn của LLM và lưu lượng truy cập
Ý nghĩa: thử nghiệm một người đuổi theo Google và vai trò thực tế của LLM
- Trái với quan niệm rằng LLM là công cụ làm hỏng chất lượng tìm kiếm, ở đây nó là phương tiện thực tế giúp cá nhân có được năng lực xây dựng công cụ tìm kiếm như một bộ tăng tốc phát triển và mở rộng
- Lập chỉ mục truyền thống + LLM hỗ trợ là phương án thỏa hiệp thực dụng nhằm theo đuổi đồng thời độ chính xác và khả năng giải thích
- Tổ hợp máy chủ cũ giá rẻ + corpus công khai + API LLM chi phí thấp chứng minh rằng có thể thử nghiệm tìm kiếm thay thế mà không cần nguồn lực Big Tech quy mô lớn
- Dù vẫn còn những thách thức như mở rộng sang nhiều ngôn ngữ, chi phí crawl liên tục hay khả năng chống spam, đây vẫn là ví dụ cho thấy năng lực cạnh tranh thử nghiệm trong các lĩnh vực tìm kiếm ngách và ưu tiên quyền riêng tư
Chưa có bình luận nào.