Sự phát triển của công cụ tìm kiếm Marginalia
- Khi mới bắt đầu, Marginalia Search là một thử nghiệm nhỏ, nhưng hiện nay đã trở thành một dự án toàn thời gian.
- Công cụ tìm kiếm hiện đang hoạt động tốt nhất từ trước đến nay và đã đạt được nhiều cột mốc quan trọng.
- Công cụ tìm kiếm đã rời khỏi phòng khách và được chuyển sang một máy chủ enterprise đúng nghĩa.
Sắp xếp lại codebase và tinh gọn ứng dụng
- Chủ đề chính của năm nay là dọn dẹp codebase và tinh gọn ứng dụng.
- Trọng tâm là giữ gánh nặng vận hành ở mức có thể quản lý được, đồng thời giúp người khác dễ tiếp cận ứng dụng và codebase hơn.
- Việc này đòi hỏi rất nhiều công sức, nhưng giờ đã bắt đầu thấy thành quả.
Cải thiện vận hành
- Trước đây, mỗi lần chuyển đổi chỉ mục đều cần vài ngày gián đoạn, nhưng giờ điều đó không còn nữa.
- Gần đây, việc nâng cấp không downtime cũng đã trở nên khả thi.
- Ở khía cạnh vận hành, những việc trước kia cần nhiều tuần quy trình thủ công giờ đã được thay thế bằng việc bấm nút trong GUI.
Bổ sung hỗ trợ từ khóa anchor text
- Việc bổ sung hỗ trợ từ khóa anchor text đã tạo ảnh hưởng lớn đến khả năng tìm ra các kết quả liên quan của công cụ tìm kiếm.
- Khi thay đổi này mới được thực hiện, nó chưa hòa nhập tốt nên chưa thể hiện ngay lập tức, nhưng khi tín hiệu liên quan mới bắt đầu ổn định, đã xuất hiện những khoảnh khắc đầy bất ngờ.
Chuyển sang làm toàn thời gian
- Nhờ sự tài trợ của NLnet, dự án đã chuyển sang làm toàn thời gian từ khoảng 8 tháng trước.
- Phần khó nhất là không làm việc quá nhiều, và tác giả cố gắng nghỉ ít nhất một ngày mỗi tuần.
- Vì biết rằng khi được nghỉ ngơi đầy đủ thì bản thân sẽ minh mẫn hơn, nên về mặt lý thuyết, thỉnh thoảng nghỉ ngơi là điều quan trọng để làm việc tốt hơn.
Mục tiêu lập chỉ mục 1 tỷ tài liệu
- Hành trình hướng tới mục tiêu lập chỉ mục 1 tỷ tài liệu vẫn đang tiến triển chậm rãi.
- Không phải vì phần mềm không xử lý được, mà vì tỷ lệ tín hiệu trên nhiễu của web quá kém nên khó hơn dự kiến.
- Một trong những lý do lớn khiến công cụ tìm kiếm hoạt động tương đối tốt là vì những gì nó không lập chỉ mục.
- Một năm trước, chỉ mục ở mức từ 50 triệu đến 100 triệu, nhưng trong đợt crawl gần nhất đã đạt 220 triệu, và dự kiến khi vòng crawl tiếp theo kết thúc sẽ ở mức 290 đến 300 triệu.
Cải thiện phân tích và thực thi truy vấn
- Vẫn còn rất nhiều dư địa để cải thiện trong lĩnh vực phân tích và thực thi truy vấn.
- Đã bắt tay vào công việc chuẩn bị nhằm dọn dẹp phần mã bị ảnh hưởng trước khi bắt đầu công việc thực sự.
- Những bước nhảy vọt lớn trong dự án luôn mang tính thử nghiệm; có những điều đã được lên kế hoạch, nhưng có vẻ những điều chưa được lên kế hoạch mới thực sự tạo ra tác động lớn.
Lời cảm ơn
- Xin cảm ơn NLnet, FUTO, các nhà tài trợ trên Patreon, những người ủng hộ và người dùng.
- Nếu không có sự hỗ trợ của họ, tất cả những điều này đã không thể thành hiện thực.
Ý kiến của GN⁺
- Công cụ tìm kiếm Marginalia là một ví dụ về việc khởi đầu từ một thử nghiệm nhỏ rồi phát triển thành một dự án toàn thời gian nhờ cải tiến liên tục và sự hỗ trợ của cộng đồng.
- Những cải tiến chức năng như hỗ trợ từ khóa anchor text đã trở thành thay đổi quan trọng giúp nâng cao đáng kể hiệu năng của công cụ tìm kiếm.
- Dự án này mang lại cơ hội hợp tác và đóng góp cho cộng đồng mã nguồn mở và các nhà phát triển, đồng thời góp phần vào sự phát triển của công nghệ công cụ tìm kiếm.
1 bình luận
Ý kiến trên Hacker News