1 điểm bởi GN⁺ 2024-02-26 | 1 bình luận | Chia sẻ qua WhatsApp

Sự phát triển của công cụ tìm kiếm Marginalia

  • Khi mới bắt đầu, Marginalia Search là một thử nghiệm nhỏ, nhưng hiện nay đã trở thành một dự án toàn thời gian.
  • Công cụ tìm kiếm hiện đang hoạt động tốt nhất từ trước đến nay và đã đạt được nhiều cột mốc quan trọng.
  • Công cụ tìm kiếm đã rời khỏi phòng khách và được chuyển sang một máy chủ enterprise đúng nghĩa.

Sắp xếp lại codebase và tinh gọn ứng dụng

  • Chủ đề chính của năm nay là dọn dẹp codebase và tinh gọn ứng dụng.
  • Trọng tâm là giữ gánh nặng vận hành ở mức có thể quản lý được, đồng thời giúp người khác dễ tiếp cận ứng dụng và codebase hơn.
  • Việc này đòi hỏi rất nhiều công sức, nhưng giờ đã bắt đầu thấy thành quả.

Cải thiện vận hành

  • Trước đây, mỗi lần chuyển đổi chỉ mục đều cần vài ngày gián đoạn, nhưng giờ điều đó không còn nữa.
  • Gần đây, việc nâng cấp không downtime cũng đã trở nên khả thi.
  • Ở khía cạnh vận hành, những việc trước kia cần nhiều tuần quy trình thủ công giờ đã được thay thế bằng việc bấm nút trong GUI.

Bổ sung hỗ trợ từ khóa anchor text

  • Việc bổ sung hỗ trợ từ khóa anchor text đã tạo ảnh hưởng lớn đến khả năng tìm ra các kết quả liên quan của công cụ tìm kiếm.
  • Khi thay đổi này mới được thực hiện, nó chưa hòa nhập tốt nên chưa thể hiện ngay lập tức, nhưng khi tín hiệu liên quan mới bắt đầu ổn định, đã xuất hiện những khoảnh khắc đầy bất ngờ.

Chuyển sang làm toàn thời gian

  • Nhờ sự tài trợ của NLnet, dự án đã chuyển sang làm toàn thời gian từ khoảng 8 tháng trước.
  • Phần khó nhất là không làm việc quá nhiều, và tác giả cố gắng nghỉ ít nhất một ngày mỗi tuần.
  • Vì biết rằng khi được nghỉ ngơi đầy đủ thì bản thân sẽ minh mẫn hơn, nên về mặt lý thuyết, thỉnh thoảng nghỉ ngơi là điều quan trọng để làm việc tốt hơn.

Mục tiêu lập chỉ mục 1 tỷ tài liệu

  • Hành trình hướng tới mục tiêu lập chỉ mục 1 tỷ tài liệu vẫn đang tiến triển chậm rãi.
  • Không phải vì phần mềm không xử lý được, mà vì tỷ lệ tín hiệu trên nhiễu của web quá kém nên khó hơn dự kiến.
  • Một trong những lý do lớn khiến công cụ tìm kiếm hoạt động tương đối tốt là vì những gì nó không lập chỉ mục.
  • Một năm trước, chỉ mục ở mức từ 50 triệu đến 100 triệu, nhưng trong đợt crawl gần nhất đã đạt 220 triệu, và dự kiến khi vòng crawl tiếp theo kết thúc sẽ ở mức 290 đến 300 triệu.

Cải thiện phân tích và thực thi truy vấn

  • Vẫn còn rất nhiều dư địa để cải thiện trong lĩnh vực phân tích và thực thi truy vấn.
  • Đã bắt tay vào công việc chuẩn bị nhằm dọn dẹp phần mã bị ảnh hưởng trước khi bắt đầu công việc thực sự.
  • Những bước nhảy vọt lớn trong dự án luôn mang tính thử nghiệm; có những điều đã được lên kế hoạch, nhưng có vẻ những điều chưa được lên kế hoạch mới thực sự tạo ra tác động lớn.

Lời cảm ơn

  • Xin cảm ơn NLnet, FUTO, các nhà tài trợ trên Patreon, những người ủng hộ và người dùng.
  • Nếu không có sự hỗ trợ của họ, tất cả những điều này đã không thể thành hiện thực.

Ý kiến của GN⁺

  • Công cụ tìm kiếm Marginalia là một ví dụ về việc khởi đầu từ một thử nghiệm nhỏ rồi phát triển thành một dự án toàn thời gian nhờ cải tiến liên tục và sự hỗ trợ của cộng đồng.
  • Những cải tiến chức năng như hỗ trợ từ khóa anchor text đã trở thành thay đổi quan trọng giúp nâng cao đáng kể hiệu năng của công cụ tìm kiếm.
  • Dự án này mang lại cơ hội hợp tác và đóng góp cho cộng đồng mã nguồn mở và các nhà phát triển, đồng thời góp phần vào sự phát triển của công nghệ công cụ tìm kiếm.

1 bình luận

 
GN⁺ 2024-02-26
Ý kiến trên Hacker News
  • Một người dùng đã đánh dấu trang web này để tìm các tài liệu rất chuyên biệt về mô hình hóa số. Họ tìm thấy tài liệu về các bộ giải, tạo lưới và phương pháp tối ưu hóa từ thập niên 80 và 90 mà Google không thể tìm ra, đồng thời phát hiện những trang do các chuyên gia viết mà Google không bao giờ đưa ra, nên cảm thấy nó cực kỳ giá trị.
  • Tỷ lệ tín hiệu trên nhiễu của web không tốt nên họ đang gặp nhiều khó khăn hơn dự kiến. Một trong những lý do khiến công cụ tìm kiếm hoạt động tương đối tốt là vì có những thứ chúng không lập chỉ mục.
  • Một người dùng nói rằng họ đã tìm thấy một trang web ngẫu nhiên chứa bản vá nhị phân cho C&C Tiberian Sun để hỗ trợ IPv6, khiến họ nhớ về web thời xưa. Điều này gợi họ nhớ đến Searchlores của Fravia, và nói rằng nếu Umberto Eco quan tâm đến máy tính thì cảm giác có lẽ sẽ như vậy. Nó giống như tìm thấy thứ gì đó kỳ diệu trong mê cung thư viện của 'Tên của đóa hồng', rồi sau đó mãi mãi đánh mất nó.
  • Một người dùng khác nói rằng nó mang lại cảm giác như thời xưa. Năm 1998, ngay cả với AltaVista họ cũng không thể tìm được sự khác biệt giữa sách và phim "Phía Tây không có gì lạ", nhưng giờ đây có thể tìm thấy vô số trang blog cá nhân, luận văn đại học, trang mã nguồn, thảo luận mailing list, blog, nhóm thảo luận Rust, website cá nhân và các cuộc trao đổi chuyên môn về chủ đề đó.
  • Một người dùng nói họ đã rất ngạc nhiên khi tìm kiếm "transformers intuition"; trong khi kết quả của Google chỉ toàn các website tối ưu SEO (chủ yếu là Medium) và những trang hào nhoáng nhưng nội dung kém chất lượng, thì kết quả từ công cụ tìm kiếm này lại rất ấn tượng.
  • Một người dùng tự hỏi liệu Common Crawl có hữu ích hay không. Hiện dữ liệu vào khoảng 100TB với 3,35 tỷ trang, nên sẽ mất rất lâu để tải về nếu không xử lý trực tiếp trên S3, và họ cũng không rõ tỷ lệ tín hiệu trên nhiễu sẽ ra sao.
  • Có người đặt câu hỏi về tính năng "random site". Họ kỳ vọng nó sẽ lấy mẫu đồng đều, nhưng có vẻ một số trang nhất định lặp đi lặp lại nhiều lần.
  • Một người dùng nói rằng vì đã quen với Google nên họ không dùng thường xuyên, nhưng vẫn cho rằng Marginalia là một dự án tuyệt vời, và trong bối cảnh các trang spam SEO cùng câu trả lời do AI tạo ra ngày càng phổ biến, có lẽ họ sẽ dùng nó nhiều hơn trong tương lai.
  • Cuối cùng, một người dùng cho biết họ đã thử so sánh với kết quả tìm kiếm Google gần đây: kết quả cho truy vấn về điểm thấp nhất trong cricket Test của Ấn Độ là không tốt, kết quả cho RAID calculator thì tạm ổn nhưng lẫn nhiều nhiễu, còn tìm kiếm về sự khác biệt giữa phim và sách "Phía Tây không có gì lạ" thì hoàn toàn không có kết quả.