Mẹo tìm kiếm trên Internet

(gwern.net)

35 điểm bởi xguru 2021-04-26 | 1 bình luận | Chia sẻ qua WhatsApp

Tổng hợp từ những điều cơ bản đến các mẹo quan trọng để tìm kiếm thông tin như bài báo khoa học, trang web, sách trên Internet
Đây là bài viết do Gwern Branwen* thực hiện, người mà theo tiêu chuẩn cá nhân của tôi là chủ sở hữu website cá nhân xuất sắc nhất. Vì tôi chỉ chuyển lại một phần nên nhất định hãy xem bản gốc

[ Tìm kiếm bài báo khoa học ]

Cú pháp tìm kiếm: toán tử Boolean, các lệnh Google quan trọng (dấu ngoặc kép là khớp chính xác, dấu gạch nối là phủ định/loại trừ, site: là tìm trong một website cụ thể )
Thiết lập hotkey để tìm nhanh: AutoHotkey, Quicksilver, XMonad v.v.
Phím tắt trình duyệt web: C-l, C-PgUp/C-PgDwn, C-w, C-t/C-T, M-[1–9]
Xem bản HTML khi tìm kiếm bằng Google Scholar
Mẹo tìm theo tiêu đề bài báo

→ Cắt bớt tiêu đề hoặc dùng AND/OR và - để giảm số lượng kết quả

→ Thử thêm/xóa năm..

→ Dùng phạm vi ngày của Google

→ Thêm site:archive.org để tìm trên Internet Archive

Những trường hợp khó

→ Trích dẫn ngược (Reverse Citations): xem "related articles" và "cited by" trên Google Scholar

→ Luận văn thạc sĩ/tiến sĩ: ProQuest

→ Tìm kiếm hình ảnh ngược: dùng Google Images, TinEye, Yandex

Mẹo tìm kiếm theo từng miền

→ Twitter: dù Google cũng lập chỉ mục, nhưng nếu biết thêm thông tin thì tìm kiếm nâng cao của Twitter cũng rất xuất sắc (from:, to:, since:, until:, near:, url: ..)

→ Tòa án liên bang Hoa Kỳ: cần đăng ký Pacer. Có phí ($0.1/trang) nhưng miễn phí nếu tổng dưới $15. Cũng có mirror công khai tên là Recap. Có cả tiện ích mở rộng trình duyệt Recap

→ Thư viện Wellcome: có nhiều tạp chí/sách cũ. SEO quá tệ nên khó tìm qua Google v.v., nhưng vẫn nên xem kỹ

→ Tạp chí cũ: site:pdf-giant.net, tìm kiếm liên quan giáo dục thì dùng ERIC ( site:eric.ed.gov )

Vượt paywall

→ Với sách/bài báo khoa học có thể dùng Libgen / Sci-Hub để vượt qua. Có thể tìm toàn văn qua Z-Library

Những nơi có thể nhờ người khác giúp khi không thể tìm được bằng mọi cách ở trên

→ Subreddit: /r/scholar

→ Twitter: #icanhazpdf

→ Wikipedia Resource Request

→ LessWrong HelpDesk

Việc cần làm sau khi tìm được bản full-text

→ Không liên kết đến các host không đáng tin cậy: Libgen/Sci-Hub, Nber, Scribed, ResearchGate..

→ Nếu là bản scan thì chỉnh sửa & OCR bằng gscan2pdf

→ Thêm metadata: ExifTool, pdftk

→ Nếu có thể thì host công khai và chia sẻ liên kết trên Wikipedia/Reddit

→ Mẹo với liên kết PDF: có thể chỉ định trang bằng cách thêm #page=N vào cuối URL

Nâng cao

→ Dùng các Archiver-Bot để tự động lưu trữ lịch sử tìm kiếm

→ Tạo GCSE (Google Custom Search Engine)

[Trang web]

Nếu biết tiêu đề thì chỉ tìm theo tiêu đề
Khi tìm theo URL, hãy xóa các tham số không cần thiết
Khi tìm trên Google, dùng site: để giới hạn theo miền hoặc theo ngày
Dùng công cụ tìm kiếm khác ngoài Google

→ DuckDuckGo: tính năng Bangs cho phép tìm trực tiếp trên website bên ngoài (hiện hỗ trợ hơn 13000 website bên ngoài )

→ Bing/Yandex cũng hữu ích

Kiểm tra bản lưu trữ: Internet Archive hoặc meta-archive Memento

→ IA cung cấp tính năng kiểm tra URL cho toàn bộ domain. Có thể tải toàn bộ bằng wayback_machine_downloader (Ruby)

→ Trước khi Google Reader ngừng hoạt động, Archive Team đã sao lưu khá nhiều RSS của Google Reader và host chúng trên IA (cũng có thể làm bằng WARC, cuối bài có mẹo tải xuống & tìm kiếm)

→ archive.today: mirror tương tự IA

→ Nếu vẫn không được thì có thể dùng cả Google Cache

[ Sách số ]

Sách không có trên Google Scholar. Hãy dùng Google Search.
Trước tiên hãy tìm bằng filetype:pdf, sau đó dùng Libgen
IA cũng có nhiều sách nhưng có lẽ SEO không tốt nên khó tìm. "tên sách site:archive.org"

→ Nếu sách trên IA bị khóa DRM thì có thể dùng plugin De-DRM của Calibre

HathiTrust cũng có nhiều bản scan sách

→ Không thể tải toàn bộ trực tiếp nhưng có cách vòng qua bằng wget. Cách này cũng áp dụng được cho Wellcome Library

[ Sách in xuất bản ]

Tìm sách cũ qua Google Books hoặc find-more-books.com

→ eBay & Amazon không phù hợp để mua sách cũ. Chỉ nên xem thông tin

→ AbeBooks, Thrift Books, Better World Books, B&N v.v. phù hợp để mua hơn

Quét sách: mẹo về phá hủy vs không phá hủy, công cụ cắt, metadata và tạo PDF

Gwern Branwen là một nhà văn và nhà nghiên cứu tự do. Ông vận hành website cá nhân https://www.gwern.net/ và nó thực sự rất độc đáo

Theo tiêu chuẩn của tôi, đây là đỉnh của đỉnh trong số các trang web/blog cá nhân.

Ông đặc biệt giỏi chọn một chủ đề cụ thể rồi đào sâu, hệ thống hóa và đăng tải nó.

→ “Top 5 cuốn sách mà mọi người bỏ dở giữa chừng” tìm hiểu qua GoodReads https://vi.news.hada.io/topic?id=1231

1 bình luận

gguimoon 2021-04-28

Tôi cũng đề xuất bài "Mẹo tìm kiếm thông tin dành cho lập trình viên" đã được đăng trước đó. https://vi.news.hada.io/topic?id=2932

Mẹo tìm kiếm trên Internet

Bài viết liên quan

1 bình luận