- Dự án nền tảng web sử dụng Claude Code để tự động khám phá mối liên hệ giữa các chủ đề trong 100 cuốn sách
- Phân tích các khái niệm trong từng cuốn sách và trực quan hóa thành hơn 40 kết nối theo chủ đề (trail) như ‘Useful Lies’, ‘Invisible Crack’, ‘Name Game’
- Mỗi trail kết nối chéo các khái niệm thuộc nhiều lĩnh vực như tâm lý học, công nghệ, tổ chức, sáng tạo, tư duy hệ thống
- Người dùng có thể nhấp vào từng trail để khám phá các cuốn sách liên quan và khái niệm cốt lõi (ví dụ: Self-deception, Innovation, Tacit knowledge)
- Đề xuất một cách đọc và nghiên cứu mới, trong đó AI khám phá có cấu trúc các mối quan hệ giữa tri thức
Tổng quan dự án
- Trails là một hệ thống dùng Claude Code để phân tích nội dung của nhiều cuốn sách và tự động rút ra các chủ đề chung hoặc kết nối khái niệm
- Kết quả được trực quan hóa thành các mối liên hệ theo chủ đề giữa các cuốn sách dưới dạng “trail”
- Mỗi trail kết nối ý tưởng từ nhiều cuốn sách xoay quanh một khái niệm cụ thể
Ví dụ các trail tiêu biểu
- Useful Lies: nói về hành vi con người khi sử dụng sự tự lừa dối như một chiến lược
- Khái niệm liên quan: Self-deception, Evolutionary psychology, Blue lies
- Invisible Crack: hiện tượng các khiếm khuyết nhỏ tích tụ và dẫn đến thất bại mang tính thảm họa
- Khái niệm liên quan: Brittle fracture, Metal fatigue, Gradual change
- Ideas Mate: quyền sở hữu trí tuệ yếu hơn giúp tăng tốc đổi mới thông qua sao chép mang tính hợp tác
- Khái niệm liên quan: Innovation spillover, Japanese copying, Open source
- Desperate Pivots: các trường hợp sự cấp bách dẫn tới những bước chuyển đổi mang tính đổi mới
- Khái niệm liên quan: Odeo reinvention, Startup pivot, Hindsight bias
- Expert Intuition: chuyên môn vận hành như tri thức trực giác vượt ra ngoài tư duy có ý thức
- Khái niệm liên quan: Tacit knowledge, Mētis knowledge, Intuition
Sự đa dạng trong kết nối tri thức
- Các trail bao phủ nhiều lĩnh vực rộng lớn như công nghệ, tổ chức, tâm lý, kinh tế, sáng tạo
- Ví dụ: Proxy Trap (cái bẫy của việc tối ưu hóa chỉ số), Legibility Tax (cái giá của sự chuẩn hóa), Joy Dividend (năng suất đến từ niềm vui)
- Mỗi trail gồm 3–4 từ khóa cốt lõi, giúp người dùng trực quan khám phá quan hệ giữa các khái niệm
- Thông qua khám phá trực quan và theo chủ đề, người đọc có thể kết nối ý tưởng từ các cuốn sách trong những bối cảnh mới
Đặc điểm kỹ thuật
- Claude Code phân tích nội dung từng cuốn sách và tạo kết nối dựa trên độ tương đồng ngữ nghĩa
- Kết quả được cung cấp qua giao diện dựa trên liên kết, cho phép người dùng khám phá theo từng chủ đề
- Mỗi trang trail gồm một câu tóm tắt ngắn và các thẻ khái niệm liên quan
Ý nghĩa
- Một thử nghiệm về việc AI tự động khám phá các quan hệ cấu trúc của tri thức
- Công cụ giúp độc giả và nhà nghiên cứu kết nối ý tưởng từ các lĩnh vực khác nhau, mở rộng phạm vi tư duy
- Gợi mở một dạng trải nghiệm đọc tích hợp mới thông qua sự kết hợp giữa dữ liệu từ sách và phân tích AI
1 bình luận
Ý kiến Hacker News
Bản thân tác phẩm thì đẹp, nhưng đầu ra dữ liệu thực tế có vẻ hầu như vô dụng
Cảm giác như đã giao phó quá nhiều tư duy phản biện cho mô hình thống kê
Tôi cũng đã thử nghiệm nhiều LLM cao cấp trong thời gian dài, nhưng việc tìm ra những “mối liên kết vô hình” giữa các văn bản thì vẫn chưa khả thi. Trực giác con người vẫn cần thiết
Thật sự là một công việc rất ấn tượng. Về mặt hình ảnh cũng đạt mức độ hoàn thiện đáng kinh ngạc
Là một thử nghiệm tuyệt vời, nhưng giống như những người khác, tôi cũng không thấy rõ các liên kết thực chất giữa các văn bản
Ví dụ, mối liên hệ giữa Jobs và The Elephant in the Brain là thứ LLM không nắm bắt được, nhưng con người có thể dễ dàng nhận ra — ở chỗ sự tự lừa dối vận hành như một chiến lược, hai nhân vật này khá giống nhau
Cụm “Thanos committing fraud” nằm trong mục “useful lies” khiến tôi thấy khó hiểu
Trong bối cảnh nhà sáng lập đang ở tù, việc coi lời nói dối đó là ‘hữu ích’ thật kỳ lạ. Có vẻ AI đã phân loại cẩu thả
Tôi cũng từng dùng Claude Code để thử “đọc” các dự án GitHub mà mình không hiểu rõ
Trong lúc lần theo một dự án đang thịnh hành bằng tiếng Nga, tôi phát hiện ra GoodbyeDPI, rồi bị cuốn vào thế giới của deep packet inspection
Tôi không hiểu những đường nối giữa hai văn bản. Phần lớn trông như những đường nối vô nghĩa
Ở mục “Father wound”, “abandoned at birth” và “did not” lại được nối với nhau, nên tôi thấy nó chỉ như trang trí thị giác
Tôi cũng đã làm một dự án tương tự
Tôi dùng pdfplumber để trích xuất văn bản từ PDF rồi đưa vào PostgreSQL, sau đó chunking theo đơn vị 100 ký tự và tạo embedding 384 chiều bằng sentence_transformers
Tiếp theo, tôi dùng UMAP + HDBScan để giảm chiều và phân cụm, rồi trực quan hóa bằng Plotly, và có thể thấy rõ các cụm theo chủ đề
Tôi thiết lập môi trường bằng Docker Compose và chuyển sang web UI dựa trên Flask. Sau khi dọn dẹp mã, tôi dự định công bố mã nguồn mở
Trước đây tôi từng đọc một cuốn sách về “nhân văn số”, và khái niệm “distant reading” để lại ấn tượng mạnh
Đây là cách dùng máy tính để phân tích hàng trăm đến hàng nghìn văn bản nhằm rút ra những hiểu biết vĩ mô
Một người bạn đã tự triển khai kiểu phân tích này bằng Python trong bài nghiên cứu của mình, và thực sự rất thú vị
Giờ đây nhờ có LLM, cách tiếp cận này còn dễ hơn nữa, và bạn có thể thử ngay cả khi không biết viết mã
Có thể xem khái niệm liên quan tại wiki Distant reading
Ý tưởng thì hay, nhưng sự kết nối giữa chủ đề và tự sự của từng cuốn sách còn yếu
Một số chỗ có vẻ như chỉ nhìn một đoạn văn rồi suy ra chủ đề tổng thể
Có lẽ nếu lặp prompt nhiều lần hoặc thêm quy trình trích xuất nhiều bước thì kết quả sẽ tinh tế hơn
Như câu trích của Deleuze, có thể xem cuốn sách là một ‘cỗ máy vận hành’ hoặc một ‘chiếc hộp ý nghĩa’
Deleuze cũng là một nhà tư tưởng chịu ảnh hưởng từ người khác, và tôi cho rằng nỗ lực của dự án này trái lại vẫn có ý nghĩa
Chỉ là với người thực sự đã đọc văn bản, kết quả có thể tạo cảm giác không chính xác