Bách khoa toàn thư cá nhân

(whoami.wiki)

18 điểm bởi GN⁺ 2026-03-26 | 1 bình luận | Chia sẻ qua WhatsApp

Trong quá trình sắp xếp 1.351 bức ảnh gia đình tìm thấy ở nhà bà, tác giả đã xây dựng một wiki cá nhân dựa trên MediaWiki để cấu trúc hóa ký ức
Bằng định dạng wiki, tác giả liên kết ảnh, nhân vật và sự kiện, rồi tái dựng lịch sử gia đình và lịch sử cá nhân dưới dạng các bài viết
Sau đó, tác giả tiếp tục tích hợp nhiều dấu vết số như Google Photos, lịch sử vị trí, giao dịch tài chính, dữ liệu nhận diện âm nhạc và thử nghiệm tạo trang tự động bằng Claude Code và các mô hình ngôn ngữ
Trong quá trình này, mô hình khôi phục những khoảng trống của ký ức và tái tổ chức thành dòng tự sự dựa trên dữ liệu cho các cuộc trò chuyện, chuyến đi và tình bạn
Cuối cùng, dự án phát triển thành dự án mã nguồn mở whoami.wiki, đề xuất một hệ thống để mỗi cá nhân có thể khám phá và sở hữu dữ liệu của mình như một bách khoa toàn thư

Khởi đầu của dự án bách khoa toàn thư cá nhân

Trong lần đầu tiên trở lại nhà bà sau đại dịch, tác giả phát hiện 1.351 bức ảnh cũ và bắt đầu công việc sắp xếp
- Các bức ảnh bao quát từ thời trẻ của ông bà đến thời học cấp hai của chính tác giả
- Việc phân loại ban đầu được thực hiện dựa trên các thuộc tính vật lý như loại phim hay tỷ lệ ảnh
Trong lúc sắp xếp ảnh, những mảnh ký ức rời rạc dần hiện ra, nhưng thứ tự và bối cảnh vẫn chưa rõ ràng
- Vì đây là ảnh từ thời chưa có siêu dữ liệu EXIF nên rất khó xác định trình tự thời gian
Khi cùng bà sắp xếp lại ảnh, tác giả ghi lại ký ức kể miệng về thời điểm đám cưới
- Tên nhân vật và các sự kiện được ghi chú lại, một số được xác nhận là họ hàng thời trẻ
Sau khi sắp xếp tư liệu, tác giả chạy MediaWiki trên máy cục bộ và biên tập theo đúng định dạng Wikipedia
- Các trang được viết có cấu trúc với hộp thông tin, nội dung chính, chú thích ảnh, liên kết đến nhân vật
- Các nội dung liên quan như sửa đổi luật pháp, nghi lễ, địa điểm được liên kết tới các trang Wikipedia thực tế

Tái cấu trúc ký ức bằng phần mềm wiki

Chỉ trong hai ngày, tác giả đã sắp xếp bối cảnh lịch sử của các bức ảnh thành những bài viết hoàn chỉnh
- Điều này khiến tác giả cảm nhận rõ wiki là một công cụ mạnh mẽ để lưu giữ tri thức và phương tiện truyền thông
Sau đó, trong nhiều tháng, toàn bộ ảnh gia đình tiếp tục được mở rộng thành các trang wiki
- Tác giả nhận lời khuyên từ cộng đồng r/genealogy để cải thiện cách ghi chép lịch sử truyền miệng
- Phiên âm giọng nói và mô hình ngôn ngữ được dùng để nâng cao hiệu quả biên tập
Nhờ định dạng wiki, tác giả dễ dàng nắm được mối liên kết giữa các sự kiện và nhân vật
- Ví dụ, tác giả phát hiện ca sĩ trong đám cưới của ông bà lại chính là y tá đã đỡ đẻ cho mình

Kết hợp dữ liệu số và mô hình ngôn ngữ

Sau đó, dự án được mở rộng sang ảnh số trong Google Photos
- Có thể tận dụng ngày tháng, thời gian và thông tin vị trí từ siêu dữ liệu EXIF
Với 625 bức ảnh từ chuyến du lịch gia đình năm 2012, tác giả yêu cầu Claude Code tạo các trang wiki
- Mô hình tham chiếu các bảng contact sheet được tạo bằng ImageMagick để duyệt ảnh
- Chỉ với thông tin hình ảnh và dấu thời gian, mô hình đã tái dựng được địa điểm và hoạt động
- Bao gồm cả mô tả chi tiết như phương tiện di chuyển, nơi đã ghé thăm và nhận diện nhân vật
Tác giả bổ sung danh sách các giai thoại cá nhân vào bản nháp đã tạo để hoàn thiện mạch tự sự

Thử nghiệm tích hợp dữ liệu phức hợp

Dự án tiếp tục mở rộng với dữ liệu chuyến đi đến Mexico City năm 2022
- Tích hợp 291 ảnh, 343 video, cùng lịch sử vị trí Google Maps, hành trình Uber, giao dịch ngân hàng và bản ghi Shazam
Các tác vụ chính mà Claude Code thực hiện
1. Phân tích chéo giao dịch ngân hàng và dữ liệu vị trí để xác định các nhà hàng đã ghé thăm
2. Dùng lịch sử thanh toán vé để nhận diện các đội bóng và tên giải đấu của trận bóng đá
3. Dùng lịch sử di chuyển Uber để xác định thời gian và địa điểm di chuyển
4. Dùng bản ghi Shazam để mô tả thể loại nhạc theo từng địa điểm
5. Tìm cảnh chơi guitar trong bữa tối từ các khung hình video và chèn vào trang
Các tính năng trang thảo luận, danh mục và lịch sử chỉnh sửa của MediaWiki cũng được tận dụng nguyên vẹn
- Mỗi khi có dữ liệu mới được thêm vào, lịch sử chỉnh sửa được tích lũy như một biên tập viên wiki thực thụ

Biến dữ liệu cá nhân thành bách khoa toàn thư

Theo thời gian, mô hình chuyển sang vai trò lấp đầy những khoảng trống của ký ức
- Bằng cách phân tích chéo nhiều nguồn dữ liệu, mô hình khôi phục lại những sự thật đã bị lãng quên
Tác giả phân tích khoảng 100.000 tin nhắn và ghi chú thoại từ kho lưu trữ Facebook, Instagram và WhatsApp
- Từ các cuộc trò chuyện với bạn bè, mô hình trích xuất diễn tiến của tình bạn và các sự kiện trong cuộc đời rồi cấu thành trang
- Bạn bè của tác giả đọc những trang này và bị cuốn hút tới mức đọc ngấu nghiến toàn bộ nội dung
Quảng cáo
Qua quá trình đó, dự án không còn chỉ là dự án lịch sử gia đình mà đã phát triển thành việc xây dựng một bách khoa toàn thư cá nhân (personal encyclopedia)
- Một hệ thống tự ghi chép có cấu trúc, liên kết chặt chẽ và dựa trên dữ liệu đã được hoàn thiện

Công bố dự án whoami.wiki

Từ những trải nghiệm này, tác giả đã công bố mã nguồn mở whoami.wiki
- Dựa trên MediaWiki, dự án tự động tạo các trang wiki từ dữ liệu cá nhân
- Người dùng cung cấp dữ liệu xuất của mình, và mô hình ngôn ngữ sẽ viết bản nháp
- Chạy cục bộ, giữ quyền sở hữu dữ liệu, bảo đảm tính độc lập với mô hình
Mọi chủ đề như đám cưới, bạn bè, chuyến đi của cá nhân đều có thể được ghi lại theo cùng định dạng như wiki công cộng
Trải nghiệm khám phá các trang đã hoàn thiện mang lại niềm vui gợi nhớ đến Facebook Timeline thời kỳ đầu
Điều quan trọng hơn công nghệ là sự tái khám phá con người và ký ức
- Khi ghi lại cuộc đời của bà, tác giả nhận ra rõ hơn sức mạnh và khả năng phục hồi của bà
- Khi nhìn lại các mối quan hệ bạn bè, tác giả tìm lại được lòng biết ơn và cảm giác gắn kết
Dự án vẫn đang ở giai đoạn đầu, và bất kỳ ai cũng có thể tự bắt đầu thông qua tài liệu cài đặt
- Dữ liệu vẫn thuộc sở hữu của người dùng và có cấu trúc để bất kỳ mô hình nào cũng có thể đọc được
- Dự án đang tiếp tục được cải thiện dựa trên phản hồi từ các cộng tác viên

1 bình luận

GN⁺ 2026-03-26

Ý kiến trên Hacker News

Tôi nghĩ dự án này thực sự rất tuyệt và là một cách thú vị để lưu giữ lịch sử gia đình
Nhưng ở phần có AI can thiệp, tôi lại có cảm giác khá phức tạp về mặt cảm xúc
Nó gợi một nỗi ngậm ngùi như thể nghề thủ công đang bị nhà máy lấn át, đồng thời việc AI đối chiếu chéo cả sao kê ngân hàng, vé và lịch sử nghe nhạc lại mang hơi hướng hơi dystopian
Dù vậy, nhìn chung đây vẫn là một nỗ lực cực kỳ ấn tượng
- Cảm ơn :)
  Ban đầu tôi cũng tự mình biên tập mọi thứ và kết nối tư liệu như một nhà sử học
  Sau đó, khi bắt đầu thử nghiệm với agent, tốc độ làm việc tăng lên rất nhiều, nhưng tôi vẫn dành thời gian như một “người đóng góp wiki” để cân nhắc nên giữ hay bỏ nội dung nào
  Đồng thời, trải nghiệm này cũng khiến tôi thấm thía hơn tầm quan trọng của việc bảo vệ dữ liệu cá nhân. Chúng ta đang để lại quá nhiều dấu vết số
- Bình thường tôi thấy AI bắt chước con người là khó chịu, nhưng lần này thì khác
  Giống như “chiếc xe đạp cho trí óc” mà Steve Jobs từng nói, công nghệ ở đây hoạt động như một công cụ hỗ trợ con người
  Lâu rồi tôi mới lại thấy công nghệ giúp ích cho sáng tạo mang tính con người và cảm nhận được sự háo hức như trước đây
- Tôi cũng nghĩ tương tự. Với vai trò là khung thiết bị để xử lý lịch sử gia đình thì nó rất tuyệt, nhưng việc để AI làm người kể chuyện lại khiến tôi bản năng thấy phản cảm
  Việc LLM sắp xếp thông tin thì không có vấn đề đạo đức gì, nhưng để mô hình của các tập đoàn lớn thay mặt kể câu chuyện cá nhân thì thấy không thoải mái
- Ở đây AI có vẻ chỉ là một cộng tác viên đơn thuần
  Tác giả phụ trách những phần thú vị, còn AI lo việc kết nối dữ liệu nhàm chán; tôi nghĩ cách phân vai như vậy là lý tưởng
- Tôi cũng có phản ứng giống vậy. Việc tự tay ghi chép các thành viên gia đình và sự kiện thì rất hay, nhưng nếu AI làm thay toàn bộ thì sự hấp dẫn sẽ biến mất
  1. Cảm giác chắt lọc, tuyển chọn bằng tay sẽ biến mất
  2. Tính chủ quan của ký ức là điều quan trọng, nhưng AI lại cố sửa nó
  3. Cuối cùng sẽ thành một sản phẩm không hồn
Tôi và vợ mỗi năm vào dịp năm mới đều buộc khoảng 50 tờ giấy lại thành một cuốn sổ nhỏ
Chúng tôi đóng gáy bằng vải cũ sờn và trang trí bằng những món đồ gợi nhớ như vỏ hộp diêm từ các chuyến đi
Trong suốt một năm, chúng tôi ghi lại những điều đã học, những lần cãi vã rồi làm hòa, công thức nấu ăn, suy nghĩ... để nó trở thành tư liệu ghi chép của năm đó
Lý do chúng tôi viết tay thay vì dùng công cụ AI là vì bản thân quá trình ấy là một nghi thức có ý nghĩa và đem lại niềm vui
Nghĩ đến chuyện bọn trẻ sau này sẽ đọc lại, tôi càng thấy nó đẹp hơn
- Tôi cũng làm tương tự, dùng máy in Instax để in ảnh rồi dán vào nhật ký
  Cũng như những cuốn sổ công thức cũ sờn dấu tay năm xưa, một cuốn sách có cả vết sơn bắn lên lại càng hấp dẫn hơn
- Kiểu này được gọi là commonplace book. Jillian Hess đã có khá nhiều nghiên cứu liên quan
- Ý tưởng thật tuyệt, tôi muốn thử làm cùng vợ và các con
- Cảm động thật, nhưng thú thật là chắc tôi không có đủ năng lượng đến thế
Tôi cũng đã bắt đầu làm việc này bằng sách in thực sự
Tôi đang dùng Scribus để biên tập hàng nghìn bức ảnh và làm sách theo từng năm
Tôi thích ý nghĩ rằng ngay cả sau khi chết, dấu vết của mình vẫn còn tồn tại dưới dạng vật lý
Tôi định gắn một thẻ SD ở trang đầu để lưu cả video nữa
Ngoài ra, tôi còn kiếm được một máy in Canon Selphy cũ để in ảnh tại nhà. Màu sắc không hoàn hảo lắm, nhưng treo lên tường vẫn thấy rất mãn nguyện
- Tôi thích làm zine. Bản in laser bền dưới ánh nắng hơn, và bút chì là thứ để lại lâu nhất theo kinh nghiệm của tôi
  Máy bấm kim 360 độ là tốt nhất để đóng gáy nhanh
- Tôi làm một thứ tương tự bằng email. Khi con trai tôi chào đời, tôi tạo cho nó một địa chỉ email để gia đình gửi tin nhắn và ảnh cho nó
  Đây là một dự án di sản số để đến khi 18 tuổi nó có thể đọc lại
  Bài viết liên quan ở đây
- Tôi tò mò về chi phí làm sách. Tự làm thì rẻ, nhưng dạo này tôi không có nhiều thời gian
- Tôi cũng muốn thử. Bạn có thể chia sẻ template hay mẹo nào không?
- Tôi nghe nói thẻ SD không bền được lâu. Hay là để lại một phần video dưới dạng flipbook thì sao?
Tôi thích nghiên cứu gia phả. Tôi đã lần theo tổ tiên đến tận 10 thế hệ trước (khoảng 250 năm), những người đã đến Argentina
Phía châu Âu thì khó hơn nhiều vì chiến tranh và thất lạc tài liệu
Gần đây tôi đang thu thập những câu chuyện xưa từ các bậc cao niên trong gia đình qua tin nhắn thoại rồi sắp xếp lại
Có lẽ sẽ hay nếu tổ chức chúng theo dạng wiki cùng với gia phả do cha tôi lập
- 10 thế hệ thì thật đáng nể. Tôi tò mò tổ tiên bạn đến từ nước nào
Mỗi năm vợ tôi chọn lọc ảnh trong tài khoản dùng chung của chúng tôi rồi biên soạn thành một cuốn sách 50 trang
Đến nay đã có 12 năm ghi chép thường niên như vậy, trở thành những ký ức có thể cầm lên giở bằng tay
Cô ấy cũng làm việc này cho người khác, và nhờ dấu ấn cá nhân nên nhận được phản hồi rất tốt
Bản thân dự án thì rất hay, nhưng khi dùng LLM API thì quyền riêng tư là điều quan trọng
Tôi không muốn giao ảnh của mình cho mô hình của một công ty Mỹ
- Có những lựa chọn thay thế như confer.to
- So với ảnh, tôi còn lo sao kê ngân hàng hơn
- Tác giả đã công khai ảnh trên blog rồi, nên có vẻ họ không xem đó là bí mật
- Có thể có các lựa chọn thay thế như PPQ.AI, OpenRouter.AI, hoặc Apple on-device AI
- Vậy thì liệu bạn có sẵn sàng giao nó cho LLM của các công ty Trung Quốc, Nga hay châu Âu không?
Sự kết hợp giữa phỏng vấn gia đình và quy trình làm việc với LLM là một ví dụ ứng dụng rất tốt
Nhưng việc xuất cả lịch sử vị trí Google Maps, Uber, giao dịch ngân hàng, Shazam thì có cảm giác đã đi quá giới hạn
Gần đây có nhiều dự án AI nói rằng “dữ liệu nằm trong thiết bị của tôi”, nhưng trên thực tế đường đi của dữ liệu lại không rõ ràng
Có vẻ người dùng chưa thực sự hiểu đầy đủ các đánh đổi đó
Dù nói là “mặc định riêng tư”, trên thực tế dữ liệu vẫn được tải lên máy chủ của công ty AI
Nếu không hỗ trợ local LLM thì câu chữ về quyền riêng tư cần phải rõ ràng hơn
Tôi thấy không thoải mái ở đoạn nói rằng đã giao dữ liệu Google Maps, Uber, ngân hàng và Shazam cho AI
Bản thân dự án thì tuyệt vời, nhưng giao dữ liệu nhạy cảm nhất cho một dịch vụ là rất rủi ro
Khả năng bị lộ một ngày nào đó luôn luôn tồn tại
- Tôi thì không thấy khó chịu. Chỉ là tôi không hứng thú với kiểu ám ảnh dữ liệu bản thân (quantified self) này
  Tôi quan tâm đến việc lưu giữ câu chuyện gia đình, nhưng không quan tâm đến việc tự phân tích bản thân
Ý tưởng thì hay, nhưng vấn đề là sẽ chia sẻ đến đâu
Nếu chỉ để một mình xem thì có thể ghi lại mọi thứ, nhưng khi cả gia đình cùng xem sẽ xuất hiện những câu chuyện nhạy cảm
- Đồng ý. Hơn nữa, tất cả những thứ đó còn được tải lên máy chủ của Anthropic
  Việc ghi lại cả quá khứ đen tối hay mâu thuẫn trong gia đình có thể là xâm phạm đời tư
  Chiến tranh, nhà tù, tranh chấp thừa kế... mỗi người đều có những ký ức và cảm xúc khác nhau về những chuyện đó
  Nếu AI xâu chuỗi những thứ ấy lại, thứ còn lại chỉ là ảo giác về tính khách quan, thậm chí có thể khơi lại tổn thương giữa các thành viên trong gia đình
  Cuối cùng, tôi nghĩ ký ức vốn nên có một vòng đời bị lãng quên một cách tự nhiên
  Những người quá say mê công nghệ thường bỏ qua kiểu phức tạp rất con người này
- Dù sao thì đây cũng là wiki của tôi, nên tôi sẽ làm theo cách tôi muốn

Bách khoa toàn thư cá nhân

Khởi đầu của dự án bách khoa toàn thư cá nhân

Tái cấu trúc ký ức bằng phần mềm wiki

Kết hợp dữ liệu số và mô hình ngôn ngữ

Thử nghiệm tích hợp dữ liệu phức hợp

Biến dữ liệu cá nhân thành bách khoa toàn thư

Công bố dự án whoami.wiki

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News