- Trong quá trình sắp xếp 1.351 bức ảnh gia đình tìm thấy ở nhà bà, tác giả đã xây dựng một wiki cá nhân dựa trên MediaWiki để cấu trúc hóa ký ức
- Bằng định dạng wiki, tác giả liên kết ảnh, nhân vật và sự kiện, rồi tái dựng lịch sử gia đình và lịch sử cá nhân dưới dạng các bài viết
- Sau đó, tác giả tiếp tục tích hợp nhiều dấu vết số như Google Photos, lịch sử vị trí, giao dịch tài chính, dữ liệu nhận diện âm nhạc và thử nghiệm tạo trang tự động bằng Claude Code và các mô hình ngôn ngữ
- Trong quá trình này, mô hình khôi phục những khoảng trống của ký ức và tái tổ chức thành dòng tự sự dựa trên dữ liệu cho các cuộc trò chuyện, chuyến đi và tình bạn
- Cuối cùng, dự án phát triển thành dự án mã nguồn mở whoami.wiki, đề xuất một hệ thống để mỗi cá nhân có thể khám phá và sở hữu dữ liệu của mình như một bách khoa toàn thư
Khởi đầu của dự án bách khoa toàn thư cá nhân
- Trong lần đầu tiên trở lại nhà bà sau đại dịch, tác giả phát hiện 1.351 bức ảnh cũ và bắt đầu công việc sắp xếp
- Các bức ảnh bao quát từ thời trẻ của ông bà đến thời học cấp hai của chính tác giả
- Việc phân loại ban đầu được thực hiện dựa trên các thuộc tính vật lý như loại phim hay tỷ lệ ảnh
- Trong lúc sắp xếp ảnh, những mảnh ký ức rời rạc dần hiện ra, nhưng thứ tự và bối cảnh vẫn chưa rõ ràng
- Vì đây là ảnh từ thời chưa có siêu dữ liệu EXIF nên rất khó xác định trình tự thời gian
- Khi cùng bà sắp xếp lại ảnh, tác giả ghi lại ký ức kể miệng về thời điểm đám cưới
- Tên nhân vật và các sự kiện được ghi chú lại, một số được xác nhận là họ hàng thời trẻ
- Sau khi sắp xếp tư liệu, tác giả chạy MediaWiki trên máy cục bộ và biên tập theo đúng định dạng Wikipedia
- Các trang được viết có cấu trúc với hộp thông tin, nội dung chính, chú thích ảnh, liên kết đến nhân vật
- Các nội dung liên quan như sửa đổi luật pháp, nghi lễ, địa điểm được liên kết tới các trang Wikipedia thực tế
Tái cấu trúc ký ức bằng phần mềm wiki
- Chỉ trong hai ngày, tác giả đã sắp xếp bối cảnh lịch sử của các bức ảnh thành những bài viết hoàn chỉnh
- Điều này khiến tác giả cảm nhận rõ wiki là một công cụ mạnh mẽ để lưu giữ tri thức và phương tiện truyền thông
- Sau đó, trong nhiều tháng, toàn bộ ảnh gia đình tiếp tục được mở rộng thành các trang wiki
- Tác giả nhận lời khuyên từ cộng đồng r/genealogy để cải thiện cách ghi chép lịch sử truyền miệng
- Phiên âm giọng nói và mô hình ngôn ngữ được dùng để nâng cao hiệu quả biên tập
- Nhờ định dạng wiki, tác giả dễ dàng nắm được mối liên kết giữa các sự kiện và nhân vật
- Ví dụ, tác giả phát hiện ca sĩ trong đám cưới của ông bà lại chính là y tá đã đỡ đẻ cho mình
Kết hợp dữ liệu số và mô hình ngôn ngữ
- Sau đó, dự án được mở rộng sang ảnh số trong Google Photos
- Có thể tận dụng ngày tháng, thời gian và thông tin vị trí từ siêu dữ liệu EXIF
- Với 625 bức ảnh từ chuyến du lịch gia đình năm 2012, tác giả yêu cầu Claude Code tạo các trang wiki
- Mô hình tham chiếu các bảng contact sheet được tạo bằng ImageMagick để duyệt ảnh
- Chỉ với thông tin hình ảnh và dấu thời gian, mô hình đã tái dựng được địa điểm và hoạt động
- Bao gồm cả mô tả chi tiết như phương tiện di chuyển, nơi đã ghé thăm và nhận diện nhân vật
- Tác giả bổ sung danh sách các giai thoại cá nhân vào bản nháp đã tạo để hoàn thiện mạch tự sự
Thử nghiệm tích hợp dữ liệu phức hợp
- Dự án tiếp tục mở rộng với dữ liệu chuyến đi đến Mexico City năm 2022
- Tích hợp 291 ảnh, 343 video, cùng lịch sử vị trí Google Maps, hành trình Uber, giao dịch ngân hàng và bản ghi Shazam
- Các tác vụ chính mà Claude Code thực hiện
- Phân tích chéo giao dịch ngân hàng và dữ liệu vị trí để xác định các nhà hàng đã ghé thăm
- Dùng lịch sử thanh toán vé để nhận diện các đội bóng và tên giải đấu của trận bóng đá
- Dùng lịch sử di chuyển Uber để xác định thời gian và địa điểm di chuyển
- Dùng bản ghi Shazam để mô tả thể loại nhạc theo từng địa điểm
- Tìm cảnh chơi guitar trong bữa tối từ các khung hình video và chèn vào trang
- Các tính năng trang thảo luận, danh mục và lịch sử chỉnh sửa của MediaWiki cũng được tận dụng nguyên vẹn
- Mỗi khi có dữ liệu mới được thêm vào, lịch sử chỉnh sửa được tích lũy như một biên tập viên wiki thực thụ
Biến dữ liệu cá nhân thành bách khoa toàn thư
- Theo thời gian, mô hình chuyển sang vai trò lấp đầy những khoảng trống của ký ức
- Bằng cách phân tích chéo nhiều nguồn dữ liệu, mô hình khôi phục lại những sự thật đã bị lãng quên
- Tác giả phân tích khoảng 100.000 tin nhắn và ghi chú thoại từ kho lưu trữ Facebook, Instagram và WhatsApp
- Từ các cuộc trò chuyện với bạn bè, mô hình trích xuất diễn tiến của tình bạn và các sự kiện trong cuộc đời rồi cấu thành trang
- Bạn bè của tác giả đọc những trang này và bị cuốn hút tới mức đọc ngấu nghiến toàn bộ nội dung
- Qua quá trình đó, dự án không còn chỉ là dự án lịch sử gia đình mà đã phát triển thành việc xây dựng một bách khoa toàn thư cá nhân (personal encyclopedia)
- Một hệ thống tự ghi chép có cấu trúc, liên kết chặt chẽ và dựa trên dữ liệu đã được hoàn thiện
Công bố dự án whoami.wiki
- Từ những trải nghiệm này, tác giả đã công bố mã nguồn mở whoami.wiki
- Dựa trên MediaWiki, dự án tự động tạo các trang wiki từ dữ liệu cá nhân
- Người dùng cung cấp dữ liệu xuất của mình, và mô hình ngôn ngữ sẽ viết bản nháp
- Chạy cục bộ, giữ quyền sở hữu dữ liệu, bảo đảm tính độc lập với mô hình
- Mọi chủ đề như đám cưới, bạn bè, chuyến đi của cá nhân đều có thể được ghi lại theo cùng định dạng như wiki công cộng
- Trải nghiệm khám phá các trang đã hoàn thiện mang lại niềm vui gợi nhớ đến Facebook Timeline thời kỳ đầu
- Điều quan trọng hơn công nghệ là sự tái khám phá con người và ký ức
- Khi ghi lại cuộc đời của bà, tác giả nhận ra rõ hơn sức mạnh và khả năng phục hồi của bà
- Khi nhìn lại các mối quan hệ bạn bè, tác giả tìm lại được lòng biết ơn và cảm giác gắn kết
- Dự án vẫn đang ở giai đoạn đầu, và bất kỳ ai cũng có thể tự bắt đầu thông qua tài liệu cài đặt
- Dữ liệu vẫn thuộc sở hữu của người dùng và có cấu trúc để bất kỳ mô hình nào cũng có thể đọc được
- Dự án đang tiếp tục được cải thiện dựa trên phản hồi từ các cộng tác viên
1 bình luận
Ý kiến trên Hacker News
Tôi nghĩ dự án này thực sự rất tuyệt và là một cách thú vị để lưu giữ lịch sử gia đình
Nhưng ở phần có AI can thiệp, tôi lại có cảm giác khá phức tạp về mặt cảm xúc
Nó gợi một nỗi ngậm ngùi như thể nghề thủ công đang bị nhà máy lấn át, đồng thời việc AI đối chiếu chéo cả sao kê ngân hàng, vé và lịch sử nghe nhạc lại mang hơi hướng hơi dystopian
Dù vậy, nhìn chung đây vẫn là một nỗ lực cực kỳ ấn tượng
Ban đầu tôi cũng tự mình biên tập mọi thứ và kết nối tư liệu như một nhà sử học
Sau đó, khi bắt đầu thử nghiệm với agent, tốc độ làm việc tăng lên rất nhiều, nhưng tôi vẫn dành thời gian như một “người đóng góp wiki” để cân nhắc nên giữ hay bỏ nội dung nào
Đồng thời, trải nghiệm này cũng khiến tôi thấm thía hơn tầm quan trọng của việc bảo vệ dữ liệu cá nhân. Chúng ta đang để lại quá nhiều dấu vết số
Giống như “chiếc xe đạp cho trí óc” mà Steve Jobs từng nói, công nghệ ở đây hoạt động như một công cụ hỗ trợ con người
Lâu rồi tôi mới lại thấy công nghệ giúp ích cho sáng tạo mang tính con người và cảm nhận được sự háo hức như trước đây
Việc LLM sắp xếp thông tin thì không có vấn đề đạo đức gì, nhưng để mô hình của các tập đoàn lớn thay mặt kể câu chuyện cá nhân thì thấy không thoải mái
Tác giả phụ trách những phần thú vị, còn AI lo việc kết nối dữ liệu nhàm chán; tôi nghĩ cách phân vai như vậy là lý tưởng
Tôi và vợ mỗi năm vào dịp năm mới đều buộc khoảng 50 tờ giấy lại thành một cuốn sổ nhỏ
Chúng tôi đóng gáy bằng vải cũ sờn và trang trí bằng những món đồ gợi nhớ như vỏ hộp diêm từ các chuyến đi
Trong suốt một năm, chúng tôi ghi lại những điều đã học, những lần cãi vã rồi làm hòa, công thức nấu ăn, suy nghĩ... để nó trở thành tư liệu ghi chép của năm đó
Lý do chúng tôi viết tay thay vì dùng công cụ AI là vì bản thân quá trình ấy là một nghi thức có ý nghĩa và đem lại niềm vui
Nghĩ đến chuyện bọn trẻ sau này sẽ đọc lại, tôi càng thấy nó đẹp hơn
Cũng như những cuốn sổ công thức cũ sờn dấu tay năm xưa, một cuốn sách có cả vết sơn bắn lên lại càng hấp dẫn hơn
Tôi cũng đã bắt đầu làm việc này bằng sách in thực sự
Tôi đang dùng Scribus để biên tập hàng nghìn bức ảnh và làm sách theo từng năm
Tôi thích ý nghĩ rằng ngay cả sau khi chết, dấu vết của mình vẫn còn tồn tại dưới dạng vật lý
Tôi định gắn một thẻ SD ở trang đầu để lưu cả video nữa
Ngoài ra, tôi còn kiếm được một máy in Canon Selphy cũ để in ảnh tại nhà. Màu sắc không hoàn hảo lắm, nhưng treo lên tường vẫn thấy rất mãn nguyện
Máy bấm kim 360 độ là tốt nhất để đóng gáy nhanh
Đây là một dự án di sản số để đến khi 18 tuổi nó có thể đọc lại
Bài viết liên quan ở đây
Tôi thích nghiên cứu gia phả. Tôi đã lần theo tổ tiên đến tận 10 thế hệ trước (khoảng 250 năm), những người đã đến Argentina
Phía châu Âu thì khó hơn nhiều vì chiến tranh và thất lạc tài liệu
Gần đây tôi đang thu thập những câu chuyện xưa từ các bậc cao niên trong gia đình qua tin nhắn thoại rồi sắp xếp lại
Có lẽ sẽ hay nếu tổ chức chúng theo dạng wiki cùng với gia phả do cha tôi lập
Mỗi năm vợ tôi chọn lọc ảnh trong tài khoản dùng chung của chúng tôi rồi biên soạn thành một cuốn sách 50 trang
Đến nay đã có 12 năm ghi chép thường niên như vậy, trở thành những ký ức có thể cầm lên giở bằng tay
Cô ấy cũng làm việc này cho người khác, và nhờ dấu ấn cá nhân nên nhận được phản hồi rất tốt
Bản thân dự án thì rất hay, nhưng khi dùng LLM API thì quyền riêng tư là điều quan trọng
Tôi không muốn giao ảnh của mình cho mô hình của một công ty Mỹ
Sự kết hợp giữa phỏng vấn gia đình và quy trình làm việc với LLM là một ví dụ ứng dụng rất tốt
Nhưng việc xuất cả lịch sử vị trí Google Maps, Uber, giao dịch ngân hàng, Shazam thì có cảm giác đã đi quá giới hạn
Gần đây có nhiều dự án AI nói rằng “dữ liệu nằm trong thiết bị của tôi”, nhưng trên thực tế đường đi của dữ liệu lại không rõ ràng
Có vẻ người dùng chưa thực sự hiểu đầy đủ các đánh đổi đó
Dù nói là “mặc định riêng tư”, trên thực tế dữ liệu vẫn được tải lên máy chủ của công ty AI
Nếu không hỗ trợ local LLM thì câu chữ về quyền riêng tư cần phải rõ ràng hơn
Tôi thấy không thoải mái ở đoạn nói rằng đã giao dữ liệu Google Maps, Uber, ngân hàng và Shazam cho AI
Bản thân dự án thì tuyệt vời, nhưng giao dữ liệu nhạy cảm nhất cho một dịch vụ là rất rủi ro
Khả năng bị lộ một ngày nào đó luôn luôn tồn tại
Tôi quan tâm đến việc lưu giữ câu chuyện gia đình, nhưng không quan tâm đến việc tự phân tích bản thân
Ý tưởng thì hay, nhưng vấn đề là sẽ chia sẻ đến đâu
Nếu chỉ để một mình xem thì có thể ghi lại mọi thứ, nhưng khi cả gia đình cùng xem sẽ xuất hiện những câu chuyện nhạy cảm
Việc ghi lại cả quá khứ đen tối hay mâu thuẫn trong gia đình có thể là xâm phạm đời tư
Chiến tranh, nhà tù, tranh chấp thừa kế... mỗi người đều có những ký ức và cảm xúc khác nhau về những chuyện đó
Nếu AI xâu chuỗi những thứ ấy lại, thứ còn lại chỉ là ảo giác về tính khách quan, thậm chí có thể khơi lại tổn thương giữa các thành viên trong gia đình
Cuối cùng, tôi nghĩ ký ức vốn nên có một vòng đời bị lãng quên một cách tự nhiên
Những người quá say mê công nghệ thường bỏ qua kiểu phức tạp rất con người này