- Đây là một dự án thu thập và trực quan hóa toàn bộ dữ liệu đời sống cá nhân từ năm 2019, ghi lại hơn 100 hạng mục mỗi ngày như tập luyện, giấc ngủ, tâm trạng, vị trí, thời tiết
- Đã tích lũy khoảng 380.000 điểm dữ liệu, kết hợp nhiều nguồn như RescueTime, Foursquare Swarm, Apple Health cùng dữ liệu nhập thủ công
- Toàn bộ dữ liệu được lưu trong một cơ sở dữ liệu duy nhất dựa trên Postgres và được công khai dưới dạng trực quan hóa bằng Ruby, JavaScript, Plotly
- Dự án được phát hành dưới dạng mã nguồn mở MIT và vận hành hoàn toàn theo mô hình tự lưu trữ trên máy chủ cá nhân
- Sau 3 năm thử nghiệm, tác giả kết luận hiệu quả thực tế của việc tự xây dựng là khá hạn chế, nhưng đây vẫn là một ví dụ cho thấy tầm quan trọng của tự nhận thức và chủ quyền dữ liệu
Tổng quan dự án
- Dự án dữ liệu cá nhân lượng hóa các chỉ số bao quát toàn bộ cuộc sống của tác giả trong 3 năm kể từ 2019
- Ghi lại hơn 100 hạng mục mỗi ngày, bao gồm thể chất, dinh dưỡng, đời sống xã hội, việc sử dụng máy tính, thời tiết
- Thu thập tổng cộng 380.000 điểm dữ liệu
- Các nguồn dữ liệu chính
- RescueTime: 149.466 bản ghi sử dụng website và ứng dụng
- Foursquare Swarm: 126.285 bản ghi về vị trí và địa điểm đã ghé thăm
- Nhập thủ công: 67.031 bản ghi về tâm trạng, giấc ngủ, sức khỏe, thói quen ăn uống
- Weather API: 15.442 bản ghi thời tiết
- Apple Health: 3.048 bản ghi số bước chân
Cấu trúc cơ sở dữ liệu và thành phần kỹ thuật
- Toàn bộ dữ liệu được lưu theo cấu trúc key-value có dấu thời gian dựa trên Postgres
- Mỗi hàng gồm
timestamp, key, value
- Tác giả viết script tự động gắn thẻ theo ngày để tính đến chênh lệch múi giờ
- Nhập dữ liệu
- Trả lời nhiều câu hỏi trong ngày thông qua bot Telegram
- Các giai đoạn như thời kỳ phong tỏa, mùa tập luyện được nhập theo khoảng thời gian
- Công cụ trực quan hóa
- Tự xây dựng lớp phân tích bằng Ruby, JavaScript, Plotly
- Chọn 48 biểu đồ để công khai, hiển thị ở dạng snapshot
Những insight dữ liệu nổi bật
- Tương quan giữa tâm trạng và hành vi
- Khi ở trạng thái vui vẻ hoặc phấn khích, xác suất thiền tăng 44%, đọc sách hoặc nghe audiobook tăng 28%, uống rượu tăng 31%
- Giấc ngủ và thể trạng
- Khi ngủ hơn 8,5 giờ, xác suất đau đầu hoặc có triệu chứng cảm tăng, năng lượng giảm 24%
- Tập luyện và thay đổi cân nặng
- Bắt đầu giai đoạn “lean bulk” từ tháng 8/2020, cân nặng +8,5 kg, nhịp tim lúc nghỉ +9 bpm
- Tăng từ 69 kg năm 2014 lên 89,8 kg vào năm 2021
- Vị trí và mô hình di chuyển
- Sống ở San Francisco giai đoạn 2016–17, New York giai đoạn 2018–19, Vienna giai đoạn 2020–21
- Sau COVID-19, số chuyến bay giảm mạnh, tác động của phong tỏa rất rõ rệt
- Khí hậu và thói quen sinh hoạt
- Mùa hè: số bước chân tăng 33%, uống rượu tăng 23%, bệnh tật giảm 40%
- Mùa đông: mua sắm online tăng 100%, triệu chứng cảm tăng 45%
Ví dụ về cách khai thác dữ liệu cá nhân hóa
- Air Quality: đo nồng độ CO₂ theo từng phòng trong nhà ở Vienna, phát hiện vấn đề thông gió trong phòng ngủ
- Lịch sử Spotify: từ năm 2013 đã nghe nhạc 480.000 phút (334 ngày), nghe hết 49% trong tổng 200.000 bài hát
- Instagram Stories: đăng 1.906 story trong 3 năm, giảm trong giai đoạn đại dịch
- Hoạt động GitHub: sau fastlane (2014–2018) vẫn tiếp tục các dự án cá nhân như FxLifeSheet
- Quản lý đầu tư: theo dõi phân bổ tài sản và chạy mô phỏng mỗi 2 tuần
Quyền riêng tư và triết lý mã nguồn mở
- Toàn bộ dữ liệu được lưu trên máy chủ do chính tác giả sở hữu, không kết nối với dịch vụ bên ngoài
- Các biểu đồ công khai được giới hạn ở dạng không làm lộ thông tin cá nhân
- Nhấn mạnh quan điểm: “Dữ liệu mà các tập đoàn lớn đã nắm giữ thì cá nhân cũng nên trực tiếp sở hữu”
- FxLifeSheet được phát hành theo giấy phép MIT để bất kỳ ai cũng có thể sửa đổi và sử dụng
Kết luận và cập nhật năm 2025
- Kết quả sau 3 năm thử nghiệm: hệ thống tự xây dựng có hiệu quả thấp so với thời gian bỏ ra
- Có ít insight đáng kinh ngạc hơn kỳ vọng
- Nhưng vẫn trải nghiệm được giá trị của tự nhận thức và chủ quyền dữ liệu
- Trong tương lai, tác giả dự định chỉ theo dõi tối thiểu các chỉ số cốt lõi như tâm trạng
- Tính đến năm 2025, việc thu thập dữ liệu đã dừng lại, nhưng website vẫn sẽ tiếp tục được duy trì
2 bình luận
Tôi cũng đã để lại những ghi chép tương tự. Trước đây chỉ lưu lại một cách mơ hồ, nhưng dạo này tôi đang chia sẻ các ghi chép của mình với các agent để cùng cộng tác ở cấp độ tồn tại với tồn tại. Tôi tạo và chia sẻ nhiều kỹ năng khác nhau, đồng thời cũng mở giao diện Emacs mà tôi dùng, nên cả tôi lẫn các agent đều cùng chia sẻ những ghi chép đó theo cùng một cách. Hễ ai bảo cần gì thì tôi thêm vào, thứ tôi cần thì tự làm rồi cùng dùng, cùng phản hồi, người ngoài nhìn vào chắc thấy như tự biên tự diễn. Còn bọn tôi thì chỉ thấy vui quá đi mất.
[liên kết đã xóa]
Ý kiến trên Hacker News
Phần tóm tắt ở cuối trang rất ấn tượng
Sau khi xây dựng và mở rộng dự án trong nhiều năm rồi phân tích dữ liệu, họ nhận ra việc tự làm giải pháp có giá trị khá thấp so với thời gian bỏ ra
Ban đầu họ kỳ vọng sẽ có những insight đáng kinh ngạc, nhưng thực tế ngoài vài biểu đồ thú vị thì không có phần thưởng nào xứng đáng với hàng trăm giờ đầu tư
Phong trào “Quantified Self” có lẽ gần với chủ nghĩa hoàn hảo mang tính ám ảnh hơn
Dữ liệu vốn tưởng như không có nhiều ý nghĩa ấy, đến một ngày lại trở thành thông tin then chốt giúp tránh chẩn đoán nhầm bệnh tim
Chính nhờ có hồ sơ ổn định trong thời gian dài mà bác sĩ có thể sửa lại nhận định sai
Giá trị của dữ liệu nằm ở tính hữu dụng tức thời chỉ bất ngờ lộ ra sau một thời gian rất dài
Khi nó báo là “ngủ tốt” thì thực ra tôi cũng đã tự cảm nhận được rồi, và dữ liệu không làm thay đổi hành vi của tôi
Cuối cùng ngoài niềm vui từ việc trực quan hóa dữ liệu thì không có thay đổi thực chất nào
Tôi đã ghi lại đủ thứ như calo, dinh dưỡng, giấc ngủ, vận động, chất lượng không khí, tâm trạng..., nhưng chỉ sau vài tuần thì giới hạn về hiệu quả so với công sức bỏ ra đã hiện rõ
Dù vậy, nếu giới hạn thí nghiệm trong một khoảng thời gian nhất định thì vẫn có thể thu được insight hữu ích
Tích lũy dữ liệu mỗi ngày có thể trở nên ám ảnh, nhưng nếu tiếp cận như thử nghiệm có giới hạn thời gian thì hoàn toàn có ý nghĩa
Tôi gom 18 năm bình luận trên Reddit, HN, Slashdot và 3 năm hội thoại với LLM để làm thử nghiệm RAG, nhưng ngược lại nó lại làm giảm tính sáng tạo
Mô hình bị mắc kẹt trong những suy nghĩ cũ của tôi nên cái mới biến mất
Cuối cùng dữ liệu hướng về quá khứ, còn tôi thì muốn một mô hình hướng tới tương lai
Đặc biệt, ghi lại cảm xúc là thứ hữu ích nhất — hành động viết ra cảm xúc tự nó đã là quá trình nhận thức và phản tư
Đọc lại cảm xúc và sự kiện trong quá khứ không chỉ hữu ích, mà còn tạo nên những đường nét tinh tế trong câu chuyện về bản thân
Chỉ cần tính sơ cũng thấy lượng phát thải CO₂ từ các chuyến bay của Felix vào khoảng 70–110 tấn mỗi năm
Nếu tính theo chuẩn của Hiệp định Paris (1,5 tấn/người), thì con số này cao gấp 10–15 lần mức trung bình châu Âu, và hơn 50 lần mục tiêu 1,5°C
Đổ lỗi cho cá nhân là không hiệu quả, và thứ thực sự dẫn tới thay đổi hành vi cuối cùng vẫn là thay đổi cấu trúc chi phí
Ngay cả khi chi phí tăng gấp 10, vẫn sẽ có người tiếp tục bay vì lý do kinh tế
Nếu tính theo khoảng cách trên mỗi ghế thì sẽ bớt nghiêm trọng hơn, nhưng đây vẫn là một con số gây sốc
Trang thống kê
Điều cốt lõi là thật khó để đón nhận mức phát thải này mà không thấy xấu hổ
Việc một cá nhân tạo ra lượng CO₂ ở quy mô của cả một quốc gia nhỏ là điều gây sốc
Vì vậy tổng lượng phát thải của anh ấy có thể còn cao hơn rất nhiều
Theo kinh nghiệm của tôi, chỉ số khách quan (dinh dưỡng, giấc ngủ) thì hữu ích, còn chỉ số chủ quan (tâm trạng, căng thẳng) biến động quá nhiều nên ít ý nghĩa hơn
Cốt lõi là giảm ma sát khi nhập dữ liệu và làm cho việc trực quan hóa trở nên dễ dàng
Tôi đã tự động hóa bằng iPhone Action + Obsidian + script QuickAdd, rồi trực quan hóa bằng Dataview và Chart.js
Tôi rất hài lòng với tổ hợp này
Tôi đang làm một ứng dụng self-tracking tên là Reflect, muốn nghe ý kiến của bạn
Link ứng dụng Reflect
Nếu ghi đều đặn, bạn sẽ nhận ra các mô thức cảm xúc của chính mình và bớt tự bào chữa cho bản thân hơn
Nhiều người có vẻ hoài nghi, nhưng phần trực quan hóa và quy mô dữ liệu của dự án này thực sự rất ấn tượng
Đặc biệt, cách thể hiện “My Life in Weeks” rất hay, tôi cũng muốn thử dùng
Có một câu đùa rằng “nếu truy vấn Palantir DB bằng ID con người của tôi thì sẽ ra toàn bộ dữ liệu đời tôi”
Dự án này vừa là giấc mơ vừa là ác mộng của tôi
Trước đây tôi từng mê phong trào Quantified Self, từng động tới API của Fitbit và Withings, nhưng sự mệt mỏi vì phải ghi chép cuối cùng đã bào mòn hứng thú
Giờ tôi hy vọng LLM có thể giảm bớt chi phí đó
Gần đây tôi đang dùng MacroFactor để theo dõi dinh dưỡng, và lần đầu tiên có trải nghiệm dữ liệu thực sự dẫn tới hành động
Tôi cũng đã tự động hóa dữ liệu tài chính và hoàn tất việc xử lý thuế bằng Plaid API
Tóm lại, tự tay xây mọi thứ là hơi quá, nhưng chỉ cần khai thác tốt một phần dữ liệu thôi cũng đã rất đáng giá
Ví dụ khi đeo GCM, tôi vô thức cố hành xử lành mạnh hơn
Chính việc được quan sát, hơn là phân tích dữ liệu, mới là thứ thúc đẩy thay đổi hành vi
Cách diễn đạt “mùa đông thì ít tiếp xúc với năng lượng mặt trời hơn” khá thú vị
Có lẽ câu này phần nào giải thích lối tư duy thiên về hình ảnh của cả dự án
Tôi cũng từng làm một hệ thống tương tự nhưng đơn giản hơn nhiều
Tôi hợp nhất dữ liệu từ Apple Health, CSV ngân hàng và Git commit vào SQLite
Thứ thực sự hữu ích là các truy vấn đơn giản — như tương quan giữa thời lượng ngủ và tần suất commit, hay mức chi tiêu tăng vọt khi bắt đầu dự án
Điểm cốt lõi là gom dữ liệu về một chỗ, còn đi xa hơn nữa thì hiệu quả trên công sức bỏ ra giảm mạnh
Tôi không thoải mái khi dữ liệu của mình bị lưu trên dịch vụ bên thứ ba
Nhưng việc kết hợp nhiều nguồn để tạo ra một bức tranh tổng thể thì rất thú vị
Dù vậy, tôi cảm thấy việc liên hệ dữ liệu sức khỏe với vị trí và thời tiết có ý nghĩa khá mơ hồ
Những dự án kiểu này sẽ yên tâm hơn nhiều nếu tự host
Ý tưởng về một cơ sở dữ liệu duy nhất có thể truy vấn cho toàn bộ dữ liệu cá nhân rất hấp dẫn
Nhưng thứ thật sự khó không phải là lưu trữ mà là thu thập và chuẩn hóa dữ liệu
Doanh nghiệp cũng gặp vấn đề tương tự — khi tích hợp thông tin từ nhiều nguồn vào một Company Intelligence DB duy nhất
Cách tiếp cận kiểm soát schema ngay từ đầu là đúng, vì schema drift là rủi ro lớn nhất của các dự án dài hạn
Tôi cũng tò mò họ dùng storage engine nào, và quản lý snapshot dữ liệu theo thời gian ra sao