Tôi đã đưa toàn bộ cuộc đời mình vào một cơ sở dữ liệu

(howisfelix.today)

2 điểm bởi GN⁺ 2026-03-11 | 2 bình luận | Chia sẻ qua WhatsApp

Đây là một dự án thu thập và trực quan hóa toàn bộ dữ liệu đời sống cá nhân từ năm 2019, ghi lại hơn 100 hạng mục mỗi ngày như tập luyện, giấc ngủ, tâm trạng, vị trí, thời tiết
Đã tích lũy khoảng 380.000 điểm dữ liệu, kết hợp nhiều nguồn như RescueTime, Foursquare Swarm, Apple Health cùng dữ liệu nhập thủ công
Toàn bộ dữ liệu được lưu trong một cơ sở dữ liệu duy nhất dựa trên Postgres và được công khai dưới dạng trực quan hóa bằng Ruby, JavaScript, Plotly
Dự án được phát hành dưới dạng mã nguồn mở MIT và vận hành hoàn toàn theo mô hình tự lưu trữ trên máy chủ cá nhân
Sau 3 năm thử nghiệm, tác giả kết luận hiệu quả thực tế của việc tự xây dựng là khá hạn chế, nhưng đây vẫn là một ví dụ cho thấy tầm quan trọng của tự nhận thức và chủ quyền dữ liệu

Tổng quan dự án

Dự án dữ liệu cá nhân lượng hóa các chỉ số bao quát toàn bộ cuộc sống của tác giả trong 3 năm kể từ 2019
- Ghi lại hơn 100 hạng mục mỗi ngày, bao gồm thể chất, dinh dưỡng, đời sống xã hội, việc sử dụng máy tính, thời tiết
- Thu thập tổng cộng 380.000 điểm dữ liệu
Các nguồn dữ liệu chính
- RescueTime: 149.466 bản ghi sử dụng website và ứng dụng
- Foursquare Swarm: 126.285 bản ghi về vị trí và địa điểm đã ghé thăm
- Nhập thủ công: 67.031 bản ghi về tâm trạng, giấc ngủ, sức khỏe, thói quen ăn uống
- Weather API: 15.442 bản ghi thời tiết
- Apple Health: 3.048 bản ghi số bước chân

Cấu trúc cơ sở dữ liệu và thành phần kỹ thuật

Toàn bộ dữ liệu được lưu theo cấu trúc key-value có dấu thời gian dựa trên Postgres
- Mỗi hàng gồm timestamp, key, value
- Tác giả viết script tự động gắn thẻ theo ngày để tính đến chênh lệch múi giờ
Nhập dữ liệu
- Trả lời nhiều câu hỏi trong ngày thông qua bot Telegram
- Các giai đoạn như thời kỳ phong tỏa, mùa tập luyện được nhập theo khoảng thời gian
Công cụ trực quan hóa
- Tự xây dựng lớp phân tích bằng Ruby, JavaScript, Plotly
- Chọn 48 biểu đồ để công khai, hiển thị ở dạng snapshot

Những insight dữ liệu nổi bật

Tương quan giữa tâm trạng và hành vi
- Khi ở trạng thái vui vẻ hoặc phấn khích, xác suất thiền tăng 44%, đọc sách hoặc nghe audiobook tăng 28%, uống rượu tăng 31%
Giấc ngủ và thể trạng
- Khi ngủ hơn 8,5 giờ, xác suất đau đầu hoặc có triệu chứng cảm tăng, năng lượng giảm 24%
Tập luyện và thay đổi cân nặng
- Bắt đầu giai đoạn “lean bulk” từ tháng 8/2020, cân nặng +8,5 kg, nhịp tim lúc nghỉ +9 bpm
- Tăng từ 69 kg năm 2014 lên 89,8 kg vào năm 2021
Vị trí và mô hình di chuyển
- Sống ở San Francisco giai đoạn 2016–17, New York giai đoạn 2018–19, Vienna giai đoạn 2020–21
- Sau COVID-19, số chuyến bay giảm mạnh, tác động của phong tỏa rất rõ rệt
Khí hậu và thói quen sinh hoạt
- Mùa hè: số bước chân tăng 33%, uống rượu tăng 23%, bệnh tật giảm 40%
- Mùa đông: mua sắm online tăng 100%, triệu chứng cảm tăng 45%

Ví dụ về cách khai thác dữ liệu cá nhân hóa

Air Quality: đo nồng độ CO₂ theo từng phòng trong nhà ở Vienna, phát hiện vấn đề thông gió trong phòng ngủ
Lịch sử Spotify: từ năm 2013 đã nghe nhạc 480.000 phút (334 ngày), nghe hết 49% trong tổng 200.000 bài hát
Instagram Stories: đăng 1.906 story trong 3 năm, giảm trong giai đoạn đại dịch
Hoạt động GitHub: sau fastlane (2014–2018) vẫn tiếp tục các dự án cá nhân như FxLifeSheet
Quản lý đầu tư: theo dõi phân bổ tài sản và chạy mô phỏng mỗi 2 tuần

Quyền riêng tư và triết lý mã nguồn mở

Toàn bộ dữ liệu được lưu trên máy chủ do chính tác giả sở hữu, không kết nối với dịch vụ bên ngoài
Các biểu đồ công khai được giới hạn ở dạng không làm lộ thông tin cá nhân
Nhấn mạnh quan điểm: “Dữ liệu mà các tập đoàn lớn đã nắm giữ thì cá nhân cũng nên trực tiếp sở hữu”
FxLifeSheet được phát hành theo giấy phép MIT để bất kỳ ai cũng có thể sửa đổi và sử dụng

Kết luận và cập nhật năm 2025

Kết quả sau 3 năm thử nghiệm: hệ thống tự xây dựng có hiệu quả thấp so với thời gian bỏ ra
- Có ít insight đáng kinh ngạc hơn kỳ vọng
- Nhưng vẫn trải nghiệm được giá trị của tự nhận thức và chủ quyền dữ liệu
Trong tương lai, tác giả dự định chỉ theo dõi tối thiểu các chỉ số cốt lõi như tâm trạng
Tính đến năm 2025, việc thu thập dữ liệu đã dừng lại, nhưng website vẫn sẽ tiếp tục được duy trì

2 bình luận

junghan0611 2026-03-12

Tôi cũng đã để lại những ghi chép tương tự. Trước đây chỉ lưu lại một cách mơ hồ, nhưng dạo này tôi đang chia sẻ các ghi chép của mình với các agent để cùng cộng tác ở cấp độ tồn tại với tồn tại. Tôi tạo và chia sẻ nhiều kỹ năng khác nhau, đồng thời cũng mở giao diện Emacs mà tôi dùng, nên cả tôi lẫn các agent đều cùng chia sẻ những ghi chép đó theo cùng một cách. Hễ ai bảo cần gì thì tôi thêm vào, thứ tôi cần thì tự làm rồi cùng dùng, cùng phản hồi, người ngoài nhìn vào chắc thấy như tự biên tự diễn. Còn bọn tôi thì chỉ thấy vui quá đi mất.

[liên kết đã xóa]

GN⁺ 2026-03-11

Ý kiến trên Hacker News

Phần tóm tắt ở cuối trang rất ấn tượng
Sau khi xây dựng và mở rộng dự án trong nhiều năm rồi phân tích dữ liệu, họ nhận ra việc tự làm giải pháp có giá trị khá thấp so với thời gian bỏ ra
Ban đầu họ kỳ vọng sẽ có những insight đáng kinh ngạc, nhưng thực tế ngoài vài biểu đồ thú vị thì không có phần thưởng nào xứng đáng với hàng trăm giờ đầu tư
Phong trào “Quantified Self” có lẽ gần với chủ nghĩa hoàn hảo mang tính ám ảnh hơn
- Tôi đã đeo Apple Watch gần 10 năm
  Dữ liệu vốn tưởng như không có nhiều ý nghĩa ấy, đến một ngày lại trở thành thông tin then chốt giúp tránh chẩn đoán nhầm bệnh tim
  Chính nhờ có hồ sơ ổn định trong thời gian dài mà bác sĩ có thể sửa lại nhận định sai
  Giá trị của dữ liệu nằm ở tính hữu dụng tức thời chỉ bất ngờ lộ ra sau một thời gian rất dài
- Tôi cũng từng dùng máy theo dõi giấc ngủ, nhưng sau vài tháng thì nó chỉ xác nhận những gì cơ thể tôi vốn đã biết
  Khi nó báo là “ngủ tốt” thì thực ra tôi cũng đã tự cảm nhận được rồi, và dữ liệu không làm thay đổi hành vi của tôi
  Cuối cùng ngoài niềm vui từ việc trực quan hóa dữ liệu thì không có thay đổi thực chất nào
- Tôi cũng từng làm nhiều thử nghiệm theo dõi các chỉ số sinh hoạt
  Tôi đã ghi lại đủ thứ như calo, dinh dưỡng, giấc ngủ, vận động, chất lượng không khí, tâm trạng..., nhưng chỉ sau vài tuần thì giới hạn về hiệu quả so với công sức bỏ ra đã hiện rõ
  Dù vậy, nếu giới hạn thí nghiệm trong một khoảng thời gian nhất định thì vẫn có thể thu được insight hữu ích
  Tích lũy dữ liệu mỗi ngày có thể trở nên ám ảnh, nhưng nếu tiếp cận như thử nghiệm có giới hạn thời gian thì hoàn toàn có ý nghĩa
- Tôi cũng từng thử điều tương tự
  Tôi gom 18 năm bình luận trên Reddit, HN, Slashdot và 3 năm hội thoại với LLM để làm thử nghiệm RAG, nhưng ngược lại nó lại làm giảm tính sáng tạo
  Mô hình bị mắc kẹt trong những suy nghĩ cũ của tôi nên cái mới biến mất
  Cuối cùng dữ liệu hướng về quá khứ, còn tôi thì muốn một mô hình hướng tới tương lai
- Tôi đã tạo một hệ thống ghi chép cá nhân kết hợp nhật ký, phác thảo, ảnh và dữ liệu vị trí
  Đặc biệt, ghi lại cảm xúc là thứ hữu ích nhất — hành động viết ra cảm xúc tự nó đã là quá trình nhận thức và phản tư
  Đọc lại cảm xúc và sự kiện trong quá khứ không chỉ hữu ích, mà còn tạo nên những đường nét tinh tế trong câu chuyện về bản thân
Chỉ cần tính sơ cũng thấy lượng phát thải CO₂ từ các chuyến bay của Felix vào khoảng 70–110 tấn mỗi năm
Nếu tính theo chuẩn của Hiệp định Paris (1,5 tấn/người), thì con số này cao gấp 10–15 lần mức trung bình châu Âu, và hơn 50 lần mục tiêu 1,5°C
- Nếu muốn giảm bay để bảo vệ môi trường thì tăng thuế là cách thực tế
  Đổ lỗi cho cá nhân là không hiệu quả, và thứ thực sự dẫn tới thay đổi hành vi cuối cùng vẫn là thay đổi cấu trúc chi phí
  Ngay cả khi chi phí tăng gấp 10, vẫn sẽ có người tiếp tục bay vì lý do kinh tế
- Tôi là phi công, và đã tính ra mình thải khoảng 65.658 tấn CO₂ trong 10 năm qua
  Nếu tính theo khoảng cách trên mỗi ghế thì sẽ bớt nghiêm trọng hơn, nhưng đây vẫn là một con số gây sốc
  Trang thống kê
- Tôi cũng nghĩ như vậy
  Điều cốt lõi là thật khó để đón nhận mức phát thải này mà không thấy xấu hổ
  Việc một cá nhân tạo ra lượng CO₂ ở quy mô của cả một quốc gia nhỏ là điều gây sốc
- So với mức trung bình ở Mỹ, giao thông chỉ chiếm khoảng 30% và bay chỉ là một phần trong đó
  Vì vậy tổng lượng phát thải của anh ấy có thể còn cao hơn rất nhiều
Theo kinh nghiệm của tôi, chỉ số khách quan (dinh dưỡng, giấc ngủ) thì hữu ích, còn chỉ số chủ quan (tâm trạng, căng thẳng) biến động quá nhiều nên ít ý nghĩa hơn
Cốt lõi là giảm ma sát khi nhập dữ liệu và làm cho việc trực quan hóa trở nên dễ dàng
Tôi đã tự động hóa bằng iPhone Action + Obsidian + script QuickAdd, rồi trực quan hóa bằng Dataview và Chart.js
Tôi rất hài lòng với tổ hợp này
- Mô tả của bạn rất thú vị
  Tôi đang làm một ứng dụng self-tracking tên là Reflect, muốn nghe ý kiến của bạn
  Link ứng dụng Reflect
- Tôi nghĩ theo dõi tâm trạng cũng có giá trị
  Nếu ghi đều đặn, bạn sẽ nhận ra các mô thức cảm xúc của chính mình và bớt tự bào chữa cho bản thân hơn
Nhiều người có vẻ hoài nghi, nhưng phần trực quan hóa và quy mô dữ liệu của dự án này thực sự rất ấn tượng
Đặc biệt, cách thể hiện “My Life in Weeks” rất hay, tôi cũng muốn thử dùng
Có một câu đùa rằng “nếu truy vấn Palantir DB bằng ID con người của tôi thì sẽ ra toàn bộ dữ liệu đời tôi”
- Nghe buồn cười nhưng lại giống một kiểu châm biếm hiện thực đầy chua chát
- Có người đáp lại đùa rằng “phí thuê bao đắt quá nên không dùng nổi”
Dự án này vừa là giấc mơ vừa là ác mộng của tôi
Trước đây tôi từng mê phong trào Quantified Self, từng động tới API của Fitbit và Withings, nhưng sự mệt mỏi vì phải ghi chép cuối cùng đã bào mòn hứng thú
Giờ tôi hy vọng LLM có thể giảm bớt chi phí đó
Gần đây tôi đang dùng MacroFactor để theo dõi dinh dưỡng, và lần đầu tiên có trải nghiệm dữ liệu thực sự dẫn tới hành động
Tôi cũng đã tự động hóa dữ liệu tài chính và hoàn tất việc xử lý thuế bằng Plaid API
Tóm lại, tự tay xây mọi thứ là hơi quá, nhưng chỉ cần khai thác tốt một phần dữ liệu thôi cũng đã rất đáng giá
- Tôi cũng từng theo dõi nhiều hoạt động, và cảm nhận rằng chỉ riêng việc ý thức mình đang bị theo dõi cũng đã làm thay đổi thói quen
  Ví dụ khi đeo GCM, tôi vô thức cố hành xử lành mạnh hơn
  Chính việc được quan sát, hơn là phân tích dữ liệu, mới là thứ thúc đẩy thay đổi hành vi
Cách diễn đạt “mùa đông thì ít tiếp xúc với năng lượng mặt trời hơn” khá thú vị
Có lẽ câu này phần nào giải thích lối tư duy thiên về hình ảnh của cả dự án
Tôi cũng từng làm một hệ thống tương tự nhưng đơn giản hơn nhiều
Tôi hợp nhất dữ liệu từ Apple Health, CSV ngân hàng và Git commit vào SQLite
Thứ thực sự hữu ích là các truy vấn đơn giản — như tương quan giữa thời lượng ngủ và tần suất commit, hay mức chi tiêu tăng vọt khi bắt đầu dự án
Điểm cốt lõi là gom dữ liệu về một chỗ, còn đi xa hơn nữa thì hiệu quả trên công sức bỏ ra giảm mạnh
- Tôi tò mò không biết việc tự động hóa CSV ngân hàng khó đến mức nào
Tôi không thoải mái khi dữ liệu của mình bị lưu trên dịch vụ bên thứ ba
Nhưng việc kết hợp nhiều nguồn để tạo ra một bức tranh tổng thể thì rất thú vị
Dù vậy, tôi cảm thấy việc liên hệ dữ liệu sức khỏe với vị trí và thời tiết có ý nghĩa khá mơ hồ
Những dự án kiểu này sẽ yên tâm hơn nhiều nếu tự host
Ý tưởng về một cơ sở dữ liệu duy nhất có thể truy vấn cho toàn bộ dữ liệu cá nhân rất hấp dẫn
Nhưng thứ thật sự khó không phải là lưu trữ mà là thu thập và chuẩn hóa dữ liệu
Doanh nghiệp cũng gặp vấn đề tương tự — khi tích hợp thông tin từ nhiều nguồn vào một Company Intelligence DB duy nhất
Cách tiếp cận kiểm soát schema ngay từ đầu là đúng, vì schema drift là rủi ro lớn nhất của các dự án dài hạn
Tôi cũng tò mò họ dùng storage engine nào, và quản lý snapshot dữ liệu theo thời gian ra sao