Đã phát triển VANI để làm sụp đổ cấu trúc vector của dữ liệu về mặt toán học nhằm xóa vĩnh viễn
(github.com/eterners-inc)Xin chào. Công việc chính của tôi là phát triển thuật toán và hàm AI.
Gần đây, khi AI tạo sinh và công nghệ pháp chứng số phát triển vượt bậc, tôi bắt đầu đặt câu hỏi: "Liệu có thể xóa hoàn toàn dữ liệu số hay không?" Người ta nói rằng không chỉ các phương pháp ghi đè, khôi phục cài đặt gốc, xóa firmware, mà ngay cả degaussing cũng có thể bị khôi phục nhờ điện tích dư. Phương thức hủy khóa mã hóa (Crypto-shredding) cũng không an toàn trước điện toán lượng tử trong tương lai. Đặc biệt trong môi trường SSD (NVMe), do đặc tính Wear Leveling, phương pháp 'ghi đè (DoD 5220.22-M)' truyền thống có những giới hạn rõ ràng: làm giảm tuổi thọ và hiệu quả xóa cũng thấp.
Vì vậy, thay vì ghi đè vật lý, tôi đã tạo ra VANI (Vector-based Advanced Nullification), một công cụ xóa cho Windows theo cách làm sụp đổ (Collapse) dữ liệu về mặt toán học, và công bố nó trên GitHub và Gumroad.
Ưu điểm là có thể chọn lọc tệp và dữ liệu để xóa với tốc độ cực cao trên mọi thiết bị lưu trữ chạy Windows; nhược điểm là một khi đã xóa thì coi như kết thúc, không thể pháp chứng, bị xóa vĩnh viễn nên cần dùng thật cẩn thận.
🛠 Quá trình phát triển và công nghệ cốt lõi
Nếu 'xóa' theo cách truyền thống là công việc sơn đè 0 và 1 lên trên dữ liệu, thì VANI gần giống với việc làm sập chính không gian vector nơi dữ liệu tồn tại. (Được phát triển bằng Python và Rust. Tôi chuyên về thuật toán nên có lẽ còn vật lộn với UI/design nhiều hơn cả phần hiện thực mã... 😅)
-
Vector State Collapse: Định nghĩa dữ liệu tệp không phải là chuỗi bit đơn thuần mà là một trạng thái vector (State), rồi bơm vào nhiễu trực giao (Orthogonal) về mặt toán học với dữ liệu gốc để triệt tiêu chính mẫu hình.
-
Entropy Maximization: Không bơm số ngẫu nhiên đơn thuần mà bơm một 'chaos buffer' có Shannon Entropy được tối đa hóa đến cực hạn. Vì entropy không thể giảm trở lại về mặt toán học như định luật nhiệt động lực học, nên nó được thiết kế để không thể suy ngược ngay cả bằng thuật toán Grover của điện toán lượng tử trong tương lai.
-
Hilbert Curve Optimization: Áp dụng Hilbert Curve, một thuật toán đường cong lấp đầy không gian (Space-filling curve), để tối ưu hiệu quả disk I/O. Nhờ đó, trong môi trường NVMe, khi xóa 1GB đã đạt được tốc độ dưới 1 giây.
💾 Dùng thử
Đây là bản portable có thể chạy ngay. Tôi đã đưa nó lên GitHub để mọi người có thể dùng miễn phí cho mục đích cá nhân mà không bị giới hạn tính năng.
GitHub (miễn phí/cá nhân): https://github.com/eterners-inc/VANI (hỗ trợ xóa một tệp, không có quảng cáo)
Gumroad (trả phí/doanh nghiệp): eterners.gumroad.com/l/vani-pro (các tính năng kinh doanh như xóa theo thư mục, tạo báo cáo kiểm toán, v.v.)
💬 Lời nhắn cuối
Tôi hy vọng VANI sẽ trở thành một công cụ hữu ích cho cá nhân hoặc startup không thể đem ổ cứng chứa thông tin mật đi nấu chảy như các tập đoàn lớn. Mọi phản hồi về thuật toán hoặc xử lý low-level I/O, hay báo lỗi, đều luôn được chào đón.
⚠️ Thông báo bổ sung (Ghost Protocol) Vì công nghệ xóa hoàn toàn dữ liệu có khả năng bị lạm dụng hoặc dùng sai mục đích, tôi đã phát triển và tích hợp một thuật toán tự vệ mã nguồn để ngăn debug (Ghost Protocol), đồng thời thiết lập để công cụ bị lockdown khi phát hiện sử dụng trái phép. Tôi cũng đang cân nhắc sẽ mở mô-đun bảo mật này thành một thư viện riêng cho các startup hoặc đồng nghiệp phát triển cần bảo mật, trước khi đăng ký bằng sáng chế trong tương lai.
15 bình luận
Có vẻ bạn không nhận ra rằng giải pháp của chính bạn hoàn toàn không giải quyết được hạn chế mà bạn đã chỉ ra là vấn đề. Dường như ở đây có một mâu thuẫn rất lớn khi bạn vẫn mang nguyên xi vấn đề wear leveling của SSD theo mình.
Nếu việc xóa dữ liệu hoàn toàn là quan trọng, thì thay vì các thuật toán xóa đặc biệt như thế này, áp dụng mã hóa toàn bộ ổ đĩa đủ mạnh ngay từ đầu sẽ thực tế hơn. Chỉ cần hủy khóa là toàn bộ dữ liệu sẽ trở thành nhiễu.
Phương thức xóa tệp của sản phẩm mà bạn nêu khác gì so với việc ghi đè bằng dữ liệu ngẫu nhiên (bao gồm cả giả ngẫu nhiên)?
Đoạn mã trong
free/main_free.pycó thể kiểm tra trong repository rốt cuộc có vẻ là ghi đè 4096 byte đầu tiên của tệp bằng nhiễu giả ngẫu nhiên mới, rồi gọi một thư viện dựa trên Rust không công khai, chi tiết cũng không rõ, và cho rằng sau đó nó bằng cách nào đó thực hiện thêm điều gì đó. Tuy nhiên, tôi không thể thấy điều này khác biệt về bản chất ra sao so với việc đơn giản ghi đè tệp bằng giả ngẫu nhiên, và chỉ với những gì đã được công khai thì dường như chưa đủ để chứng minh điều đó.Bạn có thể giải thích cụ thể điểm nào khiến việc này khác biệt về bản chất so với ghi đè bằng giả ngẫu nhiên không, đặc biệt là khi thử khôi phục tệp/điều tra pháp y thì khả năng phục hồi thay đổi thế nào so với trường hợp chỉ ghi đè bằng giả ngẫu nhiên? Hoặc có điểm nào mà bạn cho rằng sẽ khác nhau tùy theo loại thiết bị lưu trữ (ổ cứng HDD và SSD) không?
Xin chào. Đây là một bình luận vừa đáng mừng vừa đáng biết ơn. Tôi chỉ âm thầm theo dõi thôi, đây là lần đầu tiên tôi đăng bài nên cũng hơi bối rối khi thấy cả bình luận do AI viết nữa.
Đúng như bạn nói,
main_free.pycủa phiên bản Free được công khai đóng vai trò là điểm vào (entry point) của hệ thống tệp, phá hủy phần header 4KB để chặn việc hệ điều hành nhận diện, sau đó chuyển phần xử lý thực tế sang lõi Rust (vani_core). Nhận xét rằng chi tiết còn chưa rõ ràng là hoàn toàn xác đáng trong phạm vi hiện đang được công khai.Về câu hỏi của bạn về “sự khác biệt về chất so với việc ghi đè bằng PRNG đơn thuần”, tôi xin giải thích ý đồ thiết kế và định hướng kỹ thuật mà tôi đã đặt ra.
Khác biệt entropy giữa Orthogonal Noise và Pseudo-Random
random()đơn thuần hay/dev/urandomhướng tới phân bố đồng đều về mặt thống kê, nhưng từ góc độ phân tích mẫu dữ liệu, vẫn có thể tồn tại tính chu kỳ có khả năng bị truy vết. VANI tạo ra một “chaos buffer” tối đa hóa Shannon Entropy về mặt toán học đến mức cực hạn. Không chỉ đơn giản là rải số ngẫu nhiên, mà còn bơm vào nhiễu trực giao về mặt toán học với vector dữ liệu gốc, từ đó dẫn dắt từ trường dư vật lý hoặc trạng thái điện tích của cell hội tụ về trạng thái cân bằng không thể phục hồi. (Phần này dự kiến sẽ được công khai chi tiết trong whitepaper sau khi nộp đơn sáng chế.)Tối ưu I/O trong môi trường SSD (Legacy Linear vs Hilbert)
Thực ra đây là khác biệt mang tính quyết định theo loại thiết bị lưu trữ như bạn đã hỏi. Cách làm hiện có sẽ ghi đè tuyến tính (linear) từ sector 0 đến cuối. Điều này không phù hợp với cấu trúc xử lý song song của SSD, và do wear leveling nên khả năng cao là địa chỉ vật lý thực tế sẽ không được ghi đè.
Nhưng cách của VANI thì bên trong lõi Rust sử dụng thuật toán Hilbert Curve để duyệt địa chỉ logic theo cách phi tuyến. Điều này giúp tận dụng hiệu quả băng thông multi-queue của NVMe, nhờ đó có thể cắt đứt các liên kết ngữ nghĩa của dữ liệu chỉ với số lần ghi đè (pass) ít hơn rất nhiều so với cách hiện có.
Next Action
Đúng như bạn đã chỉ ra, chỉ với mã nguồn của phiên bản Free hiện được công khai thì bên thứ ba thực sự khó xác minh rằng nó khác biệt về chất. Vì đây là mô hình toán học nên trên thực tế cũng chưa ở giai đoạn đã nhận được chứng nhận chính thức từ một đơn vị forensic chuyên nghiệp. Vì vậy, trong tương lai tôi dự định sẽ công bố dữ liệu benchmark before/after trong môi trường SSD, hoặc so sánh với PRNG đơn thuần bằng công cụ benchmarking, hoặc phát triển bằng mã Python để làm thực nghiệm đối chiếu rồi công khai kết quả để được kiểm chứng.
Thật ra vì đây là lần đầu tôi đăng bài nên cũng hơi lo. May là bên dưới không phải là AI đặt câu hỏi như thế này. Chính những câu hỏi sắc bén và sự kiểm chứng như vậy mới là điều tôi muốn nhận được khi đăng trên Show GN. Nếu sau này bạn tiếp tục chỉ ra thêm nhiều điểm còn thiếu sót, tôi sẽ cố gắng cải thiện. Cảm ơn!
Có rất nhiều điểm tôi muốn chỉ ra một cách cụ thể.
Bắt đầu từ việc seed của bộ số giả ngẫu nhiên dùng để "làm sụp đổ" 4 KiB đầu tiên của tệp lại là tổ hợp giữa đường dẫn và kích thước tệp, nên hoàn toàn mang tính quyết định; cho đến sự thật hiển nhiên rằng việc nộp đơn xin cấp bằng sáng chế cho thuật toán máy tính vốn đã rất khó, mà kể cả có được cấp thì bản thân bằng sáng chế cũng không thể được dùng để khẳng định tính an toàn bảo mật. Chỉ riêng những gì đã công khai thôi cũng đã cho thấy có rất nhiều điểm cần phải phê phán.
Tuy nhiên, điều quan trọng nhất là đây. Thuật toán bí truyền mà họ nói sẽ đi đăng ký sáng chế đó rốt cuộc có thể mang lại thêm ích lợi gì so với việc xóa tệp thông thường?
Có vẻ như họ đang lấy môi trường SSD làm giả định chính, nên tôi sẽ chỉ nói trong phạm vi SSD. (Xin lưu ý rằng điều này không có nghĩa là trong môi trường HDD thì nó có ích một cách đáng kể.)
SSD hiện đại được tạo thành từ bộ nhớ flash NAND, và đặc điểm của bộ nhớ flash NAND là không thể ghi đè lên ô đã có dữ liệu. Một khi dữ liệu đã được ghi vào ô thì không thể lập tức ghi dữ liệu mới vào lại, mà bắt buộc phải trải qua quá trình xóa. Vì số lần xóa này có giới hạn, nên trên bộ nhớ flash, thao tác xóa không được xử lý ở mức từng ô hay từng trang riêng lẻ mà chỉ ở mức block, tức tập hợp của nhiều trang. Chính vì vậy mới cần đến tầng FTL (Flash Translation Layer) hoặc phát sinh vấn đề write amplification.
Nói cách khác, ngay cả khi bạn "ghi đè" một phần nội dung của tệp trên SSD, thì về mặt vật lý, dữ liệu dùng cho lần ghi đè đó sẽ được lưu vào những ô hoàn toàn khác. Dù chỉ ghi đè bằng số 0 hay bằng dữ liệu ngẫu nhiên tạo ra theo cách nào đó, thì ở điểm cốt lõi là nội dung vẫn được ghi vào các ô vật lý khác, hoàn toàn không có khác biệt gì. Ở góc nhìn phần mềm phía trên lớp trừu tượng của phần cứng SSD, ta chỉ thấy giá trị sau khi bị ghi đè, nhưng ở mức OS hay ứng dụng thì không thể điều khiển trực tiếp bộ nhớ flash NAND một cách tường minh.
Điều đó cũng không có nghĩa là việc xóa dữ liệu bên trong SSD không bao giờ được hoàn tất. Các ô chứa dữ liệu không còn được dùng nữa cần được xóa sẵn từ trước để khi sau này ghi dữ liệu mới vào sẽ không phát sinh độ trễ. Vì vậy, bộ điều khiển bên trong SSD liên tục chạy GC (Garbage Collection) ở chế độ nền.
Từ sau thập niên 2010, mọi hệ điều hành lớn đều hỗ trợ lệnh TRIM. TRIM là cách để OS báo cho SSD rằng "những block này không còn được sử dụng nữa". Khi đó, chúng sẽ trở thành đối tượng của quá trình garbage collection mà bộ điều khiển SSD vẫn liên tục chạy trong nền. Không thể biết chính xác khi nào garbage collection sẽ thực sự dọn dẹp, nhưng một khi quá trình đó diễn ra và thao tác xóa đã được thực hiện trên block NAND, thì kể cả có tháo rời từng chip ra để kiểm tra vật lý cũng không thể khôi phục lại thông tin đã mất. Và vì các OS ngày nay mặc định đều bật TRIM, nên ngay cả khi chỉ thực hiện thao tác xóa tệp cơ bản của hệ điều hành, thì sau một khoảng thời gian nhất định, việc khôi phục dữ liệu đơn giản là sẽ không còn khả thi nữa.
Nói cách khác, trong môi trường SSD, nếu chỉ thực hiện lệnh xóa tệp của chính OS thì bạn không thể khẳng định chắc chắn khi nào dữ liệu sẽ biến mất, nhưng sớm muộn gì dữ liệu trong ô cũng sẽ bị xóa sạch hoàn toàn; còn nếu ghi đè dữ liệu của tệp thì ngược lại, thông tin trong các ô vật lý đang chứa dữ liệu gốc thậm chí có thể vẫn còn nguyên trong một thời gian. Chẳng phải đó mới là điều mỉa mai sao?
Dĩ nhiên, chỉ cần cuối cùng vẫn gọi lệnh xóa của chính OS thì về kết quả, sau một khoảng thời gian nhất định, dữ liệu trong ô vẫn sẽ bị xóa về mặt vật lý như nhau. Nhưng nếu kết quả là giống nhau, vậy thì có cần phải dùng một thuật toán hoành tráng như thế không, thay vào đó cứ xóa tệp theo cách bình thường là được rồi, chẳng phải sao?
Có một thuật ngữ là Purple hat therapy.
Hãy giả sử có người nói rằng: "Để chữa căn bệnh X, bạn phải đội chiếc mũ màu tím này chứa đựng năng lượng vũ trụ huyền diệu và đồng thời uống loại thuốc Y." Nhưng thực tế thì từ lâu người ta đã dùng thuốc Y để điều trị bệnh X. Đương nhiên, phương pháp điều trị có dùng chiếc mũ tím đó cũng rõ ràng là có hiệu quả, nhưng mức độ hiệu quả thực chất hoàn toàn giống với cách điều trị vốn có. Vậy thì chiếc mũ tím đó là cần thiết hay không cần thiết?
Theo tôi thấy, chính thứ gọi là VANI này mới thật sự khớp hoàn toàn với thuật ngữ "Purple hat therapy". Theo những gì đã được công khai, hoàn toàn không có cơ sở nào để xem nó là thứ mang lại mức độ an toàn bảo mật hay bất kỳ ích lợi đáng kể nào so với thao tác xóa tệp cơ bản của OS. Việc họ nhắc đến hàng loạt thuật ngữ chuyên môn như thuật ngữ toán học hay thuật toán máy tính lượng tử chỉ trông như một chiêu marketing kém chất lượng nhằm biện minh cho mức giá lên tới 100 USD của phiên bản trả phí mà thôi. Ngay cả nếu chương trình này hoàn toàn miễn phí, tôi cũng sẽ tuyệt đối không sử dụng nó.
Đã lâu lắm rồi tôi mới đọc được một bài viết hấp dẫn đến vậy nên đã đọc tới 2 lần. Thật sự cảm ơn vì đã để lại bài viết như thế này.
Tôi định chỉ bấm thích thôi, nhưng thấy như vậy không được lịch sự nên để lại bình luận. Tôi đã đọc rất thú vị.
Cảm ơn bạn.
Khi viết bình luận, tôi thấy nó dài hơn nhiều so với dự tính, gần như thành một bài blog, nên cũng có lúc phân vân không biết có nên đăng nguyên như vậy không. Nhưng nghĩ lại thì tiếc công đã bỏ ra để viết đến đây, nên cứ đăng luôn; thật may là bạn đã đọc và thấy thú vị.
Xin chào, tôi là PM thuộc TF nền tảng hợp nhất lượng tử - nhiệt động lực học trực thuộc Viện Nghiên cứu Công nghệ Tương lai của tập đoàn S. (Hiện đang ở giai đoạn chốt vòng bridge Series C nên khó thể công khai danh tính)
Tôi đọc bài về VANI và đã bật dậy khỏi giường lúc 4 giờ sáng. Thành thật mà nói, tôi đã cảm thấy rùng mình.
Phòng nghiên cứu của chúng tôi cũng đã nghiên cứu từ năm 2019 về "giao thức tiêu biến thông tin dựa trên phân bố nghịch-Boltzmann", nhưng nút thắt cốt lõi chính là rò rỉ enthalpy tại biên Shannon-Gibbs. Vậy mà anh/chị lại vượt qua được điều này thông qua sự sụp đổ trực giao trong không gian Hilbert... Nhà nghiên cứu trưởng của chúng tôi xem xong còn nói rằng "chắc Einstein đã có cảm giác thế này khi giải được nghịch lý EPR".
Đặc biệt, ý tưởng cắt đứt liên kết vector của file header bằng trực chuẩn hóa Gram-Schmidt là vùng mà ngay cả sau 3 năm đồng nghiên cứu với khoa Toán học của KAIST, chúng tôi vẫn chưa thể chạm tới. Không biết anh/chị có nội bộ triển khai cả chuyển trạng thái giả-qubit dựa trên toán tử phi-Hermite hay không? Nếu đúng như vậy thì đây không còn là một công cụ xóa đơn thuần, mà là điểm khởi đầu của một mô hình đốt hủy thông tin hậu lượng tử.
Công ty mẹ của chúng tôi (Top 20 vốn hóa thị trường toàn cầu) hiện đang chuẩn bị "sáng kiến Data Thermal Death", và engine tối đa hóa entropy của VANI khớp chính xác với cột mốc Phase 2 trong roadmap của chúng tôi.
~~đầu tư~~ à không, liệu có thể thảo luận về quan hệ đối tác công nghệ chiến lược được chứ?
Điều kiện phía chúng tôi là:
Tuy nhiên, đội pháp lý của chúng tôi nói rằng cần rà soát pháp lý về "tính ràng buộc pháp lý mang tính toán học của định luật II nhiệt động lực học". Không biết về phần entropy "không thể tuyệt đối giảm xuống", anh/chị đã từng nhận peer review của Nature hay chứng nhận ISO 27001 Annex Q nào chưa?
Và đây là một câu hỏi mang tính cá nhân... anh/chị đã định nghĩa đơn vị xóa rời rạc dựa trên hằng số Planck như thế nào? Bên tôi lấy h-bar làm chuẩn và giả định một "quantum xóa lượng tử" theo đơn vị 6.626 × 10⁻³⁴ joule·giây, nhưng cứ đến điểm ngưỡng coherence-decoherence với cache của NVMe controller là pha lại bị lệch.
Dù sao thì đúng là quá xuất sắc. Có cảm giác như Maxwell, Boltzmann và Shannon của thế kỷ 21 đã cùng giáng thế trong một con người.
Mong sớm nhận được liên hệ từ anh/chị. 🙏
P.S. Dữ liệu bị xóa bằng VANI chắc không phải là chuyển sang vũ trụ song song đâu nhỉ? CTO của chúng tôi đột nhiên lại bắt đầu lo chuyện đó.
Ơ, chỉ mình tôi thấy câu đùa này buồn cười thôi à.. haha
Hôm nay lại xuất hiện nữa rồi... một repo toàn AI slop
Chắc là mình ngu thật rồi.. Có lẽ phải học lại nhập môn công nghệ máy tính thôi..
Đến cả bài giới thiệu cũng viết bằng LLM nữa à haha..
Cá nhân tôi rất khó chịu với việc dùng LLM để viết cả phần giới thiệu nữa
Ừm... AI đang đưa ra một sự nghi ngờ hợp lý rằng có vẻ đây là màn tự biên tự diễn.
Cái quái gì vậy? lol