Chúng ta đã phi tập trung đến mức nào?

(arewedecentralizedyet.online)

2 điểm bởi GN⁺ 2025-08-31 | 2 bình luận | Chia sẻ qua WhatsApp

Trang web này đo lường mức độ tập trung của dữ liệu người dùng trong Fediverse (Mastodon, Pixelfed, v.v.) và Atmosphere (Bluesky, WhiteWind, v.v.)
Sử dụng Herfindahl–Hirschman Index (HHI) và Shannon Index để phân tích mức độ phân tán người dùng giữa các máy chủ
HHI là một chỉ số trong kinh tế học dùng để đo mức độ cạnh tranh; giá trị càng thấp thì mức độ phân tán càng lớn, càng cao thì càng cho thấy sự tập trung mang tính độc quyền
Shannon Index là chỉ số đa dạng dựa trên entropy; giá trị càng cao thì dân số người dùng càng được phân bố đồng đều giữa các máy chủ
Ngoài mức độ tập trung dữ liệu, dự án này còn xem xét nhiều yếu tố đo lường tính phi tập trung như cấu trúc mạng, thẩm quyền pháp lý, sự tập trung quyền lực xã hội; đồng thời công khai dữ liệu và mã nguồn trên GitHub

Giới thiệu và các khái niệm chính

Đo lường mức độ tập trung của dữ liệu người dùng trên các nền tảng Fediverse và Atmosphere bằng Herfindahl–Hirschman Index (HHI)
HHI là một chỉ số tiêu biểu trong kinh tế học để đánh giá mức độ cạnh tranh, được tính bằng cách cộng bình phương tỷ lệ người dùng mà mỗi máy chủ (hoặc PDS) chiếm giữ
Khi giá trị HHI càng gần 0, điều đó có nghĩa là người dùng được phân bố khá đồng đều trên nhiều máy chủ; khi càng gần 10.000, điều đó cho thấy trạng thái độc quyền khi phần lớn người dùng tập trung vào một máy chủ
Thông thường, HHI dưới 100 được xem là “rất cạnh tranh”, dưới 1.500 là “không tập trung”, và từ 2.500 trở lên là “tập trung cao”

Phương pháp đo lường và định nghĩa dữ liệu

Đối tượng đo lường là máy chủ (instance) của Fediverse và PDS (máy chủ dữ liệu cá nhân) của Atmosphere
Với các nền tảng như Mastodon nơi người dùng phân tán trên nhiều instance, các instance thuộc cùng một đơn vị vận hành sẽ được gộp lại thành một
- Ví dụ: mastodon.social và mastodon.online do cùng một công ty vận hành nên được gộp chung trong thống kê
- Tất cả PDS do Bluesky Social PBC quản lý cũng được tính là một
Cách làm này giúp phản ánh chính xác quy mô người dùng do một thực thể duy nhất kiểm soát

Những góc nhìn khác nhau về đo lường tính tập trung

Ngoài phân bố vật lý của dữ liệu người dùng, còn có thể phân tích mức độ phi tập trung từ nhiều khía cạnh khác
- Khía cạnh cấu trúc mạng (ví dụ: P2P, relay, v.v.)
- Phương thức quản lý danh tính
- Quyền sở hữu và vị trí của hạ tầng thực tế (khu vực, thẩm quyền pháp lý, v.v.)
- Sự tập trung quyền lực về mặt xã hội và tổ chức (ví dụ: hiện tượng tập trung ảnh hưởng trong nền tảng)
Không chỉ phân bố dữ liệu trong nền tảng, mà cả mức độ phân tán của quyền hạn và ảnh hưởng cũng cần được coi trọng

Tham gia dự án và mã nguồn mở

Toàn bộ mã nguồn và bộ dữ liệu được dùng cho việc đo lường đã được công khai tại kho lưu trữ GitHub
Hoan nghênh đóng góp, bình luận, đề xuất chỉ số đo lường mới cũng như bổ sung các chỉ số về resiliency (khả năng phục hồi)

2 bình luận

codject 2025-08-31

Cách nói "Chúng ta đã phi tập trung đến mức nào?" không hẳn là sai, nhưng nghe không tự nhiên và hơi gượng.
"Vẫn/chưa" thường chủ yếu đi với câu phủ định nên...

Tôi nghĩ một nhan đề như "Phi tập trung vẫn còn là chuyện tương lai sao?" sẽ tự nhiên hơn.

GN⁺ 2025-08-31

Ý kiến trên Hacker News

Hôm nay lần đầu tiên tôi biết đến Herfindahl–Hirschman Index, nên muốn thử nó với một trường hợp kỳ lạ đáng nhớ
Vào cuối thập niên 1980, đã có một giai đoạn Microsoft ghi nhận thị phần vượt 100% trong thị trường bảng tính trên Macintosh
Điều này có thể xảy ra vì cách tính thị phần là lấy doanh số của từng bên tham gia trong một khoảng thời gian nhất định chia cho tổng doanh số toàn thị trường trong cùng kỳ đó, và khi ấy bảng tính Lotus Jazz của Lotus thất bại nặng đến mức số lượng hàng bị trả lại còn nhiều hơn số lượng bán ra
Kết quả là Lotus có thị phần âm, còn doanh số của Microsoft Excel lại lớn hơn tổng doanh số toàn thị trường nên thị phần vượt quá 100%
Tôi không nhớ con số chính xác, nhưng đại khái là Microsoft 102%, Lotus -2%
Trong trường hợp này Herfindahl–Hirschman Index sẽ là 1022 + (-2)2 = 10404 + 4 = 10408
Trong những trường hợp cực đoan như vậy, HHI có thể vượt quá 10.000
(Đã thêm điều kiện "trong một khoảng thời gian nhất định" để dễ giải thích)
- Tôi đã tìm rất kỹ các bài viết liên quan trên mạng nhưng không thấy (có khi nó nằm đâu đó trên microfiche...)
  Thay vào đó tôi tìm được một giai thoại thú vị
  Có người kể rằng một giám đốc của Lotus từng đùa: “Tháng đầu chúng tôi xuất xưởng 62.000 bản, tháng sau có 64.000 bản bị trả lại. Thậm chí cả bản sao lậu cũng được đem trả”
  Bài viết liên quan trên Forbes
- HHI thực sự là một chỉ số rất hữu ích
  Khái niệm tổng bình phương của các thị phần đã chuẩn hóa áp dụng tốt không chỉ cho thị phần mà còn cho nhiều tình huống khác
  Nó cũng có một ví dụ sử dụng rất hay trong bầu cử
Kết quả này thú vị nhưng không hẳn đáng ngạc nhiên
Với người dùng phổ thông, BlueSky gần như là một dịch vụ có thể thay thế Twitter
Tổng số người dùng của Mastadon ít hơn, nhưng thật đáng mừng khi hệ sinh thái Mastadon có vẻ tránh được sự tập trung quyền lực tốt hơn hệ sinh thái AT-Proto
Cá nhân tôi đoán rằng chi phí vận hành server/relay AT proto sẽ khá nặng với các nhà vận hành quy mô nhỏ, nhưng đây chỉ là suy đoán khi tôi chưa hiểu sâu cấu trúc nội bộ của hai hệ sinh thái
- Việc vận hành một PDS server cho bản thân và vài người bạn không quá tốn kém
  Nhưng làm vậy cũng không mang lại lợi ích lớn, vì mục tiêu của PDS là tách gọn dữ liệu của riêng bạn khỏi dữ liệu của toàn mạng
  Thứ tốn kém trong ATProto là Relay (thu thập/phát toàn bộ dữ liệu) và AppView (lưu toàn bộ bài viết/lượt thích v.v. vào cơ sở dữ liệu và phản hồi yêu cầu của người dùng)
  Tất nhiên, với các mạng nhỏ, chẳng hạn dùng để đăng bài dài như WhiteWind, số lượng sự kiện phát sinh ít nên vẫn vận hành ổn
  Phần lớn được thiết kế theo hướng không cần tự host
  Bạn có thể tự làm thuật toán feed hoặc frontend riêng bằng cách lấy dữ liệu từ Relay hay AppView do Bluesky vận hành
- Tôi nghĩ một trong những lý do BlueSky thành công là họ không lấy "phân tán" ra làm điểm bán hàng như Mastodon
  Đa số người dùng không biết phân tán là gì, cũng chẳng muốn biết
  Theo tôi, cần dồn nhiều công sức hơn vào vận hành tốt và các tính năng quản trị thay vì vào phân tán hóa
- ATProto đang được hậu thuẫn bởi các công ty và nhà đầu tư có xuất thân rất đa dạng
  Rồi sẽ đến lúc họ cũng muốn có lợi nhuận, và rất khó đoán điều đó sẽ được hiện thực hóa theo cách nào
- Về chuyện chi phí vận hành, ATProto có kiến trúc rất khác
  Mastodon là mô hình nhiều server giống Twitter riêng lẻ trao đổi thông tin với nhau như email, nên các server nhỏ cho nhóm quen biết có chi phí thấp
  Nhưng với cấu trúc đó thì khả năng kết nối với mạng toàn cầu kém hơn, và server của tôi cũng chính là danh tính của tôi
  Khi theo dõi người dùng ở server khác, server của tôi sẽ yêu cầu thông tin từ server đó, nhưng về cơ bản cái nhìn về toàn mạng vẫn bị phân mảnh
  Ngay từ đầu, ATProto đã được phân tách theo cách khác để có thể cạnh tranh với các dịch vụ tập trung, bằng cách tách nguồn dữ liệu khỏi tầng tổng hợp ứng dụng
  Nó hơi giống việc mọi người đăng JSON lên website(url) của chính mình, còn ứng dụng thì tổng hợp dữ liệu đó
  Kết quả là mọi người đều có cùng một view (mọi bình luận, lượt thích, trả lời đều được phản ánh)
  Trong khi Mastodon là một "instance" hoạt động như một webapp Twitter độc lập, ATProto có nhiều primitive phân tán khác nhau
  - PDS là kho lưu trữ dữ liệu độc lập với ứng dụng, chi phí tự vận hành cực thấp (mức dưới 1 USD/người dùng/tháng), có triển khai mã nguồn mở và khá giống Git hosting
  - AppView đóng vai trò backend ứng dụng thực tế; để vận hành một Bluesky AppView ingest toàn bộ dữ liệu mạng thì tốn khoảng $300/tháng
    AppView chỉ nhìn một phần mạng theo kiểu Mastodon thì rẻ hơn nhiều, nhưng kém hấp dẫn nên hầu như không ai dùng
  - Relay dùng để tối ưu phát dữ liệu giữa nhiều PDS và AppView; sau Sync 1.1 thì giá đã giảm mạnh xuống khoảng $30/tháng
    Tóm lại, vận hành PDS và Relay thì rẻ, còn vận hành toàn bộ AppView mới là phần tốn kém, mà Mastodon lại không hề có khái niệm tương đương
    Vì vậy rất khó so sánh giá đơn thuần giữa trải nghiệm phân mảnh của Mastodon và trải nghiệm nhất quán của ATProto
    Chạy partial AppView theo kiểu Mastodon thì rẻ nhưng không thật sự hấp dẫn
    Ngoài ra, Mastodon đang cố giảm bớt vấn đề này bằng cách đưa vào on-demand fetching, nhưng hệ phân tán dựa trên pull vẫn có giới hạn
    Câu hỏi liên quan
Rốt cuộc, ngay cả trong các hệ thống phân tán cũng tự nhiên xuất hiện hiện tượng tập trung
Git cũng là một nỗ lực theo hướng phân tán, nhưng trên thực tế lại dồn về các nền tảng như GitHub hay GitLab
BitTorrent cũng là phân tán, nhưng các trang tracker lại trở thành trung tâm một cách tự nhiên
Bitcoin cũng vậy, khi một vài dịch vụ như Coinbase giữ vai trò trung tâm
Ngay cả email (SMTP) cũng trên thực tế có xu hướng tập trung do vấn đề spam
- Với email (SMTP), nói rằng "chỉ các công ty lớn mới có thể lọc spam" là không đúng
  Đã có các danh sách lọc spam phân tán từ rất lâu rồi, và các công ty lớn cũng không có ưu thế đặc biệt nào trong việc lọc spam
  Chỉ là các công ty lớn có xu hướng xem các mail server nhỏ là spam, và thực sự cũng có thể có ý định triệt hạ đối thủ
  Tuy nhiên, cũng không phải cứ cấu hình đúng reverse DNS và DKIM cho mail server là chắc chắn không bị đánh dấu spam; ngay cả các dịch vụ lớn cũng có thể đánh dấu mail của nhau là spam, nên không có gì là tuyệt đối
- Có rất nhiều trang tracker, và nếu một cái biến mất thì một cái khác sẽ nhanh chóng xuất hiện
  Vì thế không có một người chơi duy nhất nào kiểm soát toàn bộ hệ sinh thái, nên vẫn có thể xem là phân tán
- Những dịch vụ như Coinbase thì ai cũng có thể tạo
  Trên thực tế có nhiều trang tương tự tồn tại, và giờ thậm chí PayPal cũng dùng được
  Không cần phải phụ thuộc vào một dịch vụ duy nhất; chẳng hạn bạn có thể mua bitcoin trên PayPal rồi bán trên Coinbase
  Tôi thấy việc định nghĩa tình huống đó là tập trung hóa nghe hơi lạ
- Cũng phải nói rằng bản thân Git không phải là một công cụ được tạo ra với mục tiêu phân tán hóa
- Tất cả các ví dụ được nêu ra rốt cuộc đều có yếu tố tập trung
Trong fediverse thì đúng là phân tán hơn, nhưng lại kém nhất quán hơn
Đây là điều khiến những người mới bước vào fediverse hay phàn nàn nhất
Cá nhân tôi thấy đây vẫn là một bước nhảy lớn và chấp nhận được, nhưng đặt kỳ vọng thực tế còn quan trọng hơn
- Tôi tò mò "tính nhất quán" ở đây chính xác là nghĩa gì (tôi chưa từng dùng fediverse nên thiếu bối cảnh)
Tôi tự hỏi nếu dùng cách như HHI để đo các hệ thống liên hiệp cũ như IRC hay NNTP thì sẽ ra sao
Tò mò không biết các hệ thống ngày xưa sẽ cho kết quả thế nào với kiểu chỉ số này
- Có trường hợp freenode đổi chủ rồi gần như mọi người chuyển đi hết chỉ trong vòng một tuần
  Điều thú vị là mức độ di động đó lại rất dễ dàng và hoàn toàn khả thi
- Trong môi trường nhỏ, semi-private, IRC vẫn rất tuyệt, đặc biệt nếu có scroll-back qua web frontend
  Nhưng khi quy mô quá lớn thì nó bắt đầu sụp đổ vì khác biệt chính trị và văn hóa
  Khi là nơi tụ tập của những người cùng chí hướng thì nó hoạt động rất tốt, nhưng khi mở công khai cho toàn bộ công chúng thì sẽ phát sinh khác biệt quan điểm, troll, bot AI v.v.
  Có thể giữ web interface ở mức semi-private, thêm xác thực đơn giản, chặn referrer v.v. để ngăn rủi ro bảo mật, xung đột và bot bên thứ ba
  NNTP cũng ổn, nhưng mirror toàn bộ các binary group riêng lẻ không hề dễ, và vì các ISP không còn hỗ trợ nữa nên đa số phải dùng commercial news feed hoặc nhà cung cấp Usenet miễn phí
  Tốt hơn là peering với một vài nhà cung cấp miễn phí để giảm rủi ro kiểm duyệt
  Cả IRC lẫn NNTP đều cho phép cá nhân tạo các linked server riêng tư hoặc semi-private của riêng mình
  Thông tin liên quan
- Về mặt toán học thì tính rất dễ, và có thể xem thống kê mạng liên quan tại netsplit.de
Sẽ rất thú vị nếu thêm Nostr vào phân bố HHI kiểu này
Ở Nostr, sự tập trung của user base thường được xem là điểm yếu chính của mô hình fedi, nhưng trường hợp này có thể ra kết quả hơi kỳ vì danh tính người dùng của Nostr không nằm ở một relay đơn lẻ
- Đó là vì đa số client Nostr gửi dữ liệu tới nhiều relay, còn bản thân tài khoản chính là cặp khóa công khai của thiết bị người dùng
Tôi nghĩ các vấn đề tập trung/phân tán kiểu này rốt cuộc luôn là vấn đề của marketing và UX
Nếu Threads được tính vào Fediverse thì có lẽ sẽ có thay đổi thú vị
- Threads cũng tự cung cấp các kiểm soát quyền riêng tư mạnh hơn theo kiểu opt-in, nhưng rốt cuộc tôi nghĩ nó vẫn có thể được xem là một trong những "server sở hữu dữ liệu người dùng" trong Fediverse
Điều quan trọng là giữ được sự cân bằng tốt
Quá phân tán thì chẳng ai tìm thấy gì, còn quá tập trung thì tự do sẽ biến mất vì kiểm duyệt
- Cá nhân tôi tự hỏi liệu khả năng được tìm thấy trong môi trường phân tán có thật sự là điều bất khả thi hay không
  Nếu đổ đủ nguồn lực (tiền bạc/nhân lực v.v.) vào việc lập chỉ mục, thì điểm cân bằng có thể lại bất ổn như dựng ngược một con lắc
  Đã từng có thời kỳ hoàng kim của blog, nơi công cụ tìm kiếm (trung tâm) và blog/forum (cá thể) phối hợp hài hòa, nhưng theo thời gian điều đó suy yếu vì spam và sự tích hợp của các nền tảng lớn
- Tôi muốn chỉ ra rằng lập luận này xuất phát từ giả định rằng chức năng "khám phá/tìm thấy" nhất thiết phải có yếu tố tập trung
- Về mặt kinh tế học, HHI dưới 100 được xem là "cạnh tranh rất mạnh", dưới 1500 là "không tập trung", còn từ 2500 trở lên là "tập trung cao"
  Fediverse gần như ở sát đầu bên trái nhưng đã là 690 rồi
  Tập trung hoàn toàn (đi thẳng lên phía trên) là 5000
  Thực tế ở đây đang thể hiện một thang đo phi tuyến theo cách tuyến tính
- Tôi muốn có quyền lựa chọn một cách chủ động
  Mong rằng người dùng có thể tự chọn giữa tập trung, phân tán hoặc hybrid
- Nếu có phê phán rằng nó "quá phân tán", thì một tổ chức phi lợi nhuận có thể tạo một chỉ mục nơi các host công khai tự nguyện đăng ký để mọi nội dung phân tán đều có thể được tìm thấy
  Làm như vậy thì vấn đề tìm kiếm cũng có thể được giải quyết
  Rốt cuộc có lẽ Facebook sẽ cố kéo loại dữ liệu này vào qua Threads
Bản thân chỉ số HHI này vừa mới mẻ vừa dễ hiểu
Nếu scale xuống 0~100 (chia cho 100) thì các con số có lẽ sẽ trực quan hơn
Cũng có thể cân nhắc đảo ngược để 0 là tập trung và 100 là phân tán hoàn toàn
Vì tiêu đề trang chủ tạo cảm giác như đang đo "mức độ tiến triển" hướng tới phân tán hóa, nên làm vậy có vẻ trực quan hơn
- Tuy nhiên, lý do không chuẩn hóa về 0~100 có thể là để người ta không cảm nhận con số này theo kiểu tuyến tính
  Thấy điểm 2500 thì người ta sẽ tự hỏi nó có nghĩa gì, nhưng nếu hiện là 25/100 thì cảm giác "tập trung cao" lại yếu đi nhiều hơn