29 điểm bởi GN⁺ 2026-01-06 | 1 bình luận | Chia sẻ qua WhatsApp
  • Năm 2025 được tóm lược bằng sự củng cố vị thế thống trị của PostgreSQL, sự phổ biến của tiêu chuẩn MCP, các thương vụ M&A quy mô lớn, cuộc cạnh tranh định dạng tệp bùng lại, và sự trỗi dậy của Larry Ellison
  • PostgreSQL đã trở thành DBaaS cốt lõi của các hãng cloud lớn, đồng thời xuất hiện thêm các dự án phân tán (Multigres, Neki, PgDog)
  • Tất cả DBMS lớn đều áp dụng Model Context Protocol (MCP) của Anthropic, khiến việc tích hợp giữa LLM và cơ sở dữ liệu chính thức tăng tốc
  • MongoDB đã đệ đơn kiện liên quan đến sao chép API nhằm vào FerretDB, và trong lĩnh vực định dạng tệp, cuộc đua thay thế Parquet trở nên gay gắt hơn
  • Hoạt động mua lại, đóng cửa và huy động vốn diễn ra sôi động trên toàn ngành, khiến năm 2025 được đánh giá là một năm tái cấu trúc và tập trung hóa của ngành cơ sở dữ liệu diễn ra mạnh hơn

Sự mở rộng liên tục của PostgreSQL

  • PostgreSQL 18 được công bố vào tháng 11/2025, giới thiệu hệ thống con lưu trữ I/O bất đồng bộ và tính năng skip scan
    • Giảm phụ thuộc vào bộ nhớ đệm trang của hệ điều hành và cải thiện việc tận dụng chỉ mục nhiều khóa
  • Databricks mua lại Neon với giá 1 tỷ USD, còn Snowflake mua CrunchyData với giá 250 triệu USD
    • Microsoft ra mắt HorizonDB, khiến tất cả các hãng cloud lớn đều sở hữu dịch vụ dựa trên PostgreSQL
  • Các dự án PostgreSQL phân tán mới như Multigres của Supabase, Neki của PlanetScale và PgDog đã xuất hiện
    • Supabase tuyển Sugu, đồng sáng lập Vitess, để dẫn dắt phát triển middleware sharding
  • Trong nhóm dịch vụ PostgreSQL độc lập có Supabase, YugabyteDB, TigerData, PlanetScale, Xata, PgEdge, Nile...
    • Một số startup như Hydra và PostgresML đã đóng cửa trong năm 2025
  • Cạnh tranh M&A và tiến hóa công nghệ xoay quanh PostgreSQL đóng vai trò là động lực cốt lõi của ngành

MCP (Model Context Protocol) phủ sóng toàn diện

  • Trong năm 2025, mọi DBMS lớn đều hỗ trợ tiêu chuẩn MCP của Anthropic
    • MCP là giao diện dựa trên JSON-RPC cho phép LLM tương tác với cơ sở dữ liệu
  • Sau khi OpenAI công bố hỗ trợ MCP vào tháng 3/2025, các hệ thống lớn như ClickHouse, Snowflake, Oracle, MongoDB... đã tung ra máy chủ MCP
    • Các dịch vụ dựa trên PostgreSQL cũng cung cấp máy chủ MCP riêng (Supabase, Timescale, Xata...)
  • Máy chủ MCP truy cập cơ sở dữ liệu theo từng yêu cầu đơn lẻ và không hỗ trợ join giữa các DB dị chủng
  • Nhờ tính năng phân nhánh dữ liệu, Neon xử lý 80% số DB do AI agent tạo ra
  • Về bảo mật, nhu cầu về nguyên tắc đặc quyền tối thiểu và cơ chế bảo vệ tự động được nhấn mạnh
    • Một số hệ thống cung cấp sẵn các biện pháp bảo vệ mặc định như chỉ đọc, timeout truy vấn và giới hạn kết quả

Tranh chấp pháp lý giữa MongoDB và FerretDB

  • MongoDB đã khởi kiện FerretDB trong năm 2025 với cáo buộc xâm phạm bằng sáng chế, bản quyền và thương hiệu
    • FerretDB là một proxy middleware chuyển đổi truy vấn MongoDB sang PostgreSQL, và cụm từ “drop-in replacement” bị chỉ ra là vấn đề
  • Microsoft đã hiến tặng DocumentDB mã nguồn mở tương thích MongoDB cho Linux Foundation
    • Amazon, Yugabyte và các bên khác cũng tham gia dự án
  • Trước tuyên bố của MongoDB rằng họ “khai phá cơ sở dữ liệu phi quan hệ”, bài viết chỉ ra rằng từ những năm 1960 đã có các hệ thống đi trước như IDS, IMS
  • Việc tên ban đầu của FerretDB là “MangoDB” cũng được nhắc đến như một tranh cãi về khả năng gây nhầm lẫn thương hiệu

Cuộc cạnh tranh định dạng tệp bùng lại

  • Trong năm 2025, xuất hiện 5 định dạng tệp mã nguồn mở mới thách thức vị thế của Parquet
    • FastLanes (CWI), F3 (CMU + Đại học Thanh Hoa), Vortex (SpiralDB), AnyBlox (nhóm nghiên cứu Đức), Amudai (Microsoft)
  • Vortex của SpiralDB thu hút chú ý sau khi được hiến tặng cho Linux Foundation, còn AnyBlox giành giải bài báo xuất sắc nhất tại VLDB
  • Đội ngũ phát triển Parquet đã phản ứng bằng cách thúc đẩy công việc hiện đại hóa đặc tả
  • Định dạng F3 có sự tham gia của Pavlo đặt mục tiêu giải quyết vấn đề tương tác liên thông bằng decoder tích hợp dựa trên WASM
  • Cuộc cạnh tranh thế hệ tiếp theo nhiều khả năng sẽ xoay sang khả năng hỗ trợ GPU

Xu hướng M&A, đầu tư và đóng cửa

  • Các thương vụ mua lại lớn trong năm 2025
    • IBM mua DataStaxConfluent, Databricks mua Neon, Tecton, Mooncake
    • Snowflake mua CrunchyData, Datometry, Salesforce mua Informatica, Nvidia mua HeavyDB
    • Fivetran và dbt Labs sáp nhập bất ngờ, tái cấu trúc thành nền tảng ETL tích hợp
  • Các vòng gọi vốn lớn
    • Databricks (4 tỷ và 1 tỷ USD), ClickHouse (350 triệu USD), Supabase (200 triệu và 100 triệu USD), Timescale (110 triệu USD)...
  • Các trường hợp đóng cửa
    • Fauna, PostgresML, Hydra, MyScaleDB, Voltron Data, Apache Derby...
    • Việc đóng cửa IBM Research Almaden được nhắc tới như điểm kết mang tính biểu tượng của nghiên cứu DB
  • Pavlo chỉ ra giới hạn thương mại của DB dựa trên GPU, đồng thời nhấn mạnh sự trưởng thành của các engine OLAP dựa trên CPU và cạnh tranh xoay quanh trải nghiệm người dùng

‘Năm tuyệt vời nhất’ của Larry Ellison

  • Năm 2025, nhà sáng lập Oracle Larry Ellison trở thành người giàu nhất thế giới (393 tỷ USD)
    • Tài sản tăng vọt nhờ giá cổ phiếu Oracle tăng mạnh và đầu tư vào trung tâm dữ liệu AI
  • Oracle tham gia các thương vụ lớn như mua lại TikTok Mỹnỗ lực của Paramount nhằm mua Warner Bros
  • Pavlo mô tả bước tiến của Ellison là “biểu tượng của một con người chinh phục thế giới bằng cơ sở dữ liệu”
    • Bất chấp chỉ trích, ảnh hưởng của Oracle và sự hiện diện của Ellison vẫn cực kỳ mạnh mẽ

Kết luận

  • Ngành cơ sở dữ liệu năm 2025 có thể được tóm gọn bằng sự tái cấu trúc xoay quanh PostgreSQL, sự tăng tốc tích hợp AI·LLM, và sự phân cực giữa các thương vụ M&A lớn với các vụ đóng cửa
  • Pavlo nhấn mạnh rằng cả giới nghiên cứu lẫn ngành công nghiệp đều cần tập trung vào bảo mật, tiêu chuẩn hóa và tự động hóa vận hành
  • Cuối cùng, bài viết khép lại bằng việc hé lộ startup mới Sydht.ai của nhóm nghiên cứu CMU

1 bình luận

 
GN⁺ 2026-01-06
Ý kiến trên Hacker News
  • Nhất định phải xem phong cách giảng dạy rất độc đáo của CMU DB Group
    Có thể xem trong kết quả tìm kiếm YouTube.
    Đặc biệt, phần mở đầu gangstaDJ set thật sự rất ấn tượng.
    Tôi cũng nhớ trước đây từng có một video quay cảnh ai đó ngủ dưới sàn trong giờ học. Điều đó càng khiến tôi tò mò hơn về lý lịch và bối cảnh của Andy

    • Nếu là fan Wu-Tang và hip-hop thì chắc sẽ rất đồng cảm. Phần mở đầu đó thật sự rất ngầu
    • Tôi hơi bối rối không biết “Intro to Database Systems” của CMU là khóa ở bậc đại học hay là một khóa nâng cao nói về nội bộ hệ thống. Với người mới học cơ sở dữ liệu như tôi, tôi muốn tìm một khóa nhập môn phù hợp
    • Tôi đã thêm “https://” vào liên kết để nó có thể bấm được
  • Hơi tiếc là trong các bài tổng kết vài năm gần đây không nhắc tới cơ sở dữ liệu immutable hay bi-temporal
    Những DB kiểu này đặc biệt hữu ích trong ngành fintech.
    Ví dụ tiêu biểu có XTDB v2 (2025)Datomic Free (2023)

    • 5 tuần trước, CMU đã tổ chức một seminar kỹ thuật liên quan đến XTDB.
      Tôi tự hỏi chỉ nhắc là “nó tồn tại” thì có đủ không
    • Với kiểu tstzrange của PostgreSQL và extension pg_bitemporal, bạn có thể đi khá xa.
      Chúng tôi đã triển khai lịch sử thay đổi và chức năng undo bằng một hệ thống audit log dựa trên row trigger.
      Ngoài ra, chúng tôi cũng chuyển log sang kho lưu trữ riêng để duy trì backup ngoại tuyến
    • Các lợi ích của DB immutable đang ngày càng được công nhận. Không chỉ có chức năng audit đơn thuần mà còn có nhiều ưu điểm như đọc đồng thời, sao chép nhanh, undo transaction, v.v.
      Hiện tôi đang phát triển một immutable SQLitexitdb-java
    • Một số bên đang thêm tính thời gian và tính bất biến vào triple store. Lý do là xtdb hay datomic chậm trong truy vấn đồ thị bằng SPARQL.
      Tôi đang chờ một triple store hỗ trợ time travel
    • Tôi cũng đã để lại ý tương tự trong một bình luận khác
  • Xu hướng cơ sở dữ liệu năm 2025 có thể tóm gọn thành hai điểm
    1️⃣ Chuyển mọi thứ sang SQLite
    2️⃣ Sử dụng xoay quanh trường JSON
    SQLite dễ làm việc nhờ cấu trúc một tệp và thiết kế không cần daemon. Nhờ các hàm JSON, việc xử lý dữ liệu linh hoạt cũng rất thú vị

    • Theo góc nhìn của tôi thì dạo này mọi thứ đều là DuckDB. Một tệp duy nhất, hỗ trợ nhiều định dạng, S3, Parquet, lưu trữ cột, WASM, v.v. — quá hoàn hảo
    • Thật ra tôi còn tự hỏi “liệu có thật sự cần DB không?”. SQLite nằm ở điểm trung gian giữa một DB hoàn chỉnh và object storage tự xây.
      Nó cung cấp kiểu API truy cập đối tượng đã được chuẩn hóa
    • Khi SQLite không ở trong môi trường đa người dùng, tôi tò mò nó chịu được đến mức nào nếu nhiều kết nối web cùng lúc thực hiện ghi
    • Trước đây từng có quan niệm là không nên dùng SQLite trong production, nhưng có vẻ giờ đã khác
    • Theo tiêu chí của tôi thì tổ hợp lý tưởng là “nếu được thì SQLite, nếu cần thì PostgreSQL, cho phân tích thì DuckDB, còn BI quy mô lớn thì BigQuery”
  • Tôi hiểu vì sao Pavlo hoài nghi về bảo mật MCP. MCP có triết lý ưu tiên phơi bày ngữ cảnh, đi ngược với nguyên tắc đặc quyền tối thiểu
    Nếu phơi DB qua kiểu giao thức này, không chỉ dữ liệu đơn thuần mà cả độ phức tạp của schema cũng bị lộ ra trước mô hình.
    Cuối cùng nó tạo cảm giác như tái hiện SQL injection — chỉ là lần này nguyên nhân không phải người dùng ác ý mà là hallucination của mô hình

    • Tôi đã tận dụng việc LLM là stateless để xây một MCP gateway có thể truy vết nguồn gốc của ngữ cảnh đầu vào và chặn các thay đổi trạng thái nguy hiểm.
      Nó dựa trên khung lethal trifecta của Simon Willison và có thể xem tại open-edison
    • Sẽ không ai dùng DB MCP có quyền ghi trong môi trường production đâu. Đổ lỗi cho giao thức về chuyện đó là không công bằng
    • Tôi nghi ngờ liệu giá trị nhận được có đủ để chúng ta từ bỏ các nguyên tắc hay không. Có lẽ đây chỉ là phần kéo dài của tinh thần “move fast, break things”
  • Tôi cảm thấy cần phải chuyển sang DB immutable.
    Datomic rất mạnh nhưng phức tạp và đường cong học tập dốc, còn immudb thì vẫn chưa thực sự sẵn sàng cho production.
    Chỉ cần vượt vài trăm nghìn bản ghi là đã bắt đầu có vấn đề

  • Supabase đang tăng trưởng cực mạnh.
    Tôi còn nghe nói khoảng 70% startup YC đang dùng nó.
    Tôi tò mò liệu sau này họ có chuyển sang self-hosted không

  • Có nhắc đến việc EdgeDB đổi tên thành Gel, nhưng đáng lẽ nó cũng nên được thêm vào mục mua lại.
    Gel đã gia nhập Vercel

    • Cảm ơn. Tôi đã thêm liên kết đính chính vào blog.
      Tôi cần tìm cách tự động theo dõi những thay đổi kiểu này
    • Thành thật mà nói tôi thấy thất vọng. Ngay cả khi xem bài viết chính thức của Vercel, tương lai của Gel vẫn có vẻ khá mờ mịt.
      Lần commit cuối trên GitHub cũng đã là 2 tuần trước
  • Nhờ Andy và DB Group của CMU mà cơ sở dữ liệu đã trở nên đại chúng hơn rất nhiều. Đây thật sự là một đội ngũ đẳng cấp thế giới

    • Tôi tò mò cụ thể họ đã làm những gì
  • Bản phát hành PostgreSQL 18 thật sự rất xuất sắc.
    Hầu hết mọi người chỉ nói về async IO worker, nhưng Unicode locale, thêm ràng buộc chưa được kiểm chứng, cột ảo, btree skip scan, UUIDv7 cũng đều là những cải tiến lớn

  • Xu hướng nhiều năm trong thời gian gần đây rất ấn tượng.
    Databricks và Snowflake đã chứng minh được sự linh hoạt và khả năng sinh tồn ngay cả trong cuộc cạnh tranh đám mây.
    Trong khi đó Cloudera và Hortonworks đã thất bại.
    Ngoài ra, ClickHouse cũng đang âm thầm lấp đầy hoàn hảo thị trường ngách của riêng mình