Databases in 2024: Nhìn lại một năm
(cs.cmu.edu)Andy Pavlo (giáo sư CMU) tổng quan toàn cảnh ngành cơ sở dữ liệu trong năm 2024
Cơ sở dữ liệu của tôi, tôi cấp phép theo cách tôi muốn!
- Thế lưỡng nan giữa cơ sở dữ liệu và mã nguồn mở:
- Các DBMS mã nguồn mở thường được phát triển bởi những công ty có lợi nhuận được VC hậu thuẫn.
- Nảy sinh vấn đề khi các nhà cung cấp đám mây cung cấp DBMS phổ biến dưới dạng dịch vụ và thu lợi lớn hơn cả công ty phát triển ban đầu.
- MongoDB đã chuyển sang SSPL (Server Side Public License) vào năm 2018 để giải quyết vấn đề này.
- Thay đổi giấy phép của Redis:
- Redis Ltd. trong lúc chuẩn bị IPO năm 2024 đã chuyển từ giấy phép BSD-3 sang SSPL và giấy phép riêng Redis Source Available License.
- Tháng 3/2024, công ty công bố thay đổi giấy phép cùng với việc mua lại Speedb, một nhánh fork của RocksDB.
- Phản ứng từ cộng đồng:
- Ngay trong tuần đó, hai dự án fork là Valkey và Redict được công bố.
- Valkey khởi đầu từ Amazon, có sự tham gia của Google, Oracle và nhiều bên khác, rồi được đưa vào Linux Foundation.
- Khả năng nhà sáng lập Redis quay trở lại:
- Tháng 12/2024, nhà sáng lập Redis thông báo sẽ hợp tác với Redis Ltd. để tìm cách tái thống nhất cộng đồng.
- Elasticsearch quay lại giấy phép mã nguồn mở:
- Elastic N.V. đã chuyển sang SSPL và Elastic License vào năm 2021, dẫn tới xung đột với Amazon.
- Amazon đáp trả bằng nhánh fork OpenSearch.
- Tháng 8/2024, Elastic N.V. quay trở lại AGPL và nhắc đến một bài hát của Kendrick Lamar.
- Tháng 9/2024, Amazon chuyển dự án OpenSearch cho Linux Foundation.
- Quan điểm của Andy:
- Chỉ trích Redis:
- Andy chỉ ra các vấn đề về hiệu năng thấp, “transaction” giả và ngôn ngữ truy vấn kém hiệu quả.
- Redis có nhiều lựa chọn thay thế nên khó chống chịu trước phản ứng dữ dội từ cộng đồng.
- Mô hình tương tự Elasticsearch:
- Thay đổi giấy phép → xuất hiện dự án fork → quay lại giấy phép mã nguồn mở.
- Vì sao Redis và Elasticsearch bị phản đối mạnh hơn:
- Với Redis, các nhà sáng lập không phải tác giả nguyên bản, còn hệ thống lại có nhiều đóng góp từ bên ngoài nên nảy sinh tranh cãi về “thiếu tính chính danh”.
- Đây là phản ứng tương tự việc HashiCorp đổi giấy phép Terraform trong năm 2023.
- Ảnh hưởng của các nhà cung cấp đám mây:
- Các nhà cung cấp đám mây tích hợp giao thức của DBMS mã nguồn mở vào DBMS sẵn có của họ hoặc dùng dịch vụ riêng để làm suy yếu nền tảng doanh thu của ISV.
- Ví dụ: AWS thêm giao thức InfluxDB v2 vào Timestream DBMS và công bố dịch vụ tương thích Valkey rẻ hơn 30% so với dịch vụ tương thích Redis.
- Chỉ trích Redis:
- Cập nhật thêm:
- AWS cung cấp dịch vụ quản lý cho InfluxDB v2 DBMS với sự hợp tác của Influx Data.
- ScyllaDB dừng phiên bản AGPL mã nguồn mở vào tháng 12/2024 và chuyển bản enterprise sang mô hình “source available”.
Cuộc cạnh tranh không hồi kết giữa Databricks và Snowflake
- Cuộc đua LLM công khai:
- Databricks:
- Tháng 3/2024 công bố LLM mã nguồn mở DBRX.
- Mô hình có 132 tỷ tham số, do đội Mosaic phát triển; đội này được mua lại với giá 1,3 tỷ USD vào năm 2023.
- Databricks đầu tư 10 triệu USD để phát triển mô hình.
- Snowflake:
- Tháng 4/2024 công bố LLM mã nguồn mở Arctic.
- Mô hình có 480 tỷ tham số và được cho là vượt DBRX trong các tác vụ “enterprise” như sinh SQL.
- Snowflake đầu tư 2 triệu USD để phát triển mô hình.
- Thông báo của Snowflake tập trung so sánh với DBRX nhiều hơn các LLM khác, thể hiện rõ thế đối đầu cạnh tranh.
- Databricks:
- Cuộc chiến catalog metadata:
- HCatalog của Hive đã trở thành tiêu chuẩn cho data lake trong thập niên 2010.
- Iceberg của Netflix và Hudi của Uber xuất hiện vào cuối thập niên 2010 và phát triển thành các dự án Apache.
- Databricks:
- Cung cấp nền tảng DeltaLake cùng dịch vụ catalog độc quyền tên là Unity.
- Tháng 6/2024, đúng ngày CEO Snowflake công bố dịch vụ catalog Polaris, Databricks mua lại Tabular, công ty hỗ trợ Iceberg, với giá 2 tỷ USD.
- Tuần sau đó, Databricks công bố mở mã nguồn Unity Catalog.
- Snowflake:
- Sau khi công bố hỗ trợ Iceberg vào năm 2022, công ty dần mở rộng phạm vi hỗ trợ.
- Trong lúc đàm phán mua Tabular, Snowflake bị Databricks nẫng tay trên.
- Quan điểm của Andy:
- Khác với cạnh tranh truyền thống:
- Không giống cuộc đua hiệu năng Oracle và Informix trước đây, cuộc chiến giữa Snowflake và Databricks tập trung vào hệ sinh thái và các công cụ quản lý dữ liệu.
- Engine thực thi vectorized giờ đã được xem là công nghệ cơ bản.
- Điều quan trọng hiện nay là chất lượng bổ sung như mức độ dễ dùng, khả năng tương thích công cụ và tích hợp AI/LLM.
- Có lợi cho người dùng:
- Cạnh tranh khốc liệt đồng nghĩa với sản phẩm và công nghệ tốt hơn.
- Polaris của Snowflake được chuyển thành dự án Apache, giúp khả năng tiếp cận công nghệ tốt hơn.
- Kết quả là có thể kỳ vọng tiến bộ công nghệ và giá thành thấp hơn.
- So sánh tích cực:
- Không giống màn đấu cái tôi đơn thuần giữa CEO Oracle và Salesforce, cuộc chiến Snowflake với Databricks dẫn tới đổi mới thực chất và năng lực cạnh tranh mạnh hơn.
- Khác với cạnh tranh truyền thống:
Nỗ lực tích hợp DuckDB vào mọi nơi
- Sự tăng trưởng của DuckDB:
- DuckDB đang trở thành lựa chọn mặc định mới cho các truy vấn phân tích dữ liệu.
- Trước đây Pandas thường giữ vai trò này, nhưng DuckDB đã thay thế nhờ tính di động và hiệu năng vượt trội.
- Ngày càng nhiều DBMS tìm cách tích hợp DuckDB để tăng cường hỗ trợ workload OLAP.
- Trong năm 2024 đã có 4 extension mới được công bố để tích hợp Postgres với DuckDB.
- Các công bố extension Postgres-DuckDB:
- Tháng 5/2024 - Crunchy Data:
- Công bố một cầu nối độc quyền để chuyển các truy vấn OLAP từ Postgres sang DuckDB.
- Cũng bổ sung extension tăng tốc truy vấn PostGIS bằng cách tận dụng tính năng phân tích không gian địa lý của DuckDB.
- Tháng 6/2024 - ParadeDB:
- Công bố extension mã nguồn mở
pg_analytics. - Trước đó công ty dùng
pg_lakehousedựa trên DataFusion, nhưng đã chuyển sang DuckDB.
- Công bố extension mã nguồn mở
- Tháng 8/2024 - pg_duck:
- Extension DuckDB được DuckDB Labs chính thức hỗ trợ trên GitHub.
- Ban đầu là dự án hợp tác giữa MotherDuck, Hydra, Microsoft và Neon, nhưng Microsoft và Neon bị loại khỏi dự án do tranh chấp quyền kiểm soát phát triển.
- Hiện MotherDuck và Hydra đang đồng bảo trì dự án.
- Tháng 11/2024 - pg_mooncake:
- Công bố extension cho phép ghi dữ liệu vào bảng Iceberg thông qua Postgres và hỗ trợ transaction.
- Tháng 5/2024 - Crunchy Data:
- Quan điểm của Andy:
- Ưu điểm của DuckDB:
- Phần lớn truy vấn OLAP chỉ quét dưới 100MB dữ liệu, và DuckDB có thể xử lý tốt chỉ với một instance đơn lẻ.
- Nhờ tính di động và sự tiện lợi xuất sắc, DuckDB lan rộng rất nhanh trong cộng đồng Postgres.
- Nó hợp nhất nhiều hệ sinh thái dữ liệu khác nhau, bao gồm truy cập dữ liệu Iceberg và S3, chỉ trong một extension.
- Có thể thay thế các data warehouse đắt đỏ trong khi vẫn mang lại phân tích hiệu năng cao.
- Khả năng mở rộng của Postgres:
- Ngay từ khi được thiết kế vào thập niên 1980, Postgres đã hướng tới khả năng mở rộng và tính linh hoạt.
- Nhờ API “hook” của Postgres (được đưa vào năm 2006), hệ sinh thái extension phong phú và đa dạng nhất đã được xây dựng.
- Tuy vậy, cũng tồn tại nguy cơ các extension can thiệp lẫn nhau và gây hành vi sai lệch.
- Tích hợp DuckDB với Postgres:
- Các extension Postgres trước đây như Citus và Timescale chỉ cung cấp lưu trữ dạng cột, nên mới giải quyết được một phần vấn đề.
- DuckDB cung cấp cả lưu trữ dạng cột lẫn xử lý truy vấn vectorized.
- Cách ví von hài hước:
- Andy nhắc đến khả năng đùa về món turducken với voi Postgres và DuckDB, nhưng bỏ qua để tránh bị trường đại học kỷ luật.
- Ưu điểm của DuckDB:
Những diễn biến ngẫu nhiên trong thế giới cơ sở dữ liệu
Các bản phát hành đáng chú ý:
- Amazon Aurora DSQL:
- AWS công bố một DBMS mới “giống Spanner”.
- Dựa trên dịch vụ distributed log và sắp xếp theo timestamp (Time Sync).
- Dùng tên Aurora nhưng không chia sẻ mã nguồn với Aurora Postgres RDS hiện có.
- CedarDB:
- DBMS thương mại được xây dựng từ nhánh fork của mã nguồn Umbra.
- Thomas Neumann, người tạo ra Umbra, vẫn tập trung vào nghiên cứu và giữ vị trí hàng đầu trên bảng xếp hạng Clickbench.
- Google Bigtable:
- Bigtable, một trong những người tiên phong của NoSQL, đã bổ sung hỗ trợ SQL trong năm 2024.
- Limbo:
- Turso công bố dự án viết lại hoàn toàn SQLite bằng Rust.
- Điểm mạnh của SQLite không chỉ là mã nguồn mà còn là kỹ nghệ kiểm thử bảo đảm nó chạy chính xác trong mọi môi trường.
- Dự án hợp tác với các cựu kỹ sư của FoundationDB để đưa vào deterministic testing.
- Microsoft Garnet:
- Kho key-value tương thích Redis, là sản phẩm kế nhiệm của FASTER.
- Cung cấp song song hóa truy vấn, hỗ trợ DB vượt quá bộ nhớ và transaction thực thụ.
- MySQL v9:
- Phiên bản mới sau 6 năm.
- Gặp lỗi crash nếu cơ sở dữ liệu có hơn 8.000 bảng.
- Thiếu nhiều tính năng quan trọng, và Oracle dường như tập trung nhiều hơn vào dịch vụ MySQL Heatwave.
- Prometheus v3:
- Bản cập nhật lớn đầu tiên sau 7 năm.
- Có quá nhiều lựa chọn thay thế nên vai trò của Prometheus “gốc” đang giảm dần.
Các thương vụ mua lại đáng chú ý:
- Alteryx → Private Equity: Ít người dùng, không có nhiều nhận xét.
- MariaDB → Private Equity: Kỳ vọng sẽ giải quyết được các vấn đề quản trị.
- OrioleDB → Supabase: Cải thiện kiến trúc lưu trữ cũ kỹ của Postgres.
- PeerDB → ClickHouse: Công cụ ETL chuyển dữ liệu từ Postgres sang ClickHouse.
- PopSQL → Timescale: Mua lại giao diện trình soạn thảo SQL nâng cao.
- Speedb → Redis Ltd.: Nhánh fork của RocksDB, có thể giúp bổ sung khả năng lưu dữ liệu trên đĩa.
- Rockset → OpenAI: Dịch vụ DBaaS chấm dứt vào tháng 9/2024.
- Tabular → Databricks: Được mua lại để củng cố hệ sinh thái Iceberg.
- Verta.ai → Cloudera: Cloudera vẫn còn tồn tại.
- Warpstream → Confluent: Viết lại Kafka bằng golang, tích hợp với S3.
Các khoản đầu tư đáng chú ý:
- Databricks: vòng Series J trị giá 1 tỷ USD.
- DBOS: seed round 8,5 triệu USD.
- LanceDB: seed round 8 triệu USD.
- SDF: seed round 9 triệu USD.
- SpiceDB: Series A trị giá 12 triệu USD.
- TigerBeetle: Series A trị giá 24 triệu USD.
Các sự kết thúc đáng chú ý:
- Amazon QLDB: Ngay cả Amazon cũng không kiếm tiền nổi từ sản phẩm này.
- OtterTune: Kết thúc hành trình 10 năm nghiên cứu và khởi nghiệp. Do vấn đề với một công ty cụ thể mà sinh viên CMU-DB bị cấm tuyển dụng.
Quan điểm của Andy:
- Databricks gọi vốn quy mô lớn:
- Vòng Series J trị giá 1 tỷ USD trong năm 2024 đã lập kỷ lục gọi vốn lớn nhất trong ngành cơ sở dữ liệu.
- Khoản tiền này được dùng để mua lại cổ phần nhân viên, nhằm giải quyết bất mãn của họ trước việc IPO bị trì hoãn.
- Sau IPO của Databricks, nhiều startup cơ sở dữ liệu khác cũng có thể chuẩn bị IPO.
- Triển vọng năm tới:
- Lãi suất giảm có thể mở ra cơ hội gọi thêm vốn cho các công ty đã huy động lớn như CockroachDB, Starburst và Imply.
- dbtLabs được đánh giá là đã định vị thành công.
Larry Ellison không biết dừng lại: những bước đi gây kinh ngạc trong năm 2024
- Những thành tựu chính của Larry Ellison trong năm 2024:
- Bước sang sinh nhật thứ 80 nhưng ông vẫn tiếp tục những bước đi táo bạo.
- Vươn lên thành người giàu thứ 3 thế giới nhờ cổ phiếu Oracle tăng mạnh.
- Tháng 3/2024, cổ phiếu Oracle tăng vọt giúp ông kiếm thêm 15 tỷ USD chỉ trong một ngày.
- Tháng 7, ông mua Paramount Studio với giá 6 tỷ USD làm quà cho con trai mình (với người vợ thứ ba).
- Ông cũng mua một khu nghỉ dưỡng ở Palm Beach với giá 277 triệu USD, bổ sung thêm một tài sản xa xỉ nữa.
- Hỗ trợ đội bóng bầu dục của Đại học Michigan:
- Tháng 11/2024, ông quyên góp 12 triệu USD cho chiến dịch tài trợ bóng bầu dục của Đại học Michigan.
- Khoản quyên góp này đóng vai trò quyết định trong việc chiêu mộ quarterback hàng đầu chuyển từ LSU sang Michigan.
- Thông cáo báo chí của trường có nhắc đến công lao của “Larry và vợ ông, Jolin”.
- Đây là lần đầu Larry có mối liên hệ lớn với Đại học Michigan dù ông không có bằng tốt nghiệp đại học.
- Tháng 11/2024, ông quyên góp 12 triệu USD cho chiến dịch tài trợ bóng bầu dục của Đại học Michigan.
- “Jolin” là ai:
- Các bản tin truyền thông cho biết người vợ mới của Larry là Jolin (Curran) Zhu.
- Larry bị bắt gặp đang xem một trận quần vợt, còn Jolin đội mũ của Michigan.
- Hai tuần sau, tin kết hôn được đưa trên bản tin lúc 5 giờ sáng, qua đó xác nhận danh tính của cô.
- Các bản tin truyền thông cho biết người vợ mới của Larry là Jolin (Curran) Zhu.
- Góc nhìn của Andy:
- Việc Larry hỗ trợ Đại học Michigan mang ý nghĩa đặc biệt.
- Một cựu sinh viên CMU-DB của Andy hiện là giáo sư trong nhóm cơ sở dữ liệu của Đại học Michigan.
- Andy chúc mừng tình yêu mới và cuộc hôn nhân mới của Larry, đồng thời nhấn mạnh việc tìm kiếm tình yêu trong xã hội hiện đại khó khăn đến mức nào.
- Andy đánh giá cao sự bền bỉ và thái độ tích cực của Larry khi tìm lại được tình yêu dù từng trải qua ly hôn.
- Việc Larry hỗ trợ Đại học Michigan mang ý nghĩa đặc biệt.
- Cuộc hôn nhân thứ sáu của Larry:
- Sau Melanie Craft (ly hôn năm 2010) và Nikita Kahn (ly hôn năm 2020), Larry tiếp tục tái hôn khiến mọi người ngạc nhiên.
- Cuộc hôn nhân với Jolin Zhu một lần nữa chứng minh quyết tâm theo đuổi hạnh phúc của ông.
Kết luận
- Kế hoạch năm mới và tình hình hiện tại:
- Đây lẽ ra là lần đầu tiên sau 3 năm ông đón năm mới trong tình trạng khỏe mạnh, nhưng rồi bị lây COVID từ con gái và phải bắt đầu năm mới trên giường bệnh.
- Nhờ tiêm mũi booster vào tháng 9/2024 và điều trị bằng Paxlovid, ông đang hồi phục mà không gặp vấn đề nghiêm trọng.
- Sự kết thúc của OtterTune:
- Andy thất vọng vì dự án OtterTune đã khép lại.
- Ông đã học hỏi được rất nhiều khi cộng tác với nhiều con người tuyệt vời.
- Ông cảm ơn Intel Capital và Race Capital vì đã hỗ trợ đến cùng.
- Ông đang ấp ủ một startup mới (gợi ý: lần này cũng liên quan đến cơ sở dữ liệu).
- Khởi đầu mới tại CMU:
- Ông đã trở lại Đại học Carnegie Mellon (CMU) và tiếp tục nghiên cứu toàn thời gian.
- Ông đang chuẩn bị các dự án nghiên cứu thú vị cùng Jignesh Patel.
- Học kỳ này ông dự kiến mở một môn học mới về tối ưu hóa truy vấn.
- Tháng 9/2024, sau khi Wikipedia xóa bài viết về ông, ông đang tìm cách tăng số lượt trích dẫn các bài báo nghiên cứu của mình.
- Sự ủng hộ dành cho DJ Mooshoo:
- Ông vẫn tiếp tục ủng hộ DJ Mooshoo, hiện đang bị giam ở Cook County.
- Ông hy vọng và chờ đợi đến ngày được thả trong năm 2025.
- Nhắc đến ByteBase:
- Ông cảm ơn bài viết tổng quan công cụ cơ sở dữ liệu năm 2024 của ByteBase (Database Tools in 2024: A Year in Review).
- Trước đây ByteBase từng xin phép dịch bài tổng kết cơ sở dữ liệu cuối năm của ông sang tiếng Trung, nhưng năm nay họ không chờ nữa mà tự viết bài riêng với chủ đề và tiêu đề tương tự.
3 bình luận
Cảm ơn vì bài viết hay.
Mình đã bỏ sót năm 2023. Khi đó là liên kết OtterTune, nhưng vì dịch vụ đã ngừng hoạt động nên giờ mình đã chuyển sang blog cá nhân.
Đánh giá các cơ sở dữ liệu năm 2022
Đánh giá các cơ sở dữ liệu năm 2021
Ý kiến Hacker News
Có ý kiến cho rằng phần phê bình API lệnh của Redis trong video của Andy còn quá nhẹ. Có thể phê bình API Redis, nhưng cần lập luận mạnh hơn. Người này nhấn mạnh rằng cần hiểu cách dùng Redis và các ưu điểm của nó
Khi mã nguồn của Greenplum bị đóng lại, các nhà phát triển ban đầu đã tạo ra một bản fork mã nguồn mở tên là Cloudberry, và dự án này đã được tiếp nhận vào Apache. Cloudberry đã đồng bộ với Postgres 14, trong khi Greenplum vẫn còn dừng ở Postgres 12
Có ý kiến phê bình Redis ở góc độ cá nhân. Người này cho rằng Redis chậm, có các giao dịch giả, và cú pháp truy vấn phức tạp. Họ cũng nhắc rằng tại CMU, Dragonfly đã cho thấy hiệu năng tốt hơn
Có ý kiến cho rằng DuckDB là một công cụ tuyệt vời. Người này nói bài nói chuyện của nhà sáng lập DuckDB tại CMU về lý do các nhà khoa học dữ liệu không dùng RDBMS để lại ấn tượng mạnh
Có ý kiến cho rằng việc không nhắc đến SQL Server và các biến thể Azure là điều kỳ lạ. Chúng đang thống trị trong một số lĩnh vực nhất định và được xếp là phổ biến thứ ba trên DBEngines
Có ý kiến cho rằng sự bất mãn với Elastic và Redis khác với MongoDB vì giấy phép và quy mô cộng đồng đóng góp. Các giấy phép mang tính hạn chế như AGPL khiến việc nhúng trở nên khó khăn, và nếu không có cộng đồng đóng góp thì việc fork cũng khó
Có ý kiến cho rằng không có nỗ lực fork nào đối với các thay đổi giấy phép của MongoDB, Neo4j, Kafka và CockroachDB vì mọi người không thực sự quan tâm nhiều đến các dự án này
Có ý kiến cho rằng Amazon có thể cung cấp cơ sở dữ liệu dưới dạng dịch vụ, nhưng nhiều người không muốn dùng dịch vụ được AWS quản lý. Nhiều đội ngũ thích các giải pháp dựa trên k8s và có xu hướng chuyển sang các triển khai OSS chủ đạo
Để đáp lại ý kiến rằng chưa từng gặp ai dùng Alteryx, có người giải thích rằng Alteryx là công cụ ELT + Analytics đồ họa gần như không cần viết code, có khả năng tương thích rất tốt nên có thể dùng cùng các cơ sở dữ liệu khác hoặc với tệp dữ liệu
Có ý kiến bày tỏ sự ngạc nhiên trước tin một startup cơ sở dữ liệu gọi vốn được 12M lại thất bại chỉ sau 3 năm. Đây được nhắc đến như một ví dụ cho thấy việc thành công với startup cơ sở dữ liệu khó đến mức nào. Người này cũng thấy lạ khi dù có ý tưởng cải thiện hiệu năng DB bằng AI, họ vẫn không tìm được thêm nhà đầu tư