20 điểm bởi xguru 2023-02-13 | 1 bình luận | Chia sẻ qua WhatsApp
  • Tôi là ai và vì sao tôi quan tâm → kỹ sư đời đầu của BigQuery
  • Slide giới thiệu bắt buộc → biểu đồ "dữ liệu bùng nổ theo thời gian" mà ai cũng viện dẫn
  • Phần lớn mọi người không có nhiều dữ liệu đến thế
  • Lưu trữ và tính toán đã được tách rời, với xu hướng thiên về lưu trữ
  • Kích thước workload nhỏ hơn kích thước toàn bộ dữ liệu
  • Phần lớn dữ liệu gần như không bao giờ được truy vấn
  • Biên giới của big data vẫn đang tiếp tục lùi lại
  • Dữ liệu là một trách nhiệm (Liability)
    → Một định nghĩa khác về big data là "khi chi phí giữ lại dữ liệu thấp hơn chi phí để tìm ra nên bỏ đi cái gì"
  • Bạn có thuộc 1% big data không?
    • Bạn có thật sự đang tạo ra một lượng dữ liệu khổng lồ không?
    • Nếu có, bạn có thật sự cần sử dụng một lượng dữ liệu khổng lồ đó cùng một lúc không?
    • Nếu có, dữ liệu có lớn đến mức không thể chứa trong một hệ thống duy nhất không?
    • Nếu có, bạn có chắc mình không chỉ là một người sưu tầm dữ liệu (Hoarder) không?
    • Nếu có, liệu tóm lược dữ liệu có phải là cách tốt hơn không?
  • Nếu bạn trả lời "không" cho dù chỉ một câu hỏi trong danh sách trên,
    thì thay vì thứ "big data ở quy mô đáng sợ" mà có thể bạn sẽ chẳng bao giờ sở hữu,
    có lẽ sẽ tốt hơn nếu dùng "các công cụ dữ liệu thế hệ mới giúp bạn xử lý quy mô dữ liệu thực sự mình đang có"

1 bình luận

 
xguru 2023-02-13

Cần đọc bài này với lưu ý rằng công ty viết ra nó là MotherDuck, công ty tạo ra "DuckDB".
DuckDB - mã nguồn mở Embedded OLAP DB

Khẩu hiệu của công ty này là "Big Data is DEAD. Long live EASY DATA."
Đây là công ty quảng bá cơ sở dữ liệu nhúng của mình với câu "Your laptop is faster than your data warehouse. Why wait for the Cloud?".

Tất nhiên điều đó không có nghĩa là bài viết này dở. Nhìn chung đây là bài đáng đọc thử một lần, và tôi đồng ý với nhiều nội dung trong đó.
Vì có quá nhiều công ty nói rằng họ đang làm "big data" dù dữ liệu thực tế chẳng có bao nhiêu.