1 điểm bởi GN⁺ 2024-05-28 | 1 bình luận | Chia sẻ qua WhatsApp

Big Data đã chết

Tôi là ai và vì sao tôi viết bài này?

  • Đã nhấn mạnh tầm quan trọng của Big Data trong hơn 10 năm
  • Với vai trò là kỹ sư sáng lập của Google BigQuery, đã quảng bá các công nghệ xử lý Big Data
  • Qua trao đổi với khách hàng và phân tích sản phẩm, đã nhận ra rằng phần lớn mọi người thực ra không xử lý Big Data

Slide giới thiệu mang tính bắt buộc

  • Nhiều bài thuyết trình về sản phẩm Big Data truyền tải thông điệp rằng "Big Data đang đến"
  • Nhưng trên thực tế, phần lớn ứng dụng không cần xử lý dữ liệu ở quy mô lớn
  • Các hệ thống cơ sở dữ liệu truyền thống đang trở nên phổ biến trở lại

Hầu hết mọi người không có nhiều dữ liệu đến vậy

  • Phần lớn khách hàng có dưới 1TB dữ liệu
  • Ngay cả những khách hàng có dữ liệu quy mô lớn cũng thực tế chỉ sử dụng một phần nhỏ
  • Kích thước dữ liệu tuân theo quy luật Pareto, và phần lớn dữ liệu tập trung ở một số ít khách hàng

Thiên lệch về lưu trữ trong việc tách biệt lưu trữ và tính toán

  • Các nền tảng dữ liệu đám mây hiện đại tách biệt lưu trữ và tính toán
  • Dung lượng lưu trữ tăng nhanh nhưng nhu cầu tính toán không thay đổi nhiều
  • Có thể không cần xử lý phân tán để xử lý các tập dữ liệu lớn

Kích thước công việc nhỏ hơn kích thước dữ liệu tổng thể

  • Phần lớn tác vụ phân tích xử lý các tập dữ liệu nhỏ
  • Các truy vấn xử lý dữ liệu quy mô lớn là hiếm, chủ yếu được dùng để tạo báo cáo
  • Ưu tiên các truy vấn nhỏ để giảm chi phí xử lý dữ liệu

Phần lớn dữ liệu hầu như không được truy vấn

  • Phần lớn dữ liệu chỉ được truy vấn thường xuyên trong vòng 24 giờ sau khi được tạo ra
  • Dữ liệu cũ hầu như không được truy vấn và chỉ chiếm chỗ lưu trữ

Ranh giới của Big Data liên tục lùi lại

  • Định nghĩa của "Big Data" thay đổi theo thời gian
  • Phần cứng hiện đại có thể xử lý dữ liệu lớn hơn rất nhiều so với trước đây

Dữ liệu là trách nhiệm

  • Chi phí lưu trữ dữ liệu vượt quá chi phí lưu trữ đơn thuần
  • Cần cân nhắc tuân thủ quy định và trách nhiệm pháp lý
  • Dữ liệu cũ rất khó bảo trì

Bạn có thuộc 1% Big Data không?

  • Phần lớn mọi người không cần xử lý Big Data
  • Cần cân nhắc liệu dữ liệu có thực sự lớn hay không, liệu có thể tóm lược hay không, v.v.

Góc nhìn của GN⁺

  • Tầm quan trọng của quản lý dữ liệu: Quan trọng không phải là kích thước dữ liệu mà là chất lượng và cách quản lý dữ liệu. Loại bỏ dữ liệu không cần thiết và tập trung vào dữ liệu quan trọng sẽ hiệu quả hơn.
  • Cách tiếp cận thực tế: Phần lớn doanh nghiệp không cần công nghệ Big Data. Điều quan trọng là chọn công cụ phù hợp với quy mô dữ liệu thực tế và nhu cầu thực tế.
  • Tiết kiệm chi phí: Trong môi trường đám mây, có thể giảm chi phí bằng cách tách biệt lưu trữ và tính toán. Giảm xử lý dữ liệu không cần thiết sẽ kinh tế hơn.
  • Trách nhiệm pháp lý: Việc lưu trữ dữ liệu đi kèm trách nhiệm pháp lý. Cần chú ý đến tuân thủ quy định và bảo mật dữ liệu.
  • Tiến bộ công nghệ: Nhờ sự phát triển của phần cứng và phần mềm, nay đã có thể xử lý những khối dữ liệu mà trước đây không thể. Có thể tận dụng công nghệ mới để nâng cao hiệu quả.

1 bình luận

 
GN⁺ 2024-05-28
Ý kiến trên Hacker News
  • Kinh nghiệm tuyển dụng data scientist: Trong câu hỏi về kiến trúc xử lý 6 TiB dữ liệu, ứng viên gây ấn tượng nhất là người hiểu rằng có thể giải quyết bằng smartphone hoặc HDD giá rẻ.

  • So sánh MongoDB và PostgreSQL: MongoDB không có điểm nào tốt hơn PostgreSQL, còn các giải pháp big data chủ yếu dùng cơ sở dữ liệu cột, Map/Reduce, Cassandra, v.v.

  • Lập kế hoạch để thành công: Phần lớn doanh nghiệp sẽ không trở thành kỳ lân, nhưng vẫn պետք nên nhắm tới mục tiêu đó, và cần một kiến trúc có tính đến khả năng mở rộng ngay từ đầu.

  • Kích thước dữ liệu và tần suất truy vấn: Phần lớn dữ liệu không lớn, và đa số truy vấn cũng ở quy mô nhỏ. Ở giai đoạn đầu, cần làm công việc cắt giảm dữ liệu.

  • Big data và chi phí tuân thủ quy định: Chi phí dữ liệu đang tăng lên do các quy định.

  • Kinh nghiệm phân tích big data: Từ trải nghiệm tại Large Hadron Collider, lưu trữ cục bộ tốc độ cao tốt hơn mạng siêu máy tính toàn cầu.

  • Nghịch lý của big data: Từng có xu hướng né tránh các tối ưu phần mềm cơ bản để phô trương yêu cầu phần cứng.

  • Hàm lượng thông tin của dữ liệu: Dữ liệu tăng theo cấp số nhân nhưng hàm lượng thông tin thì không. Trong tài chính, phần lớn dữ liệu là trùng lặp nên cần giảm chiều dữ liệu.

  • Định nghĩa về big data: Big data không chỉ là vấn đề dung lượng lưu trữ hay tốc độ xử lý, mà là vấn đề về năng lực nhận thức để tích hợp và hiểu dữ liệu.

  • Thiết kế quá mức của các công cụ big data: Trong nhiều trường hợp, data warehouse và data lake ở mức gigabyte hoặc terabyte là đã đủ, và kiến trúc đơn giản cho hiệu năng tốt hơn.

  • Sự lỗi thời của trào lưu big data: Cơn sốt big data đã kết thúc, và đây là kết quả thường thấy trong những ngành nhạy cảm với xu hướng.

  • Big data và cái tôi của nhà sáng lập: Động lực chính của big data là cái tôi của nhà sáng lập, và ở giai đoạn đầu chỉ cần một SQLite DB là đủ.

  • Vấn đề xử lý của big data: Big data là vấn đề về xử lý hơn là lưu trữ, và phần lớn truy vấn chỉ đụng đến dữ liệu gần đây. Nếu xử lý toàn bộ dữ liệu dễ hơn, thì thật khó hiểu vì sao đa số công ty vẫn chỉ truy vấn dữ liệu nhỏ.