Giải quyết các vấn đề phát sinh khi chuyển từ HiveQL sang Spark SQL

yechoi · 2023-09-05T18:35:38+09:00

Nhóm nền tảng dữ liệu của LINE đã đặt ra định hướng dần ngừng sử dụng Hive và chuyển sang môi trường Spark Phương pháp chuyển đổi - thay engine trước, nếu có vấn đề thì chỉnh sửa truy vấn Các trường hợp thay đổi truy vấn: Khi sử dụng bảng tạm (CREATE TEMPORARY TABLE) Khi sử dụng ép kiểu ngầm vi phạm chính sách ANSI (Store Assignment Policy) Khi có vấn đề với UDF đang sử dụng Khi đưa vào UDF mới Khi sử dụng phép toán tập hợp trên kiểu map Khi cần xóa nhiều partition Sau khi chuyển đổi, một số dữ liệu cụ thể bị thiếu nên đã tiến hành troubleshooting Năm hiện tượng sự cố và cách ứng phó: Hiện tượng thiếu một phần kết quả sau khi chạy truy vấn Hiện tượng không thể đọc dữ liệu khi có thư mục con bên dưới thư mục partition Hiện tượng truy vấn dùng partition đó bị lỗi do thư mục partition bị xóa khi job đang chạy Khi đọc dữ liệu từ một partition và ghi vào partition khác của cùng một bảng thì phát sinh AnaylsisException("Cannot overwrite a path that is also being read from") Hiện tượng kết quả bị trùng lặp và được nạp gấp đôi Ngoài OpenChat, hiện cũng có kế hoạch chuyển toàn bộ hàng trăm truy vấn ở nhiều domain đang phụ trách sang Spark trong năm nay

(engineering.linecorp.com)

8 điểm bởi yechoi 2023-09-05 | Chưa có bình luận nào. | Chia sẻ qua WhatsApp

Nhóm nền tảng dữ liệu của LINE đã đặt ra định hướng dần ngừng sử dụng Hive và chuyển sang môi trường Spark
Phương pháp chuyển đổi - thay engine trước, nếu có vấn đề thì chỉnh sửa truy vấn
Các trường hợp thay đổi truy vấn:
- Khi sử dụng bảng tạm (CREATE TEMPORARY TABLE)
- Khi sử dụng ép kiểu ngầm vi phạm chính sách ANSI (Store Assignment Policy)
- Khi có vấn đề với UDF đang sử dụng
- Khi đưa vào UDF mới
- Khi sử dụng phép toán tập hợp trên kiểu map
- Khi cần xóa nhiều partition
Sau khi chuyển đổi, một số dữ liệu cụ thể bị thiếu nên đã tiến hành troubleshooting
Năm hiện tượng sự cố và cách ứng phó:
- Hiện tượng thiếu một phần kết quả sau khi chạy truy vấn
- Hiện tượng không thể đọc dữ liệu khi có thư mục con bên dưới thư mục partition
- Hiện tượng truy vấn dùng partition đó bị lỗi do thư mục partition bị xóa khi job đang chạy
- Khi đọc dữ liệu từ một partition và ghi vào partition khác của cùng một bảng thì phát sinh AnaylsisException("Cannot overwrite a path that is also being read from")
- Hiện tượng kết quả bị trùng lặp và được nạp gấp đôi
Ngoài OpenChat, hiện cũng có kế hoạch chuyển toàn bộ hàng trăm truy vấn ở nhiều domain đang phụ trách sang Spark trong năm nay

Giải quyết các vấn đề phát sinh khi chuyển từ HiveQL sang Spark SQL

Bài viết liên quan

Chưa có bình luận nào.