- Nhóm nền tảng dữ liệu của LINE đã đặt ra định hướng dần ngừng sử dụng Hive và chuyển sang môi trường Spark
- Phương pháp chuyển đổi - thay engine trước, nếu có vấn đề thì chỉnh sửa truy vấn
- Các trường hợp thay đổi truy vấn:
- Khi sử dụng bảng tạm (
CREATE TEMPORARY TABLE)
- Khi sử dụng ép kiểu ngầm vi phạm chính sách ANSI (
Store Assignment Policy)
- Khi có vấn đề với UDF đang sử dụng
- Khi đưa vào UDF mới
- Khi sử dụng phép toán tập hợp trên kiểu map
- Khi cần xóa nhiều partition
- Sau khi chuyển đổi, một số dữ liệu cụ thể bị thiếu nên đã tiến hành troubleshooting
- Năm hiện tượng sự cố và cách ứng phó:
- Hiện tượng thiếu một phần kết quả sau khi chạy truy vấn
- Hiện tượng không thể đọc dữ liệu khi có thư mục con bên dưới thư mục partition
- Hiện tượng truy vấn dùng partition đó bị lỗi do thư mục partition bị xóa khi job đang chạy
- Khi đọc dữ liệu từ một partition và ghi vào partition khác của cùng một bảng thì phát sinh
AnaylsisException("Cannot overwrite a path that is also being read from")
- Hiện tượng kết quả bị trùng lặp và được nạp gấp đôi
- Ngoài OpenChat, hiện cũng có kế hoạch chuyển toàn bộ hàng trăm truy vấn ở nhiều domain đang phụ trách sang Spark trong năm nay
Chưa có bình luận nào.