Bạn bè giúp bạn bè không tạo ra biểu đồ tệ
(github.com/cxli233)Ví dụ tốt và xấu về trực quan hóa dữ liệu
- Một bài luận nêu quan điểm về trực quan hóa dữ liệu, bao gồm các ví dụ và giải thích về trực quan hóa tốt và trực quan hóa kém.
Đừng tạo biểu đồ cột để tách biệt trung bình
- Biểu đồ tách biệt trung bình thường thấy trong các ấn phẩm khoa học, nhưng biểu đồ cột không phù hợp để thể hiện liệu hai nhóm có phân phối và độ lệch chuẩn tương tự nhau có thực sự giống nhau hay không.
- Nhấn mạnh rằng cần kiểm tra một số điều trước khi sử dụng biểu đồ cột.
Đừng tạo violin plot cho cỡ mẫu nhỏ
- Với mẫu nhỏ, phân phối và các tứ phân vị có thể khác biệt lớn nên violin plot không có nhiều ý nghĩa.
- Thông qua thực nghiệm, tác giả xác nhận rằng phân phối trở nên ổn định hơn khi cỡ mẫu từ 50 trở lên.
Đừng dùng thang màu hai chiều cho dữ liệu một chiều
- Việc dùng thang màu hai chiều cho dữ liệu một chiều là một sai lầm lớn trong trực quan hóa dữ liệu.
- Thang màu nên biểu thị những giá trị đặc biệt có ý nghĩa.
Đừng biểu diễn kết quả thí nghiệm đa yếu tố bằng biểu đồ cột
- Để truyền đạt hiệu quả kết quả của thí nghiệm đa yếu tố, cần thiết kế cẩn thận cách nhóm/phân tách theo từng yếu tố.
Đừng tạo heatmap mà không sắp xếp lại hàng và cột
- Heatmap cần được xây dựng hiệu quả bằng cách cân nhắc thứ tự của các hàng và cột.
- Có thể sắp xếp lại hàng và cột thông qua clustering, nhưng đó không phải là cách duy nhất.
Đừng tạo heatmap mà không kiểm tra outlier
- Nếu không kiểm tra outlier trong heatmap, việc diễn giải dữ liệu có thể bị ảnh hưởng lớn.
Đừng quên kiểm tra phạm vi dữ liệu ở từng mức của yếu tố
- Trong thí nghiệm đa yếu tố, phạm vi của biến phản hồi có thể thay đổi rất nhiều tùy theo mức của từng yếu tố.
Đừng tạo network graph mà không thử nhiều bố cục khác nhau
- Hình thức của network graph là một yếu tố quan trọng quyết định tính hiệu quả của nó.
- Việc thay đổi bố cục có thể giúp việc diễn giải network graph trở nên dễ dàng hơn.
Đừng nhầm lẫn giữa trực quan hóa dựa trên vị trí và trực quan hóa dựa trên độ dài
- Nếu nhầm lẫn giữa trực quan hóa dựa trên vị trí và trực quan hóa dựa trên độ dài, rất dễ gây hiểu sai.
- Trong biểu đồ cột, không bắt đầu từ mốc 0 là một sai lầm lớn trong trực quan hóa dữ liệu.
Đừng tạo pie chart
- Pie chart bị chỉ trích vì con người không giỏi đọc góc và diện tích.
- Nếu muốn biểu diễn dữ liệu bằng độ dài, tốt hơn là bung donut chart ra thành một stacked bar chart.
Đừng tạo concentric donut chart
- Concentric donut chart có thể biểu diễn sai dữ liệu vì độ dài cung của vòng ngoài dài hơn rất nhiều so với vòng trong.
- Một phương án thay thế đơn giản và hiệu quả là bung donut chart ra thành một stacked bar chart.
Đừng dùng thang màu đỏ/xanh lá và cầu vồng
- Cần dùng các thang màu thân thiện với người mù màu, đồng thời vẫn bảo toàn thông tin tốt khi hiển thị ở thang độ xám, có tính đến chứng mù màu đỏ-xanh lá.
Đừng quên sắp xếp lại stacked bar chart
- Khi có nhiều mẫu và nhiều lớp, cần tối ưu thứ tự của stacked bar chart để biểu diễn hiệu quả hơn.
Ý kiến của GN⁺
Điều quan trọng nhất trong bài viết này là nâng cao nhận thức về những sai lầm thường gặp khi làm trực quan hóa dữ liệu và cách tránh chúng. Trực quan hóa dữ liệu là một công cụ mạnh mẽ để truyền tải thông tin phức tạp một cách dễ hiểu, nhưng nếu dùng sai có thể gây hiểu nhầm. Bài viết này cung cấp những chỉ dẫn thú vị và hữu ích cho bất kỳ ai muốn truyền đạt dữ liệu một cách chính xác và rõ ràng.
2 bình luận
Tiêu đề bài viết khá thú vị. Nếu xem bài gốc, bạn sẽ thấy có kèm các biểu đồ mẫu nên rất dễ theo dõi.
Ý kiến Hacker News