xLSTMTime: Long-term Time Series Forecasting With xLSTM
- Trong vài năm gần đây, các mô hình dựa trên Transformer đã cho thấy hiệu năng nổi bật trong dự báo chuỗi thời gian dài hạn đa biến (LTSF). Tuy nhiên, chúng vẫn gặp phải các vấn đề như yêu cầu tính toán cao, khó nắm bắt động lực theo thời gian và quản lý các phụ thuộc dài hạn
- Sự xuất hiện của LTSF-Linear với cấu trúc tuyến tính đơn giản đã cho thấy hiệu năng vượt qua các mô hình dựa trên Transformer, từ đó khiến người ta phải đánh giá lại tính hữu dụng của Transformer trong dự báo chuỗi thời gian
- Để đáp lại điều đó, bài báo này trình bày kết quả áp dụng kiến trúc gần đây là mở rộng LSTM (xLSTM) vào LTSF. xLSTM có tiềm năng phù hợp với LTSF nhờ cơ chế exponential gating và cấu trúc bộ nhớ được sửa đổi với dung lượng cao hơn
- xLSTMTime, kiến trúc LTSF mà chúng tôi áp dụng, vượt qua các phương pháp hiện tại. Kết quả so sánh hiệu năng giữa nhiều mô hình hiện đại và xLSTMTime trên nhiều bộ dữ liệu thực tế đã chứng minh khả năng dự báo vượt trội của mô hình này
- Kết quả nghiên cứu của chúng tôi cho thấy các kiến trúc hồi quy được tinh chỉnh có thể cung cấp một phương án thay thế cạnh tranh cho các mô hình dựa trên Transformer trong các tác vụ LTSF, đồng thời gợi mở khả năng tái định hình bức tranh dự báo chuỗi thời gian
Tóm tắt của GN⁺
- Bài báo này giới thiệu xLSTM nhằm khắc phục những hạn chế của các mô hình dựa trên Transformer và cho thấy hiệu năng vượt trội trong dự báo chuỗi thời gian dài hạn
- xLSTMTime chứng minh khả năng dự báo vượt trội so với các mô hình hiện có thông qua cơ chế exponential gating và cấu trúc bộ nhớ được sửa đổi
- Nghiên cứu này làm nổi bật lại tiềm năng của kiến trúc hồi quy trong dự báo chuỗi thời gian và đề xuất một phương án thay thế mới cho các mô hình dựa trên Transformer
- Các dự án có chức năng tương tự gồm có Prophet của Facebook và DeepAR của Amazon
1 bình luận
Ý kiến trên Hacker News
Đúng là trong vài năm gần đây, các mô hình dựa trên transformer đã được chú ý trong dự báo chuỗi thời gian dài hạn đa biến, nhưng tôi không chắc nhìn chung chúng có tốt hơn các mô hình không dùng deep learning hay không
Theo tôi hiểu thì không phải vậy, dù tôi không theo dõi lĩnh vực này quá sát
Các mô hình deep learning mạnh ở việc học tính mùa vụ, nhưng thường không xử lý tốt các xu hướng phức tạp hay cú sốc
Dữ liệu kinh tế và tài chính thường có tính mùa vụ đơn giản nhưng xu hướng phức tạp, nên có vẻ deep learning khá đuối
Tôi đồng ý với bài báo này. Những kiến trúc chuỗi thời gian deep learning tốt mà tôi từng dùng gần với các mở rộng đơn giản của MLP hoặc mạng nơ-ron hồi quy như DeepAR hay N-BEATS; còn các kiến trúc dựa trên transformer thì thật sự rất tệ, kể cả các foundation model dựa trên transformer đang xuất hiện ồ ạt gần đây
Tuy nhiên, ngay giữa các mô hình deep learning cũng có chênh lệch hiệu năng rất lớn, như transformer, LSTM hai chiều, MLP thông thường, VAE, v.v.
Người bạn đó nói các kiến trúc dựa trên transformer thường cho hiệu năng ổn trong các tác vụ chuỗi thời gian với tương đối ít công sức hơn so với mô hình cây
Theo tôi hiểu, nếu tinh chỉnh đủ tham số thì mô hình dựa trên cây thường có thể thắng transformer. Nhưng các mô hình như TimeGPT cho hiệu năng khá tốt mà không cần tinh chỉnh rộng, nên hấp dẫn cho triển khai nhanh
Một phần công việc của tôi thực sự là xây dựng các mô hình nowcasting và dự báo trong lĩnh vực kinh tế. Tôi xử lý các chỉ số kinh tế như lạm phát, GDP và các chỉ số tài chính như thanh khoản thị trường
Tôi vẫn chưa đọc bài báo, nhưng hoàn toàn đồng cảm với giọng điệu chung rằng “transformer rất tuyệt ở những việc nó làm tốt, nhưng các mô hình họ LSTM vẫn còn rất giá trị”
Cái này liên quan thế nào đến mô hình dự báo thời tiết dựa trên AI của Google?
https://deepmind.google/discover/blog/graphcast-ai-model-for...
Nhân tiện, Graphcast vượt mọi dự báo đơn lẻ toàn cầu truyền thống, ít nhất là trong dự báo các mẫu hình quy mô lớn toàn cầu. Với các chỉ số như Z500, là ở khoảng trễ xấp xỉ 3–10 ngày
ECMWF có AIFS, một biến thể phát sinh từ Graphcast, và nhiều khả năng trong vài năm nữa họ sẽ đưa nó hoặc thứ tương tự vào môi trường vận hành
Nếu nó được tiếp thị như một công cụ dự báo, vậy không áp dụng được cho phân loại sự kiện trong chuỗi thời gian sao?
Tiếc là liên kết dataset trong bài báo không hoạt động. Hy vọng sẽ được sửa
Các mô hình chuỗi thời gian deep learning tốt nhất chắc sẽ nằm kín trong nội bộ các hedge fund
Cách làm hiệu quả ở hedge fund cũng có thể tệ trong các miền có lượng dữ liệu và tính chất dữ liệu khác, hoặc cần ít thiên kiến quy nạp hơn hay thiên kiến khác
Dự báo chuỗi thời gian hoạt động tốt nhất trong miền tất định
Trong các kỹ thuật LLM, AI, deep learning, machine learning công khai, không có gì hiệu quả với thị trường chứng khoán cả. Thật sự không có. Tôi đã thử hết rồi
Nếu phương pháp dự báo chuỗi thời gian của ai đó thực sự hiệu quả, họ đã không công bố nó
Tôi đã đọc nhầm nó thành XSLT
Mong chờ ngày ai đó dùng cái này để dự đoán cổ phiếu rồi mất sạch tài sản