1 điểm bởi GN⁺ 2024-07-18 | 1 bình luận | Chia sẻ qua WhatsApp

xLSTMTime: Long-term Time Series Forecasting With xLSTM

  • Trong vài năm gần đây, các mô hình dựa trên Transformer đã cho thấy hiệu năng nổi bật trong dự báo chuỗi thời gian dài hạn đa biến (LTSF). Tuy nhiên, chúng vẫn gặp phải các vấn đề như yêu cầu tính toán cao, khó nắm bắt động lực theo thời gian và quản lý các phụ thuộc dài hạn
  • Sự xuất hiện của LTSF-Linear với cấu trúc tuyến tính đơn giản đã cho thấy hiệu năng vượt qua các mô hình dựa trên Transformer, từ đó khiến người ta phải đánh giá lại tính hữu dụng của Transformer trong dự báo chuỗi thời gian
  • Để đáp lại điều đó, bài báo này trình bày kết quả áp dụng kiến trúc gần đây là mở rộng LSTM (xLSTM) vào LTSF. xLSTM có tiềm năng phù hợp với LTSF nhờ cơ chế exponential gating và cấu trúc bộ nhớ được sửa đổi với dung lượng cao hơn
  • xLSTMTime, kiến trúc LTSF mà chúng tôi áp dụng, vượt qua các phương pháp hiện tại. Kết quả so sánh hiệu năng giữa nhiều mô hình hiện đại và xLSTMTime trên nhiều bộ dữ liệu thực tế đã chứng minh khả năng dự báo vượt trội của mô hình này
  • Kết quả nghiên cứu của chúng tôi cho thấy các kiến trúc hồi quy được tinh chỉnh có thể cung cấp một phương án thay thế cạnh tranh cho các mô hình dựa trên Transformer trong các tác vụ LTSF, đồng thời gợi mở khả năng tái định hình bức tranh dự báo chuỗi thời gian

Tóm tắt của GN⁺

  • Bài báo này giới thiệu xLSTM nhằm khắc phục những hạn chế của các mô hình dựa trên Transformer và cho thấy hiệu năng vượt trội trong dự báo chuỗi thời gian dài hạn
  • xLSTMTime chứng minh khả năng dự báo vượt trội so với các mô hình hiện có thông qua cơ chế exponential gating và cấu trúc bộ nhớ được sửa đổi
  • Nghiên cứu này làm nổi bật lại tiềm năng của kiến trúc hồi quy trong dự báo chuỗi thời gian và đề xuất một phương án thay thế mới cho các mô hình dựa trên Transformer
  • Các dự án có chức năng tương tự gồm có Prophet của Facebook và DeepAR của Amazon

1 bình luận

 
GN⁺ 2024-07-18
Ý kiến trên Hacker News
  • Đúng là trong vài năm gần đây, các mô hình dựa trên transformer đã được chú ý trong dự báo chuỗi thời gian dài hạn đa biến, nhưng tôi không chắc nhìn chung chúng có tốt hơn các mô hình không dùng deep learning hay không
    Theo tôi hiểu thì không phải vậy, dù tôi không theo dõi lĩnh vực này quá sát

    • Theo kinh nghiệm dự báo thanh toán/chi tiêu, deep learning nhìn chung kém hơn gradient boosting tree
      Các mô hình deep learning mạnh ở việc học tính mùa vụ, nhưng thường không xử lý tốt các xu hướng phức tạp hay cú sốc
      Dữ liệu kinh tế và tài chính thường có tính mùa vụ đơn giản nhưng xu hướng phức tạp, nên có vẻ deep learning khá đuối
      Tôi đồng ý với bài báo này. Những kiến trúc chuỗi thời gian deep learning tốt mà tôi từng dùng gần với các mở rộng đơn giản của MLP hoặc mạng nơ-ron hồi quy như DeepAR hay N-BEATS; còn các kiến trúc dựa trên transformer thì thật sự rất tệ, kể cả các foundation model dựa trên transformer đang xuất hiện ồ ạt gần đây
    • Trong công việc an toàn hàng không, deep learning tốt hơn các mô hình truyền thống không dùng deep learning trong dự báo chuỗi thời gian đa biến
      Tuy nhiên, ngay giữa các mô hình deep learning cũng có chênh lệch hiệu năng rất lớn, như transformer, LSTM hai chiều, MLP thông thường, VAE, v.v.
    • Tôi chưa trực tiếp dùng, nhưng đã nói chuyện về chủ đề này với một người bạn gần đây có dùng các mô hình dựa trên cây như XGBoost cho phân tích chuỗi thời gian
      Người bạn đó nói các kiến trúc dựa trên transformer thường cho hiệu năng ổn trong các tác vụ chuỗi thời gian với tương đối ít công sức hơn so với mô hình cây
      Theo tôi hiểu, nếu tinh chỉnh đủ tham số thì mô hình dựa trên cây thường có thể thắng transformer. Nhưng các mô hình như TimeGPT cho hiệu năng khá tốt mà không cần tinh chỉnh rộng, nên hấp dẫn cho triển khai nhanh
    • Ngay đoạn tiếp theo của bài báo có nói chuyện đó. xLSTMTime cũng không dựa trên transformer
    • Chưa phải mức xuất sắc, nhưng các thử nghiệm transfer learning gần đây trông có vẻ hứa hẹn
  • Một phần công việc của tôi thực sự là xây dựng các mô hình nowcasting và dự báo trong lĩnh vực kinh tế. Tôi xử lý các chỉ số kinh tế như lạm phát, GDP và các chỉ số tài chính như thanh khoản thị trường
    Tôi vẫn chưa đọc bài báo, nhưng hoàn toàn đồng cảm với giọng điệu chung rằng “transformer rất tuyệt ở những việc nó làm tốt, nhưng các mô hình họ LSTM vẫn còn rất giá trị”

    • Không biết bạn đã có cơ hội áp dụng Mamba vào công việc chưa, và bạn nghĩ sao về nó
  • Cái này liên quan thế nào đến mô hình dự báo thời tiết dựa trên AI của Google?
    https://deepmind.google/discover/blog/graphcast-ai-model-for...

    • Không. Graphcast là một graph transformer được huấn luyện trên dữ liệu tái phân tích khí quyển ERA5, không phải mô hình dự báo chuỗi thời gian đa dụng
      Nhân tiện, Graphcast vượt mọi dự báo đơn lẻ toàn cầu truyền thống, ít nhất là trong dự báo các mẫu hình quy mô lớn toàn cầu. Với các chỉ số như Z500, là ở khoảng trễ xấp xỉ 3–10 ngày
      ECMWF có AIFS, một biến thể phát sinh từ Graphcast, và nhiều khả năng trong vài năm nữa họ sẽ đưa nó hoặc thứ tương tự vào môi trường vận hành
  • Nếu nó được tiếp thị như một công cụ dự báo, vậy không áp dụng được cho phân loại sự kiện trong chuỗi thời gian sao?

    • Tôi xem đó là một tác vụ hơi khác. Tôi không hẳn là chuyên gia lĩnh vực này, nhưng nếu số sự kiện n rất nhỏ thì có lẽ có thể xử lý như một bài toán dự báo đa biến, lấy xác suất của từng sự kiện làm giá trị mục tiêu
    • Tôi cũng tò mò cách tiếp cận này hoặc các cách tiếp cận dựa trên transformer/LLM cải thiện phát hiện bất thường ở đâu, chẳng hạn
  • Tiếc là liên kết dataset trong bài báo không hoạt động. Hy vọng sẽ được sửa

  • Các mô hình chuỗi thời gian deep learning tốt nhất chắc sẽ nằm kín trong nội bộ các hedge fund

    • Thực ra phần lớn việc khó là xây dựng đặc trưng, chứ không phải một mô hình đơn lẻ khổng lồ. Theo tôi biết, gradient boosting vẫn đang thống trị
    • Theo định lý không có bữa trưa miễn phí, nhìn chung không có thứ gọi là mô hình tốt nhất
      Cách làm hiệu quả ở hedge fund cũng có thể tệ trong các miền có lượng dữ liệu và tính chất dữ liệu khác, hoặc cần ít thiên kiến quy nạp hơn hay thiên kiến khác
    • Tôi cho rằng ít nhất các hedge fund cao cấp không còn dùng mô hình hóa chuỗi thời gian nữa. Theo tiêu chuẩn hiện nay thì khá lỗi thời
  • Dự báo chuỗi thời gian hoạt động tốt nhất trong miền tất định
    Trong các kỹ thuật LLM, AI, deep learning, machine learning công khai, không có gì hiệu quả với thị trường chứng khoán cả. Thật sự không có. Tôi đã thử hết rồi

  • Nếu phương pháp dự báo chuỗi thời gian của ai đó thực sự hiệu quả, họ đã không công bố nó

    • Không hẳn. Thực ra có rất nhiều thứ được công bố. Đại đa số các tác vụ chuỗi thời gian không liên quan đến giá tài sản hay việc đánh bại lợi suất thị trường chứng khoán
    • Các mô hình Transformer cũng là một trong những mô hình thành công nhất trong lịch sử AI, nhưng vẫn được công bố dưới dạng bài báo
  • Tôi đã đọc nhầm nó thành XSLT

    • Tôi bấm vào vì tò mò không biết một bài về XML vào năm 2024 sẽ thú vị đến mức nào, và vừa thất vọng vừa hài lòng cùng lúc
    • Đúng. Và cái này cũng là một bài về phép biến đổi mà
    • Tôi cũng vậy. Tôi già rồi sao?
  • Mong chờ ngày ai đó dùng cái này để dự đoán cổ phiếu rồi mất sạch tài sản