2 điểm bởi GN⁺ 2025-10-03 | 1 bình luận | Chia sẻ qua WhatsApp
  • Các foundation model hiện nay xử lý được văn bản, hình ảnh, âm thanh và video, nhưng thiếu năng lực suy luận theo thời gian đối với dữ liệu chuỗi thời gian vận hành thế giới thực (dấu hiệu sinh tồn, giá cả, telemetry, log, v.v.)
  • Time Series Language Models (TSLMs) hỗ trợ chuỗi thời gian như một modality gốc ngang hàng với văn bản, cho phép người dùng đặt câu hỏi bằng ngôn ngữ tự nhiên và nhận được giải thích cùng khuyến nghị
  • OpenTSLM là một mô hình ngôn ngữ mới được thiết kế để xử lý đồng thời dữ liệu chuỗi thời gian và văn bản lâm sàng trong lĩnh vực y tế
    • Áp dụng kiến trúc cross-attention nên có thể mở rộng ngay cả với chuỗi thời gian dài, và thực tế hơn cho vận hành quy mô lớn so với các cách tiếp cận trước đây
    • Đề xuất hai cấu trúc: SoftPrompt (chèn chuỗi thời gian dưới dạng token) và Flamingo (dựa trên cross-attention), mỗi cấu trúc có ưu và nhược điểm riêng
    • Giới thiệu ba bộ dữ liệu Chain-of-Thought (CoT) mới (HAR, Sleep, ECG-QA) để đánh giá năng lực suy luận của mô hình
  • So với GPT-4o, một mô hình nhỏ hơn 200 lần đạt độ chính xác cao hơn 4,4 lần trong phân loại giai đoạn ngủ, 6 lần trong nhận diện hoạt động và 2 lần trong diễn giải ECG (hiệu quả tương ứng là 880 lần, 1.000 lần và 400 lần)
  • Lần đầu tiên trong lĩnh vực y tế, mô hình xử lý đồng thời tín hiệu ECG 12 chuyển đạo và văn bản, đồng thời cung cấp suy luận chain-of-thought đã được bác sĩ tim mạch kiểm chứng
  • Xử lý đồng thời nhiều chuỗi thời gian có độ dài biến thiên và tích hợp với ngữ cảnh văn bản để tạo ra các giải thích có thể diễn giải được, đã được chuyên gia lĩnh vực xác nhận
  • Nghiên cứu này cho thấy khả năng mở rộng sang nhiều lĩnh vực ứng dụng chuỗi thời gian khác như tài chính, chuỗi cung ứng, giám sát công nghiệp, v.v.

Tổng quan nghiên cứu

  • Chẩn đoán và điều trị lâm sàng về bản chất dựa trên việc hiểu những thay đổi theo thời gian
  • Các LLM hiện có thể xử lý nhiều modality như hình ảnh, văn bản, giọng nói, nhưng còn thiếu khả năng diễn giải dữ liệu chuỗi thời gian liên tục
  • Để giải quyết điều này, OpenTSLM đề xuất cách tích hợp dữ liệu chuỗi thời gian như một modality native mới của LLM

Kiến trúc mô hình

  • OpenTSLM-SoftPrompt
    • Nhúng chuỗi thời gian rồi đưa vào cùng với token văn bản
    • Đơn giản và hiệu quả về tham số, nhưng với chuỗi dài thì có hạn chế là mức sử dụng bộ nhớ tăng vọt
  • OpenTSLM-Flamingo
    • Xử lý chuỗi thời gian như một modality riêng và kết hợp với văn bản bằng cross-attention
    • Mức sử dụng bộ nhớ ổn định ngay cả với chuỗi dài và phù hợp với xử lý tổng quát

Bộ dữ liệu và huấn luyện

  • HAR-CoT: nhận diện hoạt động của con người thông qua cảm biến gia tốc
  • Sleep-CoT: phân loại giai đoạn ngủ dựa trên EEG
  • ECG-QA-CoT: hỏi đáp sử dụng dữ liệu điện tâm đồ
  • Áp dụng học theo chương trình từng bước để mở rộng từ học các mẫu chuỗi thời gian đơn giản sang học năng lực suy luận

Thành tựu chính

  • SoftPrompt-Llama3.2-1B: đạt 69,9% F1 trên Sleep-CoT và 65,4% F1 trên HAR-CoT
  • Flamingo-Llama3.2-3B: đạt hiệu năng tốt nhất trên ECG-QA-CoT với 40,25% F1
  • Vượt GPT-4o về hiệu năng: ngay cả mô hình nhỏ (OpenTSLM-1B) cũng ghi nhận điểm F1 cao hơn GPT-4o
  • Đánh giá của bác sĩ: 92,9% quá trình suy luận trong ECG-QA được đánh giá là diễn giải chính xác hoặc chính xác một phần

Hiệu quả bộ nhớ

  • SoftPrompt có VRAM tăng theo cấp số nhân theo độ dài đầu vào (ví dụ: cần hơn 110GB trong ECG-QA)
  • Flamingo duy trì mức sử dụng bộ nhớ ổn định (khoảng 60~70GB ngay cả với Llama-3B)

Thảo luận

  • OpenTSLM cho thấy mô hình nhỏ có thể vượt qua mô hình cực lớn
  • SoftPrompt phù hợp với chuỗi thời gian ngắn, còn Flamingo phù hợp với chuỗi thời gian dài/nhiều chuỗi
  • Cung cấp tính minh bạch của quá trình suy luận trong dữ liệu y tế, góp phần tạo dựng độ tin cậy
  • Khác với các cách tiếp cận dựa trên bộ phân loại truyền thống, mô hình này hiện thực hóa suy luận ngôn ngữ tự nhiên + kết hợp chuỗi thời gian

Hạn chế và hướng nghiên cứu tiếp theo

  • Cách hiện tại để bảo toàn thang đo và đơn vị của chuỗi thời gian dưới dạng văn bản có thể chưa phải tối ưu
  • Do GPT-4o tham gia vào quá trình tạo bộ dữ liệu CoT, nên có khả năng tồn tại thiên lệch dữ liệu
  • Cần thiết kế hàm mất mát bảo đảm dự đoán đáp án đúng, đơn giản hóa kiến trúc và kiểm chứng năng lực khái quát hóa

Kết luận

  • OpenTSLM có tiềm năng ứng dụng cao không chỉ trong y tế mà còn trong xử lý dữ liệu dài hạn ở các lĩnh vực như tài chính, chuỗi cung ứng, giám sát công nghiệp, v.v.
  • Nghiên cứu này đặt nền móng cho khái niệm mô hình ngôn ngữ chuỗi thời gian (TSLM) và hướng tới mở rộng thành mô hình suy luận chuỗi thời gian tổng quát

1 bình luận

 
GN⁺ 2025-10-03
Ý kiến trên Hacker News
  • Tôi hiểu điểm là có thể tương tác với dữ liệu chuỗi thời gian bằng ngôn ngữ tự nhiên, nhưng tôi tò mò lợi thế của cách này so với việc dùng gọi công cụ để tận dụng thư viện xử lý tín hiệu hoặc thuật toán dựa trên luật (hoặc dùng machine learning nếu dữ liệu biến động) là gì
    Ví dụ, nếu yêu cầu một LLM thương mại phân tích dữ liệu ECG thì LLM đó sẽ gọi một thư viện phân tích chuỗi thời gian ECG
    Thư viện đó sẽ chạy trên toàn bộ dữ liệu để trích xuất các thống kê và sự kiện - ví dụ: “nhịp tim trung bình 60bpm, phát hiện AFib tại một thời điểm cụ thể”
    Làm như vậy thì LLM có thể lấy được toàn bộ thông tin cần cho việc phân tích, mà chi phí tính toán cũng thấp hơn rất nhiều
    Hơn nữa, cách tiếp cận này đòi hỏi tập dữ liệu gán nhãn quy mô lớn và mô hình được tiền huấn luyện; hãy sửa tôi nếu tôi sai, nhưng tôi nghĩ một mô hình đa dụng có thể xử lý dữ liệu chuỗi thời gian “nói chung” là bất khả thi
    Nói cách khác, mô hình được huấn luyện bằng dữ liệu ECG sẽ không tương thích với dữ liệu thị trường chứng khoán
    Một mô hình duy nhất có thể hiểu mọi loại dữ liệu khác nhau như thế này hiện vẫn là điều không thể

    • Rất khó để chạy kiểu hệ thống này ở edge
      Điểm mấu chốt là phải vận hành ổn định ở edge
      Không ai muốn giao việc theo dõi nhịp tim của mình cho cloud - dịch vụ từ xa có vấn đề lớn về sự cố và độ tin cậy, chưa kể các khó khăn bổ sung liên quan đến suy luận LLM
      Các tính năng phát hiện dựa trên luật truyền thống đã có sẵn trên những thiết bị như vậy; nếu kết hợp thêm khả năng phát hiện mẫu nâng cao mà LLM mang lại thì có thể giảm cảnh báo thừa và phát hiện cả những mẫu mới phức tạp

    • Đây là việc cung cấp một giao diện kiểu trò chuyện với lượng dữ liệu khổng lồ trên Internet (ChatGPT)
      Nhưng tôi không rõ nó tốt hơn ở điểm nào so với việc dùng Google Search, bấm vào các liên kết đầu trang, né quảng cáo, đồng ý cookie, đọc phần đầu, cuộn xuống đóng popup thanh toán, đọc nốt bài còn lại, rồi lặp lại quy trình đó 4 lần, mà cách đó lại có vẻ hiệu quả hơn
      Ừ, hiểu rồi

  • Có dòng "Stanford Repo Released Sep 31, 2025", khiến tôi có cảm giác như nó được lấy mẫu từ một phân phối xác suất mà ngày sau 30/9/2025 lại là ngày 31

    • Xin gửi lời cảm ơn vì phản hồi
      Trớ trêu thay, bài viết này lại nói về một mô hình hiểu thời gian

    • Có vẻ lỗi ngày tháng đã được sửa rồi

  • Nền tảng của nghiên cứu này là một hệ thống tên là “Flamingo”
    Hệ thống này chuyên xử lý văn bản và hình ảnh luân phiên nhau dưới dạng chuỗi
    Tức là nó có thể xử lý đồng thời hai modality tuần tự khác nhau
    Nghiên cứu mới này có vẻ đã tăng cường khả năng nhận thức thời gian bằng cách chèn các token thời gian vào một kênh modality
    (Nhân tiện, thiết kế website dễ thương quá - còn có cả hiệu ứng gradient từ trái sang phải trên văn bản)
    Liên kết bài báo về Flamingo

  • Cái này thực sự rất hay
    Đọc bài báo thì có vẻ kỹ thuật này hoạt động tốt cho hỏi đáp dựa trên dữ liệu chuỗi thời gian
    Điều khiến tôi hứng thú nhất trong AI y tế là khả năng phát hiện các tín hiệu bệnh lý mà con người cũng không nhận ra
    Ví dụ như ước tính phân suất tống máu từ ECG mà ngay cả bác sĩ tim mạch cũng không làm được (trong khi thuật toán thì đã được kiểm chứng bằng RCT)
    Liên kết bài báo liên quan
    Tôi tò mò liệu OpenTSLM có thể bắt được những tín hiệu tinh vi như vậy trong quá trình token hóa dữ liệu chuỗi thời gian vào không gian embedding của LLM hay không
    Hoặc liệu cách tiếp cận này có thể được mở rộng để phù hợp với những trường hợp ứng dụng như thế này hay không

    • Mô hình OpenTSLM được thiết kế chính xác để nắm bắt cả những tín hiệu tinh vi như vậy
      Đó là động lực lớn nhất trong giai đoạn đầu của nghiên cứu này
      Trong mô hình, dữ liệu chuỗi thời gian gốc được tích hợp qua cross-attention, và các biểu diễn chuỗi thời gian cụ thể được học từ bộ mã hóa chuỗi thời gian thô
  • Nếu mô hình cần xử lý chuỗi thời gian, thì tốt hơn là để nó tạo một script gọi thư viện TS rồi chuyển cho runtime thực thi
    Có lẽ con người cũng sẽ làm như vậy
    Tôi không chắc có cần phải nhúng hẳn chức năng đó vào mô hình hay không
    Tôi muốn biết khi mô hình có sẵn khả năng xử lý TS ở mức native thì liệu nó làm được điều gì mà gọi công cụ không làm được

    • Anthropic cũng khuyến nghị cách “để mô hình viết script” trong công bố mới nhất về Claude Agent SDK
      Việc sinh mã rõ ràng, có tính tái sử dụng và khả năng kết hợp cao, nên rất lý tưởng để thực hiện các tác vụ phức tạp một cách đáng tin cậy
      Khi phát triển agent, nếu suy nghĩ xem loại tác vụ nào phù hợp để biểu diễn bằng code thì sẽ mở ra những khả năng mới
      Liên kết về Claude Agent SDK

    • Có vẻ bạn đã bỏ lỡ ý chính
      Hãy nghĩ xem để mô tả một hình ảnh thì nên gọi thư viện phân tích ảnh, hay tốt hơn là trực tiếp hiểu và suy luận về hình ảnh đó như một chuỗi thời gian
      Nhìn vào các biểu đồ trong bài báo là có thể thấy những mô hình kiểu này làm được gì

    • Về căn bản, tôi tự hỏi liệu nó có thật sự có “khái niệm về thời gian” hay không, và liệu nó có hiểu quan hệ nhân quả hay không

  • Hôm nay về nhà là tôi sẽ thử ngay
    Tôi xử lý rất nhiều dữ liệu chuỗi thời gian âm thanh (không phải thứ có từ ngữ, và có nhiều dao động tinh vi), nên tôi muốn xem phương pháp mới này cho hiệu năng ra sao so với các kỹ thuật thống kê truyền thống

  • Họ đã tạo một kho trên huggingface và tải lên một phần trọng số mô hình
    Trên trang chủ chính thức, bài báo và Github vẫn chưa thấy liên kết đó
    Trang OpenTSLM trên huggingface

  • Tôi tưởng tượng cảnh claude code theo dõi chuỗi thời gian nhịp tim của tôi theo thời gian thực, thậm chí phát hiện được cả lúc tôi trằn trọc trên giường

    • Nhân tiện, bản claude2 ra mắt mấy ngày trước cho cảm giác dễ chịu hơn hẳn so với trước
  • Nếu tôi hiểu đúng thì có vẻ mô hình này được huấn luyện cho phân loại và diễn giải chuỗi thời gian, nên tôi tò mò không biết họ có benchmark cả dự báo (forecasting) hay không
    Giải thích và khuyến nghị thường gắn khá chặt với dự báo, nên có lẽ đặc tính của mô hình cũng sẽ thể hiện ở phần này

  • Một phép thử thú vị có thể là loại bỏ xu hướng của S&P500 rồi phân rã thành các thành phần theo 500 cổ phiếu để phân tích và xếp hạng mức độ đóng góp của từng mã
    Nhưng chỉ với kiểu công việc này thì khó mà kiếm được việc ở Rentec hay NSA
    Trong lĩnh vực thương mại và y tế, tín hiệu thường phần lớn là bình thường và đi kèm nhiễu trắng (không tương quan), còn ở NSA và Rentec thì chủ yếu phải xử lý tín hiệu không dừng (non-stationary), thay đổi chế độ (regime change) và nhiễu có tương quan
    Với những tín hiệu như vậy thì không thể khử nhiễu mà không làm mất thông tin
    Mục tiêu của kiểu phân tích này không hẳn là dự đoán tick tiếp theo, mà là phát hiện sự thay đổi mẫu hình (thay đổi chế độ) nhanh nhất có thể và ghép nó với các mẫu giao dịch cổ phiếu hoặc hoạt động tình báo đã biết