- Các foundation model hiện nay xử lý được văn bản, hình ảnh, âm thanh và video, nhưng thiếu năng lực suy luận theo thời gian đối với dữ liệu chuỗi thời gian vận hành thế giới thực (dấu hiệu sinh tồn, giá cả, telemetry, log, v.v.)
- Time Series Language Models (TSLMs) hỗ trợ chuỗi thời gian như một modality gốc ngang hàng với văn bản, cho phép người dùng đặt câu hỏi bằng ngôn ngữ tự nhiên và nhận được giải thích cùng khuyến nghị
- OpenTSLM là một mô hình ngôn ngữ mới được thiết kế để xử lý đồng thời dữ liệu chuỗi thời gian và văn bản lâm sàng trong lĩnh vực y tế
- Áp dụng kiến trúc cross-attention nên có thể mở rộng ngay cả với chuỗi thời gian dài, và thực tế hơn cho vận hành quy mô lớn so với các cách tiếp cận trước đây
- Đề xuất hai cấu trúc: SoftPrompt (chèn chuỗi thời gian dưới dạng token) và Flamingo (dựa trên cross-attention), mỗi cấu trúc có ưu và nhược điểm riêng
- Giới thiệu ba bộ dữ liệu Chain-of-Thought (CoT) mới (HAR, Sleep, ECG-QA) để đánh giá năng lực suy luận của mô hình
- So với GPT-4o, một mô hình nhỏ hơn 200 lần đạt độ chính xác cao hơn 4,4 lần trong phân loại giai đoạn ngủ, 6 lần trong nhận diện hoạt động và 2 lần trong diễn giải ECG (hiệu quả tương ứng là 880 lần, 1.000 lần và 400 lần)
- Lần đầu tiên trong lĩnh vực y tế, mô hình xử lý đồng thời tín hiệu ECG 12 chuyển đạo và văn bản, đồng thời cung cấp suy luận chain-of-thought đã được bác sĩ tim mạch kiểm chứng
- Xử lý đồng thời nhiều chuỗi thời gian có độ dài biến thiên và tích hợp với ngữ cảnh văn bản để tạo ra các giải thích có thể diễn giải được, đã được chuyên gia lĩnh vực xác nhận
- Nghiên cứu này cho thấy khả năng mở rộng sang nhiều lĩnh vực ứng dụng chuỗi thời gian khác như tài chính, chuỗi cung ứng, giám sát công nghiệp, v.v.
Tổng quan nghiên cứu
- Chẩn đoán và điều trị lâm sàng về bản chất dựa trên việc hiểu những thay đổi theo thời gian
- Các LLM hiện có thể xử lý nhiều modality như hình ảnh, văn bản, giọng nói, nhưng còn thiếu khả năng diễn giải dữ liệu chuỗi thời gian liên tục
- Để giải quyết điều này, OpenTSLM đề xuất cách tích hợp dữ liệu chuỗi thời gian như một modality native mới của LLM
Kiến trúc mô hình
- OpenTSLM-SoftPrompt
- Nhúng chuỗi thời gian rồi đưa vào cùng với token văn bản
- Đơn giản và hiệu quả về tham số, nhưng với chuỗi dài thì có hạn chế là mức sử dụng bộ nhớ tăng vọt
- OpenTSLM-Flamingo
- Xử lý chuỗi thời gian như một modality riêng và kết hợp với văn bản bằng cross-attention
- Mức sử dụng bộ nhớ ổn định ngay cả với chuỗi dài và phù hợp với xử lý tổng quát
Bộ dữ liệu và huấn luyện
- HAR-CoT: nhận diện hoạt động của con người thông qua cảm biến gia tốc
- Sleep-CoT: phân loại giai đoạn ngủ dựa trên EEG
- ECG-QA-CoT: hỏi đáp sử dụng dữ liệu điện tâm đồ
- Áp dụng học theo chương trình từng bước để mở rộng từ học các mẫu chuỗi thời gian đơn giản sang học năng lực suy luận
Thành tựu chính
- SoftPrompt-Llama3.2-1B: đạt 69,9% F1 trên Sleep-CoT và 65,4% F1 trên HAR-CoT
- Flamingo-Llama3.2-3B: đạt hiệu năng tốt nhất trên ECG-QA-CoT với 40,25% F1
- Vượt GPT-4o về hiệu năng: ngay cả mô hình nhỏ (OpenTSLM-1B) cũng ghi nhận điểm F1 cao hơn GPT-4o
- Đánh giá của bác sĩ: 92,9% quá trình suy luận trong ECG-QA được đánh giá là diễn giải chính xác hoặc chính xác một phần
Hiệu quả bộ nhớ
- SoftPrompt có VRAM tăng theo cấp số nhân theo độ dài đầu vào (ví dụ: cần hơn 110GB trong ECG-QA)
- Flamingo duy trì mức sử dụng bộ nhớ ổn định (khoảng 60~70GB ngay cả với Llama-3B)
Thảo luận
- OpenTSLM cho thấy mô hình nhỏ có thể vượt qua mô hình cực lớn
- SoftPrompt phù hợp với chuỗi thời gian ngắn, còn Flamingo phù hợp với chuỗi thời gian dài/nhiều chuỗi
- Cung cấp tính minh bạch của quá trình suy luận trong dữ liệu y tế, góp phần tạo dựng độ tin cậy
- Khác với các cách tiếp cận dựa trên bộ phân loại truyền thống, mô hình này hiện thực hóa suy luận ngôn ngữ tự nhiên + kết hợp chuỗi thời gian
Hạn chế và hướng nghiên cứu tiếp theo
- Cách hiện tại để bảo toàn thang đo và đơn vị của chuỗi thời gian dưới dạng văn bản có thể chưa phải tối ưu
- Do GPT-4o tham gia vào quá trình tạo bộ dữ liệu CoT, nên có khả năng tồn tại thiên lệch dữ liệu
- Cần thiết kế hàm mất mát bảo đảm dự đoán đáp án đúng, đơn giản hóa kiến trúc và kiểm chứng năng lực khái quát hóa
Kết luận
- OpenTSLM có tiềm năng ứng dụng cao không chỉ trong y tế mà còn trong xử lý dữ liệu dài hạn ở các lĩnh vực như tài chính, chuỗi cung ứng, giám sát công nghiệp, v.v.
- Nghiên cứu này đặt nền móng cho khái niệm mô hình ngôn ngữ chuỗi thời gian (TSLM) và hướng tới mở rộng thành mô hình suy luận chuỗi thời gian tổng quát
1 bình luận
Ý kiến trên Hacker News
Tôi hiểu điểm là có thể tương tác với dữ liệu chuỗi thời gian bằng ngôn ngữ tự nhiên, nhưng tôi tò mò lợi thế của cách này so với việc dùng gọi công cụ để tận dụng thư viện xử lý tín hiệu hoặc thuật toán dựa trên luật (hoặc dùng machine learning nếu dữ liệu biến động) là gì
Ví dụ, nếu yêu cầu một LLM thương mại phân tích dữ liệu ECG thì LLM đó sẽ gọi một thư viện phân tích chuỗi thời gian ECG
Thư viện đó sẽ chạy trên toàn bộ dữ liệu để trích xuất các thống kê và sự kiện - ví dụ: “nhịp tim trung bình 60bpm, phát hiện AFib tại một thời điểm cụ thể”
Làm như vậy thì LLM có thể lấy được toàn bộ thông tin cần cho việc phân tích, mà chi phí tính toán cũng thấp hơn rất nhiều
Hơn nữa, cách tiếp cận này đòi hỏi tập dữ liệu gán nhãn quy mô lớn và mô hình được tiền huấn luyện; hãy sửa tôi nếu tôi sai, nhưng tôi nghĩ một mô hình đa dụng có thể xử lý dữ liệu chuỗi thời gian “nói chung” là bất khả thi
Nói cách khác, mô hình được huấn luyện bằng dữ liệu ECG sẽ không tương thích với dữ liệu thị trường chứng khoán
Một mô hình duy nhất có thể hiểu mọi loại dữ liệu khác nhau như thế này hiện vẫn là điều không thể
Rất khó để chạy kiểu hệ thống này ở edge
Điểm mấu chốt là phải vận hành ổn định ở edge
Không ai muốn giao việc theo dõi nhịp tim của mình cho cloud - dịch vụ từ xa có vấn đề lớn về sự cố và độ tin cậy, chưa kể các khó khăn bổ sung liên quan đến suy luận LLM
Các tính năng phát hiện dựa trên luật truyền thống đã có sẵn trên những thiết bị như vậy; nếu kết hợp thêm khả năng phát hiện mẫu nâng cao mà LLM mang lại thì có thể giảm cảnh báo thừa và phát hiện cả những mẫu mới phức tạp
Đây là việc cung cấp một giao diện kiểu trò chuyện với lượng dữ liệu khổng lồ trên Internet (ChatGPT)
Nhưng tôi không rõ nó tốt hơn ở điểm nào so với việc dùng Google Search, bấm vào các liên kết đầu trang, né quảng cáo, đồng ý cookie, đọc phần đầu, cuộn xuống đóng popup thanh toán, đọc nốt bài còn lại, rồi lặp lại quy trình đó 4 lần, mà cách đó lại có vẻ hiệu quả hơn
Ừ, hiểu rồi
Có dòng "Stanford Repo Released Sep 31, 2025", khiến tôi có cảm giác như nó được lấy mẫu từ một phân phối xác suất mà ngày sau 30/9/2025 lại là ngày 31
Xin gửi lời cảm ơn vì phản hồi
Trớ trêu thay, bài viết này lại nói về một mô hình hiểu thời gian
Có vẻ lỗi ngày tháng đã được sửa rồi
Nền tảng của nghiên cứu này là một hệ thống tên là “Flamingo”
Hệ thống này chuyên xử lý văn bản và hình ảnh luân phiên nhau dưới dạng chuỗi
Tức là nó có thể xử lý đồng thời hai modality tuần tự khác nhau
Nghiên cứu mới này có vẻ đã tăng cường khả năng nhận thức thời gian bằng cách chèn các token thời gian vào một kênh modality
(Nhân tiện, thiết kế website dễ thương quá - còn có cả hiệu ứng gradient từ trái sang phải trên văn bản)
Liên kết bài báo về Flamingo
Cái này thực sự rất hay
Đọc bài báo thì có vẻ kỹ thuật này hoạt động tốt cho hỏi đáp dựa trên dữ liệu chuỗi thời gian
Điều khiến tôi hứng thú nhất trong AI y tế là khả năng phát hiện các tín hiệu bệnh lý mà con người cũng không nhận ra
Ví dụ như ước tính phân suất tống máu từ ECG mà ngay cả bác sĩ tim mạch cũng không làm được (trong khi thuật toán thì đã được kiểm chứng bằng RCT)
Liên kết bài báo liên quan
Tôi tò mò liệu OpenTSLM có thể bắt được những tín hiệu tinh vi như vậy trong quá trình token hóa dữ liệu chuỗi thời gian vào không gian embedding của LLM hay không
Hoặc liệu cách tiếp cận này có thể được mở rộng để phù hợp với những trường hợp ứng dụng như thế này hay không
Đó là động lực lớn nhất trong giai đoạn đầu của nghiên cứu này
Trong mô hình, dữ liệu chuỗi thời gian gốc được tích hợp qua cross-attention, và các biểu diễn chuỗi thời gian cụ thể được học từ bộ mã hóa chuỗi thời gian thô
Nếu mô hình cần xử lý chuỗi thời gian, thì tốt hơn là để nó tạo một script gọi thư viện TS rồi chuyển cho runtime thực thi
Có lẽ con người cũng sẽ làm như vậy
Tôi không chắc có cần phải nhúng hẳn chức năng đó vào mô hình hay không
Tôi muốn biết khi mô hình có sẵn khả năng xử lý TS ở mức native thì liệu nó làm được điều gì mà gọi công cụ không làm được
Anthropic cũng khuyến nghị cách “để mô hình viết script” trong công bố mới nhất về Claude Agent SDK
Việc sinh mã rõ ràng, có tính tái sử dụng và khả năng kết hợp cao, nên rất lý tưởng để thực hiện các tác vụ phức tạp một cách đáng tin cậy
Khi phát triển agent, nếu suy nghĩ xem loại tác vụ nào phù hợp để biểu diễn bằng code thì sẽ mở ra những khả năng mới
Liên kết về Claude Agent SDK
Có vẻ bạn đã bỏ lỡ ý chính
Hãy nghĩ xem để mô tả một hình ảnh thì nên gọi thư viện phân tích ảnh, hay tốt hơn là trực tiếp hiểu và suy luận về hình ảnh đó như một chuỗi thời gian
Nhìn vào các biểu đồ trong bài báo là có thể thấy những mô hình kiểu này làm được gì
Về căn bản, tôi tự hỏi liệu nó có thật sự có “khái niệm về thời gian” hay không, và liệu nó có hiểu quan hệ nhân quả hay không
Hôm nay về nhà là tôi sẽ thử ngay
Tôi xử lý rất nhiều dữ liệu chuỗi thời gian âm thanh (không phải thứ có từ ngữ, và có nhiều dao động tinh vi), nên tôi muốn xem phương pháp mới này cho hiệu năng ra sao so với các kỹ thuật thống kê truyền thống
Họ đã tạo một kho trên huggingface và tải lên một phần trọng số mô hình
Trên trang chủ chính thức, bài báo và Github vẫn chưa thấy liên kết đó
Trang OpenTSLM trên huggingface
Tôi tưởng tượng cảnh claude code theo dõi chuỗi thời gian nhịp tim của tôi theo thời gian thực, thậm chí phát hiện được cả lúc tôi trằn trọc trên giường
Nếu tôi hiểu đúng thì có vẻ mô hình này được huấn luyện cho phân loại và diễn giải chuỗi thời gian, nên tôi tò mò không biết họ có benchmark cả dự báo (forecasting) hay không
Giải thích và khuyến nghị thường gắn khá chặt với dự báo, nên có lẽ đặc tính của mô hình cũng sẽ thể hiện ở phần này
Một phép thử thú vị có thể là loại bỏ xu hướng của S&P500 rồi phân rã thành các thành phần theo 500 cổ phiếu để phân tích và xếp hạng mức độ đóng góp của từng mã
Nhưng chỉ với kiểu công việc này thì khó mà kiếm được việc ở Rentec hay NSA
Trong lĩnh vực thương mại và y tế, tín hiệu thường phần lớn là bình thường và đi kèm nhiễu trắng (không tương quan), còn ở NSA và Rentec thì chủ yếu phải xử lý tín hiệu không dừng (non-stationary), thay đổi chế độ (regime change) và nhiễu có tương quan
Với những tín hiệu như vậy thì không thể khử nhiễu mà không làm mất thông tin
Mục tiêu của kiểu phân tích này không hẳn là dự đoán tick tiếp theo, mà là phát hiện sự thay đổi mẫu hình (thay đổi chế độ) nhanh nhất có thể và ghép nó với các mẫu giao dịch cổ phiếu hoặc hoạt động tình báo đã biết