7 điểm bởi kangbit 2026-03-25 | 8 bình luận | Chia sẻ qua WhatsApp

Xin chào! Tôi đã tạo ra một dịch vụ phân tích theo thời gian thực tác động của các phát ngôn của cựu Tổng thống Trump lên kinh tế và thị trường Hàn Quốc, mang tên 'Trump-Saith'.

Website: https://trump-saith.com/ (https://trump-saith.com/)
Tính năng chính: thu thập phát ngôn của Trump theo thời gian thực -> tóm tắt bằng LLM bằng tiếng Hàn -> phân tích tác động kinh tế -> loại bỏ trùng lặp rồi cung cấp dưới dạng feed


💡 Vì sao tôi tạo ra nó?

Gần đây, chỉ một câu nói của Trump cũng thường xuyên khiến thị trường chứng khoán và tỷ giá trong nước biến động mạnh. Tuy nhiên, các bài gốc xuất hiện trên Truth Social và những nơi tương tự thì khó theo dõi, còn tin tức hiện có lại chậm vì phải qua khâu biên tập.
Vì vậy, tôi bắt đầu dự án với ý tưởng: “Hãy trực tiếp thu thập phát ngôn nhanh nhất có thể, rồi tóm tắt chỉ những điểm cốt lõi từ góc nhìn của nhà phát triển và nhà đầu tư.”

🛠️ Tech stack và kiến trúc

Vì đây là cộng đồng nhà phát triển, tôi muốn chia sẻ cách triển khai. Tôi đã xây dựng pipeline với 4 lớp độc lập.

  • Data Collection (Python, APScheduler)
    Theo dõi Truth Social API và các kênh RSS theo chu kỳ 1 phút để thu thập dữ liệu thô.
    Dữ liệu thu thập được được lưu trữ lâu dài trong Oracle DB và được chuyển bất đồng bộ sang lớp tiếp theo thông qua Redis Streams.

  • Analysis (Gemini 2.0 Flash)
    Phân tích văn bản gốc đã thu thập bằng mô hình Gemini 2.0 Flash.
    Không chỉ dịch đơn thuần mà còn trích xuất phần tóm tắt và từ khóa dưới góc nhìn về “tác động tới kinh tế/thị trường Hàn Quốc”. (tóm tắt 3-5 câu)

  • Deduplication (Sentence-Transformers, Qdrant)
    Xử lý các phát ngôn có cùng nội dung được thu thập từ nhiều kênh khác nhau.
    Tạo sentence embedding bằng mô hình all-MiniLM-L6-v2 và lọc trùng lặp trong Qdrant (Vector DB) với ngưỡng cosine similarity 0.85.

  • API & Feed
    Cuối cùng cung cấp dữ liệu đã được tinh lọc cho client.

✨ Điểm khác biệt

Tốc độ: bắt đầu phân tích ngay khi nguyên văn phát ngôn của Trump được đăng lên, trước cả khi bài báo xuất hiện.
Phân tích ngữ cảnh: dùng prompt LLM để suy ra “Phát ngôn này có ý nghĩa gì với ngành bán dẫn hay ô tô của Hàn Quốc?”.
Feed sạch: giảm thiểu nhiễu khi cùng một tin xuất hiện lặp lại bằng cách loại bỏ trùng lặp dựa trên độ tương đồng.

🚀 Kế hoạch sắp tới

Hiện tại tôi đang mở rộng các kênh thu thập, và trong tương lai dự định bổ sung tính năng thông báo đẩy theo thời gian thực cho các từ khóa cụ thể (ví dụ: Samsung Electronics, thuế quan, v.v.).
Tôi hy vọng đây sẽ là một trợ giúp nhỏ cho những ai quan tâm đến điểm giao thoa giữa IT và kinh tế. Tôi luôn hoan nghênh mọi phản hồi!
Xin cảm ơn.

8 bình luận

 
roxie 2026-04-01

Nổ rồi 403

 
[Bình luận này đã bị ẩn.]
 
kangbit 2026-03-27

Cảm ơn! Tôi đã đăng ký dự án rồi!

 
brainer 2026-03-26

"cựu" tổng thống

 
kangbit 2026-03-26

Tôi đã không thể xem xét kỹ lưỡng..!

 
mhpark 2026-03-26

Chắc là bài này được viết bằng mô hình có dữ liệu huấn luyện từ 2021.01 đến 2025.01 rồi haha

 
dankim0124 2026-03-25

Ngầu đấy

Nhưng đây có phải là phần phân tích tác động kinh tế với mỗi thẻ chỉ có một hai câu như bản tóm tắt không? Nếu không thì hiện tại trên màn hình của tôi không hiển thị thông tin gọi là phân tích tác động ạ

 
kangbit 2026-03-26

Hiện tại chúng tôi không hiển thị riêng phần đó.
Có lẽ cần thảo luận xem có thể tăng cường nội dung phân tích tác động trong phần tóm tắt hay không.
Cảm ơn bạn!