TimeCapsuleLLM: Mô hình ngôn ngữ lớn được huấn luyện chỉ từ dữ liệu giai đoạn 1800~1875

(github.com/haykgrigo3)

5 điểm bởi GN⁺ 2026-01-13 | 1 bình luận | Chia sẻ qua WhatsApp

TimeCapsuleLLM là một mô hình ngôn ngữ lớn (LLM) được huấn luyện chỉ bằng tư liệu từ một giai đoạn cụ thể (1800~1875), với mục tiêu giảm thiểu thiên lệch hiện đại và tái hiện ngôn ngữ cũng như thế giới quan của thời kỳ đó
Mô hình sử dụng tập dữ liệu gồm tài liệu lịch sử, sách, báo chí, văn bản pháp luật của khu vực London để phản ánh phong cách ngôn ngữ và từ vựng theo thời kỳ
Các phiên bản đầu được xây dựng trên nanoGPT, các phiên bản sau dựa trên Microsoft Phi 1.5; quy mô dữ liệu tối đa 90GB, số tham số mô hình tối đa 700M
Thông qua phương pháp Selective Temporal Training(STT), mô hình chỉ chọn dữ liệu của một giai đoạn cụ thể để huấn luyện, nhằm tránh đưa các khái niệm hiện đại vào
Đây là một dự án thử nghiệm cho thấy tiềm năng của nghiên cứu mô hình ngôn ngữ lịch sử và tái hiện ngôn ngữ AI theo từng thời đại

Tổng quan dự án

TimeCapsuleLLM là một mô hình ngôn ngữ được huấn luyện chỉ từ dữ liệu của một thời kỳ và địa điểm cụ thể, với mục tiêu giảm thiên lệch hiện đại và tái hiện từ vựng, văn phong, thế giới quan của thời đại đó
- Đưa ra khái niệm: “AI không chỉ bắt chước nhân vật lịch sử, mà là một mô hình thực sự sử dụng ngôn ngữ của thời đại ấy”
Các phiên bản đầu (v0, v0.5) được phát triển dựa trên nanoGPT của Andrej Karpathy, còn v1 được phát triển dựa trên Microsoft Phi 1.5
Mô hình đã được công bố trên Hugging Face

Đặc điểm theo từng phiên bản mô hình

v0
- Được huấn luyện bằng khoảng 187MB dữ liệu
- Sử dụng từ vựng của thế kỷ 19 nhưng phần lớn câu vẫn ở dạng thiếu chuẩn
- Hoàn toàn không xuất hiện khái niệm hiện đại
v0.5
- Ngữ pháp và dấu câu được cải thiện, tái hiện văn phong thời Victoria
- Tỷ lệ sai lệch thực tế còn cao và có chứa nhiễu OCR (ví dụ: “Digitized by Google”)
v1
- Tạo ra phản hồi có liên kết với các sự kiện và nhân vật lịch sử thực tế
- Ví dụ: với prompt “It was the year of our Lord 1834”, mô hình sinh ra câu nhắc đến các cuộc biểu tình và kiến nghị ở London
v2mini-eval1 / eval2
- Huấn luyện 10K bước trên mẫu 15GB trong tổng 90GB
- Do vấn đề tokenizer, các từ từng bị tách rời khi xuất ra, nhưng sau khi sửa thì cấu trúc câu vẫn được giữ nguyên
- Với các prompt như “Charles Dickens”, “Charles Darwin”, mô hình tạo ra lối diễn đạt kiểu thế kỷ 19

Cấu trúc tập dữ liệu

Tập dữ liệu v2
- 90GB văn bản London giai đoạn 1800~1875, tổng cộng 136,344 tài liệu
- Việc token hóa toàn bộ vẫn chưa hoàn tất, và mẫu 15GB đã được công bố trên Hugging Face
Nguồn dữ liệu gồm sách miền công cộng, báo chí, văn bản pháp luật, v.v.
Quy mô dữ liệu theo từng phiên bản
- v0: 187MB
- v0.5: 435MB
- v1: 6.25GB
- v2mini-eval1: 15GB

Selective Temporal Training(STT)

STT là một phương pháp huấn luyện chỉ sử dụng dữ liệu của một giai đoạn lịch sử cụ thể
- Loại trừ ảnh hưởng của các khái niệm hiện đại, chỉ phản ánh tri thức và ngôn ngữ của thời kỳ đó
- TimeCapsuleLLM v0.5 được huấn luyện từ đầu (from scratch) chỉ với dữ liệu giai đoạn 1800~1875
Thay vì fine-tuning từ mô hình có sẵn, dự án huấn luyện mới hoàn toàn để loại bỏ phần dư thông tin hiện đại

Kích thước mô hình và môi trường huấn luyện

Số lượng tham số mô hình
- v0: 16M
- v0.5: 123M
- v1: 700M
- v2mini-eval1: 300M
Thiết bị huấn luyện
- v0/v0.5: GPU RTX 4060, CPU i5-13400F, RAM 16GB
- v1, v2mini-eval1: thuê GPU A100 SXM

Cách sử dụng

Dự án tập trung vào thu thập dữ liệu lịch sử, làm sạch, xây dựng tokenizer
Quy trình từng bước
1. Thu thập văn bản lịch sử: lấy văn bản theo thời kỳ từ tài liệu miền công cộng, sách, v.v.
2. Tạo tokenizer: chạy train_tokenizer.py để tạo vocab.json, merges.txt
3. Huấn luyện mô hình: tham khảo tài liệu của nanoGPT hoặc kiến trúc được chọn

Phân tích thiên lệch

Cung cấp tài liệu trực quan hóa thiên lệch đại từ, địa lý, thời gian cho kết quả v2mini-eval1
Có thể xem thống kê chi tiết trong tệp v2_bias_report.json

Giấy phép và thông tin công khai

Công bố theo MIT License
Ghi nhận 1.2k Stars, 41 Forks trên GitHub
Ngôn ngữ chính là Python 100%
Bản phát hành mới nhất: v2mini-eval2 — London (1800–1875)

1 bình luận

GN⁺ 2026-01-13

Ý kiến trên Hacker News

Tôi tự hỏi sẽ ra sao nếu huấn luyện một mô hình mới nhất với mốc cắt là năm 1900 rồi hỏi nó về cơ học lượng tử (QM) và thuyết tương đối
Nếu mô hình đưa ra được câu trả lời đúng dù chỉ phần nào, đó sẽ là bằng chứng rất mạnh cho thấy LLM là con đường tiến tới trí tuệ lớn hơn
- Ngay thời đó cũng đã có những khái niệm gần với QM và thuyết tương đối
  Thí nghiệm Michelson-Morley (1887), phép biến đổi Lorentz (1889), hiệu ứng quang điện (1887) là những ví dụ
  William Clifford qua đời vào năm 1889, nhưng đã đề xuất ý tưởng giải thích lực và vật chất bằng độ cong của không gian
  Khoa học không xuất hiện đột ngột, và nếu tổng hợp các bài báo thời đó thì những lý thuyết này có thể đã xuất hiện một cách tự nhiên
- Tôi đang làm một dự án huấn luyện mô hình chủ yếu trên tài liệu khoa học tiếng Đức (trước năm 1904)
  Chất lượng OCR kém nên phần lớn phải xử lý thủ công, nhưng mô hình 700M tham số thì vẫn có thể làm tại nhà
  Tuy vậy, để có suy luận thực sự thì cần mô hình cỡ 70B
  Ngoài ra, thách thức lớn là làm sao để tri thức năm 2026 không bị trộn vào trong quá trình fine-tuning và RL
- Lĩnh vực hóa học cũng là một đối tượng thí nghiệm thú vị
  Cuối thế kỷ 19 là thời kỳ hoàng kim của hóa học, và tôi tò mò liệu LLM có thể đưa ra dự đoán nhiệt động lực học hay giả thuyết mới hay không
- Đã có một dự án thử điều tương tự: history-llms
  Có thể xem thảo luận liên quan trong thread HN
- Bài báo của Li và cộng sự (2024) "Evaluating Large Language Models for Generalization and Robustness via Data Compression" cũng đáng tham khảo
  Cách tiếp cận đo khả năng khái quát hóa và độ vững của mô hình thông qua tỷ lệ nén dữ liệu (perplexity) rất ấn tượng
Việc cho rằng “Who art Henry” là tiếng Anh kiểu thế kỷ 19 có vẻ là một ví dụ của sự thiếu cảm nhận ngôn ngữ lịch sử
Thực ra nó không đúng ngữ pháp ở bất kỳ thời kỳ nào
- Với tư cách là người đã đọc nhiều sách Kitô giáo từ thế kỷ 17 đến 19, tôi đồng ý rằng cách diễn đạt đó nghe rất gượng
- Nếu “Who art Henry” là prompt, tôi muốn biết cách diễn đạt kiểu thế kỷ 19 nào mới thực sự đúng
Thật thú vị khi nghĩ xem liệu thí nghiệm này có thể trở thành một bài kiểm tra cho khả năng AGI hay không
Câu hỏi là: nếu chỉ cho dữ liệu trước một thời điểm nhất định (năm X), liệu nó có thể tự suy ra khám phá xảy ra sau đó (Y) không
- Trước hết phải làm rõ định nghĩa AGI
  Một số khám phá có thể đạt được bằng cách kết hợp các ý tưởng sẵn có, nhưng thuyết tương đối hay cơ học lượng tử thì đòi hỏi thí nghiệm là thiết yếu
  Ví dụ, mô hình thời đó có thể triển khai thuyết tương đối rộng về mặt toán học, nhưng rất có thể sẽ quy chuyển động cận điểm của Sao Thủy cho hành tinh Vulcan (wiki Vulcan)
- Gần như không thể ngăn rò rỉ dữ liệu một cách hoàn toàn
  Tài liệu bị phân loại sai, chú thích, metadata... đều tạo ra nguy cơ tri thức bị lọt vào
- Về căn bản, chỉ với dữ liệu cũ thì không đủ lượng để huấn luyện một mô hình SoTA
- Nếu muốn thí nghiệm này thực sự khả thi thì cần một mô hình cỡ GPT-5
  Nó đòi hỏi lượng văn bản khổng lồ, số tham số rất lớn, và cả một quy trình RLHF kiểu thế kỷ 19
- Đây sẽ là phép thử thực sự để xem LLM có tư duy sáng tạo hay chỉ đơn thuần nhắc lại
Có người đưa ra ý tưởng so sánh mô hình được huấn luyện trên dữ liệu 1800~1875 với mô hình được huấn luyện trên dữ liệu 1800~2025
rồi dùng sự khác biệt giữa hai phân phối xác suất để thử dự đoán năm 2040
Thực tế thì rất khó dự đoán chính xác, nhưng như một thí nghiệm nội suy/ngoại suy phân phối xác suất thì có vẻ khá thú vị
- Cũng có người đùa rằng biết đâu nó lại chỉ nghe giống tiếng lóng của thế hệ Gen Alpha
Đây là một khái niệm thú vị, nhưng dữ liệu ghi chép thời đó thiên lệch về giới tinh hoa tri thức
Khi ấy chưa phải là thời đại ai cũng để lại dấu vết như ngày nay
Mô hình hiện đại được huấn luyện trên hàng chục TB văn bản, còn dữ liệu thế kỷ 19 thì ít hơn nhiều và cũng kém đa dạng hơn
Vì vậy, việc nó trả lời những câu như “Năm 1834 đã xảy ra chuyện gì?” bằng văn phong báo chí là kết quả tự nhiên
- Nhưng thiên lệch nhất quán như vậy đôi khi lại có thể là một ưu điểm
  LLM ngày nay trộn lẫn suy nghĩ của quá nhiều người nên đôi khi tạo ra đầu ra nhiều nhiễu
  Một mô hình được huấn luyện trên góc nhìn nhất quán của một thời đại cụ thể có thể có phong cách phản hồi dễ dự đoán hơn
- Những thiên lệch lộ rõ nhờ các ràng buộc nhân tạo lại có thể giúp phơi bày thiên lệch ẩn trong các mô hình mới nhất
- Mô hình hiện đại thiên về tiếng Anh, phương Tây, và góc nhìn sau thập niên 1990
  Hơn nữa, quá trình alignment còn phản ánh giá trị của bên cung cấp
  Trong khi đó, mô hình dựa trên dữ liệu quá khứ chỉ “tình cờ” phản ánh thiên lệch của thời đại đó
Ít nhất thì kiểu mô hình này có lẽ sẽ chặn được nạn emoji tràn lan
Nhưng tôi vẫn tò mò việc tokenization sẽ khác đi thế nào
Nó sẽ không có kiến thức lập trình, nhưng biết đâu khi kết hợp với LLM hiện đại lại có thể tạo ra phần giải thích code theo phong cách thế kỷ 19
Tôi cũng đang nghĩ liệu có thể trộn các lớp như các mô hình chuyển phong cách trước đây hay không
- Cũng có người đề xuất: “Hay cứ để hai mô hình nói chuyện với nhau thôi?”
Ý tưởng huấn luyện mô hình chỉ trên tài liệu trước thời đại thông tin, rồi dạy cho nó ‘máy tính là gì’, nghe khá dễ thương
Nhưng đầu ra hiện tại có vẻ gần với Markov chain hơn là ChatGPT
Nó khiến tôi nhớ đến một “dự án LLM khóa thời gian” khác gần đây được đăng trên HN
Kết quả trông rất chỉn chu, nhưng họ nói vẫn đang suy nghĩ cách ngăn việc lạm dụng và hiểu sai
Xem thread liên quan
Nếu mô hình này cho ra đầu ra nhất quán, nó có thể bác bỏ lập luận rằng tài liệu có bản quyền là thứ bắt buộc trong huấn luyện LLM
Nhưng hiện tại có vẻ nó vẫn chưa đạt đến mức đó
- Nhân tiện, cũng đã có trường hợp tạo được mô hình khá ổn chỉ từ dữ liệu công khai
  The Common Pile v0.1 đã xây dựng một mô hình 7B tham số từ 8TB văn bản công khai
Tôi cũng đã thử một thí nghiệm tương tự: dự án transformer
Tôi huấn luyện các mô hình riêng biệt trên những tác phẩm khác nhau như Kinh Thánh, Don Quixote, Kafka
(Cũng có cả trình tạo lời bài hát và trình dịch, nhưng chất lượng không tốt lắm)

TimeCapsuleLLM: Mô hình ngôn ngữ lớn được huấn luyện chỉ từ dữ liệu giai đoạn 1800~1875

Tổng quan dự án

Đặc điểm theo từng phiên bản mô hình

Cấu trúc tập dữ liệu

Selective Temporal Training(STT)

Kích thước mô hình và môi trường huấn luyện

Cách sử dụng

Phân tích thiên lệch

Giấy phép và thông tin công khai

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News