- History LLMs là các mô hình ngôn ngữ lớn (LLM) khóa theo thời gian chỉ được huấn luyện bằng văn bản trước một thời điểm nhất định, đóng vai trò là công cụ nghiên cứu để tái hiện ngôn ngữ và tư duy của quá khứ
- Dòng Ranke-4B là các mô hình 4 tỷ tham số dựa trên kiến trúc Qwen3, bao gồm các phiên bản theo từng mốc chặn tri thức như 1913, 1929, 1933, 1939 và 1946
- Dữ liệu huấn luyện gồm 80 tỷ token được chọn lọc từ khối văn bản chuỗi thời gian quy mô 600 tỷ token, đồng thời giữ nguyên các phán đoán giá trị của nguyên bản mà không hiệu chỉnh thiên lệch
- Các phản hồi ví dụ cho thấy mô hình năm 1913 không biết Hitler, sự phê phán chế độ nô lệ, cũng như định kiến mang tính thời đại về lao động nữ và người thiểu số tính dục
- Dự án này mang lại cho các nhà nghiên cứu nhân văn, khoa học xã hội và khoa học máy tính một cánh cửa để khám phá các mẫu ngôn ngữ tập thể trong diễn ngôn quá khứ
Tổng quan dự án
- History LLMs là một dự án nghiên cứu nhằm khôi phục thế giới quan ngôn ngữ của quá khứ bằng cách xây dựng các mô hình ngôn ngữ lớn bị khóa theo từng thời điểm
- Mô hình được thiết kế để không thể tiếp cận thông tin sau một năm nhất định
- Các phán đoán chuẩn tắc được hình thành trong quá trình tiền huấn luyện không bị chỉnh sửa một cách nhân tạo
- Toàn bộ dữ liệu huấn luyện, checkpoint và kho lưu trữ dự kiến sẽ được công khai, đồng thời đang chuẩn bị cơ chế truy cập phục vụ sử dụng học thuật
- Mục tiêu của dự án là khám phá cấu trúc tư duy ngôn ngữ của quá khứ trong các nghiên cứu nhân văn, khoa học xã hội và khoa học máy tính
Dòng mô hình Ranke-4B
- Ranke-4B, dự kiến công bố vào tháng 12 năm 2025, là một họ LLM quy mô 4 tỷ tham số
- Dựa trên kiến trúc Qwen3, với năm phiên bản chặn tri thức tại các mốc 1913, 1929, 1933, 1939 và 1946
- Được huấn luyện bằng 80 tỷ token chọn lọc từ 600 tỷ token văn bản chuỗi thời gian
- Dữ liệu tiền huấn luyện, hậu huấn luyện và checkpoint sẽ được cung cấp qua GitHub và Hugging Face
Phản hồi ví dụ
- Mô hình năm 1913 trả lời rằng không biết “Adolf Hitler”, chỉ phản ánh thông tin của thời điểm đó
- Khi được hỏi về chế độ nô lệ, mô hình trả lời rằng nó “trái với luật công và tinh thần của Tuyên ngôn Độc lập”
- Với câu hỏi liên quan đến lao động nữ, mô hình trả lời rằng “việc tuyển dụng phụ nữ là tùy quyền của chủ sử dụng lao động”
- Với câu hỏi về lựa chọn giữa ứng viên nam và nữ, mô hình trả lời rằng “đàn ông đáng tin cậy hơn”
- Về người đồng tính, mô hình mô tả rằng họ “bị lên án về mặt đạo đức nhưng cũng có quan điểm xem đó là bệnh”
- Những phản hồi này cho thấy mô hình phản ánh nguyên trạng các định kiến và giá trị của xã hội đương thời
Khái niệm của History LLMs
- Các mô hình chỉ được huấn luyện bằng văn bản trước một năm nhất định sẽ tái hiện ở cấp độ tập thể thế giới quan ngôn ngữ của thời đại đó
- Ví dụ: mô hình năm 1913 chỉ trả lời dựa trên báo chí và tác phẩm trước Thế chiến thứ nhất
- Khác với kiểu “nhập vai lịch sử” của LLM hiện đại, chúng không bị ô nhiễm tri thức hồi nghiệm (hindsight contamination)
- GPT-5 và các mô hình tương tự đã biết kết cục chiến tranh nên không thể tái hiện hoàn chỉnh góc nhìn của năm 1913
- Các mô hình khóa theo thời gian hữu ích để khám phá khả năng tư duy và ranh giới diễn ngôn của từng thời kỳ
Tính chất và giới hạn của mô hình
- Các mô hình này là biểu đạt nén của kho văn bản khổng lồ, có thể được dùng như công cụ khám phá các mẫu diễn ngôn
- Tuy nhiên, chúng không phản ánh đầy đủ dư luận công chúng, mà chủ yếu dựa trên các ấn phẩm của tầng lớp có học
- Chúng không phải vật thay thế cho diễn giải của con người, và giữ nguyên các thiên lệch của tư liệu lịch sử
Nội dung nhạy cảm và quản lý truy cập
- Dữ liệu huấn luyện chứa phân biệt chủng tộc, bài Do Thái, kỳ thị phụ nữ và quan điểm đế quốc chủ nghĩa
- Mô hình tái hiện nguyên trạng các yếu tố này, nhưng đây được xem là thành phần thiết yếu để tái cấu trúc diễn ngôn lịch sử
- Để ngăn ngừa việc lạm dụng ngoài mục đích nghiên cứu, nhóm đang phát triển cơ chế truy cập có trách nhiệm
Tham gia và hợp tác
- Nhóm nghiên cứu hoan nghênh các đề xuất và hợp tác như sau
- Ưu tiên về thời kỳ và khu vực cần phân tích
- Thiết kế câu hỏi có thể kiểm chứng
- Phương pháp kiểm chứng đầu ra và phương án công bố có trách nhiệm
- Liên hệ: history-llms@econ.uzh.ch
Thông tin trích dẫn
- Có cung cấp ví dụ trích dẫn dự án
- Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, gồm URL GitHub
1 bình luận
Ý kiến trên Hacker News
Thật thú vị khi nghĩ rằng các mô hình time-locked không phải đang nhập vai, mà là thực sự “sống” trong chính dữ liệu của thời đại đó
Ranke-4B-1913 tồn tại trong một thế giới nơi Thế chiến thứ nhất vẫn chưa xảy ra, nên nó có thể tỏ ra ngạc nhiên hoặc không biết khi được hỏi
Các LLM hiện đại đã biết kết cục từ trước, nên rất khó tái hiện kiểu “ngây thơ vì không biết” đó. Có lẽ sẽ giống như đang trò chuyện với một người thật sự sống năm 1913
Tôi nghĩ đến cảnh AI tương lai tái dựng những nhân vật trong quá khứ để đạt được những hiểu biết mang tính triết học
Ngoài ra còn có loạt YouTube The Great War, một dự án theo dõi Thế chiến thứ nhất theo từng tuần trong giai đoạn 2014~2018
Có vẻ như những câu chuyện kiểu “Vua Arthur du hành tới năm 2000” giờ đây có thể được viết tự động
Không chỉ là “một người của thời đó”, mà còn có thể tưởng tượng việc trò chuyện với những nhân vật như Aristotle, Leonardo, Kant
Nếu là một mô hình có mốc cắt tri thức ở năm 1913, thì nó sẽ nằm giữa giai đoạn đầu của thuyết tương đối và cơ học lượng tử
Đây là thời điểm giữa thuyết tương đối hẹp của Einstein (1905) và thuyết tương đối rộng (1915), nên có vẻ nó có thể phản ánh nguyên vẹn sự hỗn loạn khoa học của thời kỳ chuyển tiếp đó
Câu hỏi “một LLM chỉ được huấn luyện trên dữ liệu năm 1900 có thể tự tìm ra thuyết tương đối không?” rất hấp dẫn
Nhưng đồng thời, chúng có vẻ sẽ cực kỳ hữu ích cho việc tạo tiểu thuyết, game, kịch bản cần độ chính xác lịch sử
Ý tưởng “nếu có thể trò chuyện với hàng nghìn trí thức của năm 1913 thì sao?” thật sự rất cuốn hút
Nếu có thể trực tiếp hỏi họ nghĩ gì về hòa bình, tiến bộ, vai trò giới, chủ nghĩa đế quốc và những chủ đề tương tự, đó sẽ là một nghiên cứu đáng kinh ngạc
Nhưng thật tiếc là trên thực tế chỉ có thể truy cập hạn chế dành cho nhà nghiên cứu
Tôi muốn hỏi mô hình về ý tưởng của các nhà toán học như Frege, Peano, Russell, rồi xem liệu nó có thể tiến tới các khái niệm của Gödel, Church, Turing hay không
Tôi muốn thử nghiệm xem, trong khi tái hiện nguyên vẹn các tranh luận khoa học thời đó, mô hình có thể tự mở rộng suy luận logic của mình hay không
Cần cẩn thận để không sa vào những “lời nhảm nghe có lý” do LLM tạo ra
Các phản hồi mẫu được công bố thật sự rất thú vị
Chúng khác với giọng điệu của LLM hiện đại, nên ngược lại lại tạo cảm giác giống văn bản do con người viết hơn
Có cảm giác văn phong và từ vựng hơi cổ kính và phản ánh niềm tin của thời đại
Khi đó người ta thiên về văn viết hơn là khẩu ngữ, và hầu như không còn nhiều ghi chép về hội thoại đời thường thực tế
Ở điểm này, kiểu “đối thoại thế kỷ 19” mà mô hình tái hiện là một thí nghiệm rất thú vị
Ban đầu tôi nghĩ loại mô hình này là bất khả thi vì thiếu dữ liệu
Nhưng nhìn vào kết quả, nó cho thấy cuối cùng thì chất lượng quan trọng hơn số lượng
Nếu mô hình ở trong trạng thái không biết bản thân nó là gì, tôi tò mò không biết nó sẽ trả lời thế nào trước câu hỏi “bạn hoạt động như thế nào?”
Nhưng nếu là mô hình năm 1913, vì hoàn toàn không có khái niệm đó nên có thể nó sẽ rơi vào hỗn loạn triết học
Nhưng thay vào đó, nhiều trường hợp nó lại bịa ra câu trả lời nghe có vẻ hợp lý như hallucination
Tôi tò mò về cách cấu thành dữ liệu huấn luyện của mô hình
Nếu là 600B token dữ liệu đến năm 1913, điều đó có nghĩa là bao gồm mọi thứ từ văn bản Hy Lạp, Trung Hoa, Ai Cập cổ đại cho đến cận đại
Vậy mà nó vẫn giữ được “góc nhìn của năm 1913”, điều đó thật kỳ lạ. Họ đã điều chỉnh thiên lệch theo thời kỳ như thế nào?
Đây là cách tiếp cận khả thi vì từ cuối thế kỷ 19, lượng dữ liệu từ truyền thông đại chúng như báo và tạp chí đã tăng vọt
Cụm từ “uncontaminated bootstrapping” khá thú vị
Nó có nghĩa là có tinh chỉnh cho chat, nhưng được điều chỉnh sao cho không làm tổn hại các phán đoán giá trị hình thành từ giai đoạn pretraining; tôi tò mò thực tế nó khách quan đến mức nào
Có vẻ họ đã thực hiện Supervised Fine-Tuning một cách cẩn trọng với sự hỗ trợ của GPT-5
Thật đáng ngạc nhiên khi nó có thể hoạt động chỉ với một lượng văn bản nhỏ như vậy
Nếu thành công, ta có thể kiểm nghiệm xem LLM có chỉ ghi nhớ dữ liệu hay thực sự có thể tạo ra những khám phá mới
Ví dụ, nó có thể tự tìm ra các điểm bất nhất trong khoa học, hoặc tự suy ra những khái niệm như bài toán dừng hay cấu trúc nguyên tử
Ngay cả nếu thất bại và người ta phản bác rằng “do dữ liệu không đủ”, tôi vẫn rất muốn được tự mình thử nghiệm điều này