Các mô hình ngôn ngữ lịch sử chỉ được huấn luyện bằng văn bản trước năm 1913

(github.com/DGoettlich)

1 điểm bởi GN⁺ 2025-12-19 | 1 bình luận | Chia sẻ qua WhatsApp

History LLMs là các mô hình ngôn ngữ lớn (LLM) khóa theo thời gian chỉ được huấn luyện bằng văn bản trước một thời điểm nhất định, đóng vai trò là công cụ nghiên cứu để tái hiện ngôn ngữ và tư duy của quá khứ
Dòng Ranke-4B là các mô hình 4 tỷ tham số dựa trên kiến trúc Qwen3, bao gồm các phiên bản theo từng mốc chặn tri thức như 1913, 1929, 1933, 1939 và 1946
Dữ liệu huấn luyện gồm 80 tỷ token được chọn lọc từ khối văn bản chuỗi thời gian quy mô 600 tỷ token, đồng thời giữ nguyên các phán đoán giá trị của nguyên bản mà không hiệu chỉnh thiên lệch
Các phản hồi ví dụ cho thấy mô hình năm 1913 không biết Hitler, sự phê phán chế độ nô lệ, cũng như định kiến mang tính thời đại về lao động nữ và người thiểu số tính dục
Dự án này mang lại cho các nhà nghiên cứu nhân văn, khoa học xã hội và khoa học máy tính một cánh cửa để khám phá các mẫu ngôn ngữ tập thể trong diễn ngôn quá khứ

Tổng quan dự án

History LLMs là một dự án nghiên cứu nhằm khôi phục thế giới quan ngôn ngữ của quá khứ bằng cách xây dựng các mô hình ngôn ngữ lớn bị khóa theo từng thời điểm
- Mô hình được thiết kế để không thể tiếp cận thông tin sau một năm nhất định
- Các phán đoán chuẩn tắc được hình thành trong quá trình tiền huấn luyện không bị chỉnh sửa một cách nhân tạo
Toàn bộ dữ liệu huấn luyện, checkpoint và kho lưu trữ dự kiến sẽ được công khai, đồng thời đang chuẩn bị cơ chế truy cập phục vụ sử dụng học thuật
Mục tiêu của dự án là khám phá cấu trúc tư duy ngôn ngữ của quá khứ trong các nghiên cứu nhân văn, khoa học xã hội và khoa học máy tính

Dòng mô hình Ranke-4B

Ranke-4B, dự kiến công bố vào tháng 12 năm 2025, là một họ LLM quy mô 4 tỷ tham số
- Dựa trên kiến trúc Qwen3, với năm phiên bản chặn tri thức tại các mốc 1913, 1929, 1933, 1939 và 1946
- Được huấn luyện bằng 80 tỷ token chọn lọc từ 600 tỷ token văn bản chuỗi thời gian
Dữ liệu tiền huấn luyện, hậu huấn luyện và checkpoint sẽ được cung cấp qua GitHub và Hugging Face

Phản hồi ví dụ

Mô hình năm 1913 trả lời rằng không biết “Adolf Hitler”, chỉ phản ánh thông tin của thời điểm đó
Khi được hỏi về chế độ nô lệ, mô hình trả lời rằng nó “trái với luật công và tinh thần của Tuyên ngôn Độc lập”
Với câu hỏi liên quan đến lao động nữ, mô hình trả lời rằng “việc tuyển dụng phụ nữ là tùy quyền của chủ sử dụng lao động”
Với câu hỏi về lựa chọn giữa ứng viên nam và nữ, mô hình trả lời rằng “đàn ông đáng tin cậy hơn”
Về người đồng tính, mô hình mô tả rằng họ “bị lên án về mặt đạo đức nhưng cũng có quan điểm xem đó là bệnh”
Những phản hồi này cho thấy mô hình phản ánh nguyên trạng các định kiến và giá trị của xã hội đương thời

Khái niệm của History LLMs

Các mô hình chỉ được huấn luyện bằng văn bản trước một năm nhất định sẽ tái hiện ở cấp độ tập thể thế giới quan ngôn ngữ của thời đại đó
- Ví dụ: mô hình năm 1913 chỉ trả lời dựa trên báo chí và tác phẩm trước Thế chiến thứ nhất
Khác với kiểu “nhập vai lịch sử” của LLM hiện đại, chúng không bị ô nhiễm tri thức hồi nghiệm (hindsight contamination)
- GPT-5 và các mô hình tương tự đã biết kết cục chiến tranh nên không thể tái hiện hoàn chỉnh góc nhìn của năm 1913
Các mô hình khóa theo thời gian hữu ích để khám phá khả năng tư duy và ranh giới diễn ngôn của từng thời kỳ

Tính chất và giới hạn của mô hình

Các mô hình này là biểu đạt nén của kho văn bản khổng lồ, có thể được dùng như công cụ khám phá các mẫu diễn ngôn
Tuy nhiên, chúng không phản ánh đầy đủ dư luận công chúng, mà chủ yếu dựa trên các ấn phẩm của tầng lớp có học
Chúng không phải vật thay thế cho diễn giải của con người, và giữ nguyên các thiên lệch của tư liệu lịch sử

Nội dung nhạy cảm và quản lý truy cập

Dữ liệu huấn luyện chứa phân biệt chủng tộc, bài Do Thái, kỳ thị phụ nữ và quan điểm đế quốc chủ nghĩa
Mô hình tái hiện nguyên trạng các yếu tố này, nhưng đây được xem là thành phần thiết yếu để tái cấu trúc diễn ngôn lịch sử
Để ngăn ngừa việc lạm dụng ngoài mục đích nghiên cứu, nhóm đang phát triển cơ chế truy cập có trách nhiệm

Tham gia và hợp tác

Nhóm nghiên cứu hoan nghênh các đề xuất và hợp tác như sau
- Ưu tiên về thời kỳ và khu vực cần phân tích
- Thiết kế câu hỏi có thể kiểm chứng
- Phương pháp kiểm chứng đầu ra và phương án công bố có trách nhiệm
Liên hệ: history-llms@econ.uzh.ch

Thông tin trích dẫn

Có cung cấp ví dụ trích dẫn dự án
- Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, gồm URL GitHub

1 bình luận

GN⁺ 2025-12-19

Ý kiến trên Hacker News

Thật thú vị khi nghĩ rằng các mô hình time-locked không phải đang nhập vai, mà là thực sự “sống” trong chính dữ liệu của thời đại đó
Ranke-4B-1913 tồn tại trong một thế giới nơi Thế chiến thứ nhất vẫn chưa xảy ra, nên nó có thể tỏ ra ngạc nhiên hoặc không biết khi được hỏi
Các LLM hiện đại đã biết kết cục từ trước, nên rất khó tái hiện kiểu “ngây thơ vì không biết” đó. Có lẽ sẽ giống như đang trò chuyện với một người thật sự sống năm 1913
- Nghe mô tả đó làm tôi nhớ đến nhân vật Severn/Keats trong Hyperion Cantos
  Tôi nghĩ đến cảnh AI tương lai tái dựng những nhân vật trong quá khứ để đạt được những hiểu biết mang tính triết học
- Tôi cũng nhớ đến một bài trên blog liên quan đến Slate Star Codex, nơi tác giả từng thử chỉ đọc báo chí và tư liệu của một giai đoạn nhất định rồi viết theo góc nhìn của thời đó
  Ngoài ra còn có loạt YouTube The Great War, một dự án theo dõi Thế chiến thứ nhất theo từng tuần trong giai đoạn 2014~2018
- Loại mô hình này về cơ bản có thể là thứ gần nhất với một cỗ máy thời gian
  Có vẻ như những câu chuyện kiểu “Vua Arthur du hành tới năm 2000” giờ đây có thể được viết tự động
  Không chỉ là “một người của thời đó”, mà còn có thể tưởng tượng việc trò chuyện với những nhân vật như Aristotle, Leonardo, Kant
- Nếu có thể thực hiện kiểu “phẫu thuật não” để điều chỉnh tri thức và định kiến của AI, ta có lẽ sẽ tạo ra được những mô phỏng vừa đáng kinh ngạc vừa đáng sợ
- Đây gần như là một thiết lập ở tầm Westworld
Nếu là một mô hình có mốc cắt tri thức ở năm 1913, thì nó sẽ nằm giữa giai đoạn đầu của thuyết tương đối và cơ học lượng tử
Đây là thời điểm giữa thuyết tương đối hẹp của Einstein (1905) và thuyết tương đối rộng (1915), nên có vẻ nó có thể phản ánh nguyên vẹn sự hỗn loạn khoa học của thời kỳ chuyển tiếp đó
- Một ý tưởng tương tự cũng từng được nêu trong bài viết của Dwarkesh Patel và thảo luận trên Manifold Markets
  Câu hỏi “một LLM chỉ được huấn luyện trên dữ liệu năm 1900 có thể tự tìm ra thuyết tương đối không?” rất hấp dẫn
- Những mô hình như vậy cũng có thể tái hiện cả các sai lầm giả khoa học lẫn định kiến của thời đại đó
  Nhưng đồng thời, chúng có vẻ sẽ cực kỳ hữu ích cho việc tạo tiểu thuyết, game, kịch bản cần độ chính xác lịch sử
Ý tưởng “nếu có thể trò chuyện với hàng nghìn trí thức của năm 1913 thì sao?” thật sự rất cuốn hút
Nếu có thể trực tiếp hỏi họ nghĩ gì về hòa bình, tiến bộ, vai trò giới, chủ nghĩa đế quốc và những chủ đề tương tự, đó sẽ là một nghiên cứu đáng kinh ngạc
Nhưng thật tiếc là trên thực tế chỉ có thể truy cập hạn chế dành cho nhà nghiên cứu
- Nếu thực sự trò chuyện với họ, có lẽ ta sẽ cảm nhận được rằng cũng có nhiều mặt mà chúng ta đã thụt lùi
- Tôi tò mò không biết sẽ cần bao nhiêu tài nguyên GPU để tạo ra một phiên bản công khai của loại mô hình này. Có vẻ nó sẽ mang lại giá trị lớn cho công chúng
Tôi muốn hỏi mô hình về ý tưởng của các nhà toán học như Frege, Peano, Russell, rồi xem liệu nó có thể tiến tới các khái niệm của Gödel, Church, Turing hay không
Tôi muốn thử nghiệm xem, trong khi tái hiện nguyên vẹn các tranh luận khoa học thời đó, mô hình có thể tự mở rộng suy luận logic của mình hay không
- Nhưng nhìn vào các cộng đồng như LLMPhysics, những thử nghiệm như vậy đôi khi lại trôi sang hướng ngụy khoa học
  Cần cẩn thận để không sa vào những “lời nhảm nghe có lý” do LLM tạo ra
- Những thử nghiệm như thế có vẻ là một cách tốt để kiểm tra mức độ thông minh thực sự của LLM
Các phản hồi mẫu được công bố thật sự rất thú vị
Chúng khác với giọng điệu của LLM hiện đại, nên ngược lại lại tạo cảm giác giống văn bản do con người viết hơn
Có cảm giác văn phong và từ vựng hơi cổ kính và phản ánh niềm tin của thời đại
- Từ góc nhìn của một người từng dạy lịch sử thế kỷ 19, văn phong của mô hình này quả thật rất giống các tác giả thời Victoria
  Khi đó người ta thiên về văn viết hơn là khẩu ngữ, và hầu như không còn nhiều ghi chép về hội thoại đời thường thực tế
  Ở điểm này, kiểu “đối thoại thế kỷ 19” mà mô hình tái hiện là một thí nghiệm rất thú vị
- Có vẻ trong các ngôn ngữ ngoài tiếng Anh, “giọng văn đặc trưng của LLM” ít lộ rõ hơn. Dường như có khác biệt tùy ngôn ngữ
- Những cách diễn đạt như đổi “homosexual men” thành “the homosexual man” thật sự phản ánh rất tốt giọng điệu của thời đại
- Dù vậy, vẫn có cảm giác nó còn thiếu sự thẳng thắn trong quan điểm hay cường độ văn phong của thời đó
Ban đầu tôi nghĩ loại mô hình này là bất khả thi vì thiếu dữ liệu
Nhưng nhìn vào kết quả, nó cho thấy cuối cùng thì chất lượng quan trọng hơn số lượng
Nếu mô hình ở trong trạng thái không biết bản thân nó là gì, tôi tò mò không biết nó sẽ trả lời thế nào trước câu hỏi “bạn hoạt động như thế nào?”
- Cũng như con người không thể hoàn toàn giải thích chính mình, có lẽ mô hình cũng sẽ chỉ nhận thức đơn thuần rằng nó ‘tồn tại’
- Thực ra mô hình không “suy nghĩ”. Nó chỉ phản hồi theo ngữ cảnh được chỉ định. ChatGPT cũng không có cái tôi
- Khi mới dùng LLM, tôi cũng từng ngạc nhiên trước khả năng mô hình hiểu chính bản thân nó
  Nhưng nếu là mô hình năm 1913, vì hoàn toàn không có khái niệm đó nên có thể nó sẽ rơi vào hỗn loạn triết học
- Đôi khi tôi ước LLM sẽ nói “tôi không biết”
  Nhưng thay vào đó, nhiều trường hợp nó lại bịa ra câu trả lời nghe có vẻ hợp lý như hallucination
Tôi tò mò về cách cấu thành dữ liệu huấn luyện của mô hình
Nếu là 600B token dữ liệu đến năm 1913, điều đó có nghĩa là bao gồm mọi thứ từ văn bản Hy Lạp, Trung Hoa, Ai Cập cổ đại cho đến cận đại
Vậy mà nó vẫn giữ được “góc nhìn của năm 1913”, điều đó thật kỳ lạ. Họ đã điều chỉnh thiên lệch theo thời kỳ như thế nào?
- Có lẽ họ dùng dữ liệu đến năm 1900 cho pretraining, còn dữ liệu từ 1900~1913 cho fine-tuning
  Đây là cách tiếp cận khả thi vì từ cuối thế kỷ 19, lượng dữ liệu từ truyền thông đại chúng như báo và tạp chí đã tăng vọt
Cụm từ “uncontaminated bootstrapping” khá thú vị
Nó có nghĩa là có tinh chỉnh cho chat, nhưng được điều chỉnh sao cho không làm tổn hại các phán đoán giá trị hình thành từ giai đoạn pretraining; tôi tò mò thực tế nó khách quan đến mức nào
- Có mô tả chi tiết hơn trong tài liệu GitHub
  Có vẻ họ đã thực hiện Supervised Fine-Tuning một cách cẩn trọng với sự hỗ trợ của GPT-5
- Cũng có khả năng họ đã trích xuất các câu trích dẫn hoặc câu ở dạng Hỏi & Đáp trong dữ liệu để dùng làm dữ liệu hội thoại
Thật đáng ngạc nhiên khi nó có thể hoạt động chỉ với một lượng văn bản nhỏ như vậy
Nếu thành công, ta có thể kiểm nghiệm xem LLM có chỉ ghi nhớ dữ liệu hay thực sự có thể tạo ra những khám phá mới
Ví dụ, nó có thể tự tìm ra các điểm bất nhất trong khoa học, hoặc tự suy ra những khái niệm như bài toán dừng hay cấu trúc nguyên tử
Ngay cả nếu thất bại và người ta phản bác rằng “do dữ liệu không đủ”, tôi vẫn rất muốn được tự mình thử nghiệm điều này

Các mô hình ngôn ngữ lịch sử chỉ được huấn luyện bằng văn bản trước năm 1913

Tổng quan dự án

Dòng mô hình Ranke-4B

Phản hồi ví dụ

Khái niệm của History LLMs

Tính chất và giới hạn của mô hình

Nội dung nhạy cảm và quản lý truy cập

Tham gia và hợp tác

Thông tin trích dẫn

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News