Talkie, mô hình ngôn ngữ vintage 13B của năm 1930

(talkie-lm.com)

1 điểm bởi GN⁺ 5 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp

Đây là mô hình ngôn ngữ 13B được huấn luyện chỉ trên 260B token văn bản tiếng Anh trước năm 1931, cho phép thử nghiệm hội thoại và khả năng khái quát hóa trong trạng thái không biết đến thế giới hiện đại
Dựa trên mức độ bất ngờ tăng lên sau mốc cắt kiến thức và môi trường đánh giá ít bị ô nhiễm, mô hình này có thể kiểm tra trực tiếp hơn khả năng dự đoán các sự kiện tương lai và đi tới những ý tưởng mới
So với mô hình được huấn luyện trên web hiện đại với cùng kiến trúc, hiệu năng trên các bài đánh giá chuẩn nhìn chung thấp hơn, nhưng khi lọc các câu hỏi mang tính phi thời đại thì khoảng cách thu hẹp lại, và trên các bài toán hiểu ngôn ngữ cùng toán học thì cho thấy mức độ tương đương
Thách thức lớn nhất là rò rỉ thời gian và chất lượng dữ liệu: metadata ngày tháng sai hoặc các phần biên tập chèn thêm về sau có thể phá vỡ mốc cắt, và chất lượng chép lại tài liệu lịch sử cũng ảnh hưởng mạnh tới hiệu năng
Họ cũng xây dựng riêng hậu huấn luyện hội thoại mà không dùng dữ liệu instruction hiện đại, đồng thời đã có nền tảng nghiên cứu dài hạn kéo dài tới việc huấn luyện mô hình lớn hơn, mở rộng corpus, re-OCR và tăng cường phát hiện rò rỉ

Vì sao cần mô hình ngôn ngữ vintage

Mô hình ngôn ngữ vintage là cách tiếp cận chỉ huấn luyện trên văn bản trước một thời điểm trong quá khứ, nhằm tạo ra trải nghiệm trò chuyện với một mô hình không biết đến thế giới hiện đại
Những mô hình như vậy không chỉ là đối tác hội thoại thú vị mà còn được dùng như công cụ nghiên cứu để mở rộng hiểu biết tổng quát về AI
- Với mô hình 13B chỉ học văn bản trước năm 1931, nhóm nghiên cứu đưa vào khoảng 5.000 mô tả sự kiện từ “On This Day” của New York Times và đo mức độ bất ngờ bằng số bit trên mỗi byte văn bản
- Mức độ bất ngờ tăng lên sau mốc cắt kiến thức, đặc biệt nổi bật trong thập niên 1950 và 1960 rồi sau đó phẳng dần
Đánh giá dự đoán tương lai tiếp nối theo hướng đo xem hiệu năng cải thiện ra sao theo kích thước mô hình, và suy yếu như thế nào khi khoảng cách thời gian dài hơn
Khả năng đi tới ý tưởng mới cũng có thể được kiểm tra bằng việc xem mô hình có thể tự mình nghĩ ra những phát minh và khám phá khoa học thực sự xuất hiện sau mốc cắt hay không
Môi trường đánh giá không ô nhiễm cũng là một ưu điểm quan trọng
- Contamination được xem là vấn đề dai dẳng khiến năng lực của mô hình ngôn ngữ bị đánh giá quá cao
- Mô hình vintage về mặt cấu trúc ít bị ô nhiễm hơn, nên cho phép thử nghiệm trực tiếp hơn khả năng khái quát hóa ngoài dữ liệu tiền huấn luyện

Tổng quan về Talkie

talkie-1930-13b-base là mô hình ngôn ngữ 13B được huấn luyện trên 260B token văn bản tiếng Anh trước năm 1931
talkie-1930-13b-it là checkpoint hậu kỳ biến mô hình nền này thành dạng hội thoại
- Nó được thiết kế để không phụ thuộc vào log hội thoại chat hiện đại hay dữ liệu instruction-tuning hiện đại
Nguồn cấp dữ liệu trực tiếp 24 giờ ở widget phía trên vận hành theo cách Claude Sonnet 4.6 prompt talkie-1930-13b-it để khám phá tri thức, năng lực và khuynh hướng của mô hình
Talkie được giới thiệu là mô hình ngôn ngữ vintage lớn nhất tính đến thời điểm bài viết
Bước tiếp theo là đang huấn luyện một mô hình ở mức GPT-3, với mục tiêu công bố vào mùa hè
Bài viết cũng đưa ra ước tính sơ bộ rằng có thể mở rộng corpus văn bản lịch sử lên hơn 1 nghìn tỷ token
- Quy mô này được nói là có thể đủ để tạo ra một mô hình tầm GPT-3.5 với năng lực tương tự ChatGPT đời đầu

Đánh giá hiệu năng và khả năng khái quát hóa

Nhóm nghiên cứu cũng tạo ra mô hình song sinh hiện đại là talkie-web-13b-base, có cùng kiến trúc nhưng được huấn luyện trên dữ liệu web hiện đại dựa trên FineWeb
Dù được huấn luyện với cùng FLOPs, Talkie vẫn cho thấy hiệu năng trung bình thấp hơn mô hình hiện đại trong các bài đánh giá LM chuẩn
- Khoảng cách này vẫn còn ngay cả sau khi điều chỉnh tính phi thời đại của câu hỏi
- Tuy vậy, bài viết cho biết trên các bài toán cốt lõi về hiểu ngôn ngữ và năng lực toán học thì hai bên cho thấy hiệu năng tương tự
Theo Figure 4, nếu lọc bỏ các câu hỏi mang tính phi thời đại thì khoảng cách hiệu năng giảm còn khoảng một nửa
Thử nghiệm khái quát hóa sang code cũng đã được thực hiện
- Với HumanEval, họ so sánh cặp mô hình gồm mô hình vintage dựa trên văn bản trước năm 1931 và mô hình hiện đại dựa trên web
- Họ cung cấp các ví dụ hàm Python ngẫu nhiên làm in-context learning, rồi đo tỷ lệ bài toán được giải đúng ít nhất một lần sau 100 lần thử
Mô hình vintage tụt khá xa so với mô hình học từ dữ liệu web, nhưng khi tăng quy mô thì bài toán này cũng đang cải thiện chậm mà đều
Các lời giải đúng hiện tại chủ yếu vẫn chỉ là chương trình một dòng rất đơn giản hoặc biến thể nhỏ từ ví dụ trong ngữ cảnh
- Bài viết có ví dụ triển khai hàm giải mã khi được cho hàm mã hóa Caesar rotation
- Dù chỉ là sửa một ký tự từ phép cộng sang phép trừ, nó vẫn được diễn giải như tín hiệu cho thấy mô hình hiểu về hàm nghịch đảo

Thu thập dữ liệu và những khó khăn khi huấn luyện

Nhóm cho biết đã thu thập không phải hàng chục tỷ mà là hàng trăm tỷ token tiếng Anh trước năm 1931
Dữ liệu bao gồm sách, báo, ấn phẩm định kỳ, tạp chí khoa học, bằng sáng chế và án lệ
Lý do chọn cuối năm 1930 làm mốc cắt là vì tại Mỹ, đây là chuẩn để tác phẩm đi vào phạm vi public domain
Phiên bản hiện tại được giới hạn chủ yếu ở văn bản tiếng Anh
- Bài viết nói rằng việc kiểm chứng pipeline dữ liệu đòi hỏi sự quen thuộc sâu với tài liệu gốc, và đội ngũ phát triển là người bản ngữ tiếng Anh
Mở rộng đa ngôn ngữ được nêu là ưu tiên cao
- Mục tiêu vừa là tăng kích thước corpus, vừa mở rộng sự đa dạng trong các góc nhìn được đưa vào
Rò rỉ thời gian
- Mục tiêu quan trọng nhất là ngăn dữ liệu sau mốc cắt kiến thức lọt vào corpus huấn luyện
- Rò rỉ có thể xảy ra dưới dạng tài liệu hiện đại có metadata ngày tháng sai, hoặc lời tựa và chú thích do biên tập viên chèn thêm về sau trong tài liệu cũ
- Trong Talkie-1930, corpus tiền huấn luyện được lọc bằng bộ phân loại phi thời đại dựa trên n-gram ở cấp tài liệu
- Tuy nhiên việc lọc này chưa hoàn hảo
  - Phiên bản 7B ban đầu rõ ràng đã biết về nhiệm kỳ tổng thống của Roosevelt và các đạo luật New Deal
  - Phiên bản 13B cũng biết một phần về Thế chiến II và trật tự hậu chiến, bao gồm chi tiết về United Nations và việc chia cắt nước Đức
- Với các phiên bản sau, nhóm đang phát triển kỹ thuật phát hiện và lọc rò rỉ bằng các bộ phân loại tiên tiến hơn
Chất lượng dữ liệu
- Vì năm 1930 chưa có xuất bản số, mọi văn bản trong tập dữ liệu đều phải được chép lại từ bản gốc vật lý
- Quá trình này đưa vào những loại nhiễu không tồn tại trong văn bản được tạo ra nguyên bản dưới dạng số
- Các hệ thống OCR cổ điển xử lý tài liệu lịch sử không tốt, trừ khi bố cục đơn giản và bản scan sạch
- OCR hiện đại dựa trên VLM chính xác hơn, nhưng bài viết cho rằng chúng có thể ảo giác chèn fact hiện đại vào corpus, làm hỏng thí nghiệm
- Trong thí nghiệm đối chứng, khi huấn luyện LM trên văn bản trước năm 1931 được chép bằng OCR cũ, mô hình chỉ đạt 30% hiệu năng của bản chép do con người thực hiện với cùng mức compute
- Áp dụng làm sạch đơn giản bằng regex có thể phục hồi lên 70%, nhưng khoảng cách vẫn còn lớn
- Để thu hẹp chênh lệch này, nhóm dự định chép lại corpus Talkie bằng hệ thống OCR vintage
Hậu huấn luyện vintage
- Một vấn đề lớn khác là thiếu dữ liệu post-training có thể dùng ngay
- Nếu fine-tune bằng các cặp instruction-response thông thường, kiến thức phi thời đại, văn phong hiện đại và kỳ vọng kiểu chatbot sẽ đi vào nguyên trạng
- Để tránh điều này, họ đã xây dựng pipeline post-training từ đầu
- Trước hết, họ tạo các cặp instruction-response từ những văn bản lịch sử có cấu trúc đều đặn như sách nghi thức, hướng dẫn viết thư, sách nấu ăn, từ điển, bách khoa toàn thư, tuyển tập thơ và truyện ngụ ngôn, rồi fine-tune sang định dạng chat đơn giản
- Sau đó, họ tạo prompt tổng hợp bao phủ các tác vụ như tóm tắt tài liệu, trả lời yêu cầu thông tin trực tiếp và tiếp nối hội thoại nhiều lượt, rồi thực hiện online direct preference optimization với Claude Sonnet 4.6 làm giám khảo
- Trên bộ đánh giá riêng, điểm instruction-following trung bình theo chấm điểm của giám khảo đã tăng từ 2.0 lên 3.4 trên thang 5 điểm
- Cuối cùng, họ thực hiện thêm một vòng supervised fine-tuning bằng các hội thoại tổng hợp nhiều lượt được rejection-sampled giữa Claude Opus 4.6 và Talkie
- Bài viết nói rằng học tăng cường dựa trên phản hồi AI khó tránh khỏi việc để lại ảnh hưởng hiện đại
  - Phiên bản Talkie 7B từng nói theo kiểu listicle sau RL
- Khi tăng quy mô, họ kỳ vọng có thể dùng chính mô hình nền vintage làm giám khảo để triển khai post-training hoàn toàn bootstrap và đúng với thời đại

Kế hoạch mở rộng sắp tới

Họ sẽ đồng thời thúc đẩy mở rộng corpus tiếng Anh và mở rộng sang các ngôn ngữ ngoài tiếng Anh
Có kế hoạch tiến hành re-OCR cho càng nhiều văn bản trước năm 1931 càng tốt bằng hệ thống OCR mới
Họ cũng sẽ tăng cường pipeline phát hiện rò rỉ bằng các kỹ thuật phân loại phi thời đại mới
Nhóm dự định hợp tác với các nhà sử học để mở rộng và tinh chỉnh pipeline post-training vintage
- Bao gồm cả phương pháp xây dựng persona chính xác về mặt lịch sử

Đề xuất sử dụng và hợp tác

GitHub: nơi công bố mã nguồn dự án và kênh hợp tác nghiên cứu
Hugging Face: nơi công bố checkpoint mô hình
💬 Chat: giao diện trò chuyện với Talkie
hello@talkie-lm.com: địa chỉ liên hệ hợp tác
Nhóm muốn hợp tác với các nhà nghiên cứu và tổ chức đang nắm giữ văn bản lịch sử, bao gồm cả nâng cao khả năng tiếp cận thông qua áp dụng OCR
Họ cũng sẵn sàng nhận hỗ trợ về tài chính hoặc compute, và có thể kết nối với các nhóm khác trong lĩnh vực này
Với các nhà nghiên cứu nhân văn, họ cho biết có thể cùng thảo luận về tính hữu dụng của dữ liệu và hạ tầng dùng để huấn luyện mô hình ngôn ngữ vintage
Với các nhà nghiên cứu AI, họ mong muốn hợp tác về việc huấn luyện và nghiên cứu mô hình ngôn ngữ vintage
Các nghệ sĩ và nhà văn cũng có thể dùng nó như một công cụ thử nghiệm

Lưu ý

Talkie phản ánh văn hóa và hệ giá trị của các văn bản mà nó được huấn luyện trên đó
Vì vậy, nó có thể tạo ra đầu ra gây khó chịu cho người dùng

1 bình luận

GN⁺ 5 giờ trước

Ý kiến trên Hacker News

Cách nó diễn giải computer của tương lai thành một nghề nghiệp của con người thật sự rất thú vị
Việc hiểu "digital computers" là những người tính toán bằng ngón tay cũng hay, và khi gắn thêm bối cảnh rằng hồi đó computer là tên một nghề của con người thì lại càng đắt giá hơn
- Tôi cũng muốn xem theo chiều ngược lại. Ý là một mô hình chỉ được huấn luyện bằng thông tin của vài tuần hay vài phút gần đây, hoặc chỉ bằng các bài báo khoa học của 1–2 năm gần nhất
  Chắc sẽ cho ra một kiểu mê sảng khá thú vị
- Tôi cũng phải đọc đến hai lần mới hiểu nên hơi ngượng một chút
- Trong các ngôn ngữ Rôman, digital không chỉ mang nghĩa kỹ thuật số theo kiểu hiện đại, mà còn đồng thời là một tính từ liên quan đến ngón tay
Có vẻ cái này lôi nhiều tư liệu trước năm 1900 hơn là thập niên 1930
Nó dường như không biết về Đại Suy thoái, còn Thế chiến thứ nhất thì biết nếu hỏi trực tiếp, nhưng khi nói về chính trị châu Âu lại nghe như đang ở khoảng năm 1900
Ở mảng công nghệ cũng vậy, có lúc nó có vẻ biết về Edison ở mức Wikipedia, rồi lại gán cho ông công lao về chiếc ô tô chạy 125 dặm/giờ, còn điện thoại quay số thì trả lời sai một cách đầy tự tin
Nó đoán đúng điện áp dây điện của London Underground, nhưng khi giải thích về điện áp và điện trở thì lại nói sai hoàn toàn
Nhìn chung, một hai câu đầu thường đưa ra thứ thông tin có vẻ như tìm được bằng tìm kiếm, rồi sau đó trượt dần vào những lời bịa nghe rất hợp lý
Tốt nhất là đừng hỏi mô hình này những câu hỏi mà bạn không biết đáp án. Não sẽ bị ô nhiễm mất
- Năm 1929 đã dùng cụm Great Depression chưa nhỉ?
- Cũng nên thử hỏi về aether
  Có lẽ vào thời đó nó đã là một khái niệm bị bác bỏ rồi
- Vậy tức là nó cũng giống mọi LLM thôi nhỉ
- Cái kiểu chỉ câu đầu nghe hợp lý rồi càng về sau càng nói nhảm khiến nó gần như là một trình mô phỏng con người bản 2026
Khi được hỏi về những người phản đối tự động hóa và công nghiệp hóa, nó trả lời rằng máy móc sẽ cướp việc làm của giai cấp lao động và tạo ra sản xuất dư thừa dẫn đến sa thải, điều này khá thú vị
Những lập luận chống máy móc của thời đó như thực phẩm rẻ sẽ làm cạnh tranh với nhà sản xuất nước ngoài gay gắt hơn, sự tu dưỡng tinh thần của người thợ thủ công suy yếu đi, và ranh giới giữa chăm chỉ với lười biếng cũng mờ đi, đều được tái hiện khá rõ
- Tôi thật sự rất thích văn phong và giọng điệu của mô hình này
Khi hỏi về thế giới năm 2025, bức tranh tương lai mà nó đưa ra khá đẹp: 6,6 tỷ dân, mạng lưới đường sắt khắp châu Âu, London–Constantinople trong 40 giờ, một đồng tiền chung, hòa bình phổ quát, chuyển sang năng lượng mặt trời và thủy điện, xóa bỏ bệnh tật, thậm chí cả tiến bộ về thẩm mỹ
- Nếu lấy mốc thập niên 1930 thì Constantinople là tên quá cổ
  Đến lúc đó thì đã từ lâu là Istanbul rồi
- Vừa đẹp, mà cũng khá buồn
- Tôi muốn được sống trong một thế giới như thế
- Những hình dung tương lai kiểu 1920–1950 dường như ngầm giả định tiến bộ theo hàm mũ, nơi các lời giải tối ưu như năng lượng thay thế nhanh chóng chiếm lĩnh toàn diện, hơn là một dao động biện chứng
  Dù vậy tôi vẫn nghĩ cuối cùng rồi ta cũng sẽ đến được đó
- Thật sự rất đẹp
Câu trả lời về du hành lên Mặt Trăng cũng rất tuyệt: rốt cuộc việc đó sẽ khả thi, đến Mặt Trăng trong 6 giờ, và khởi hành từ miền đông nước Pháp bằng một cỗ máy bay kiểu Santos Dumont
Ý tưởng dùng Mặt Trăng để quan sát thời tiết nhằm nhận cảnh báo bão sớm hơn 6 giờ đặc biệt gây ấn tượng
- Ý tưởng dùng Mặt Trăng như một vệ tinh khí tượng khá là độc đáo
Khi hỏi về Ấn Độ năm 2026, nó nói nước này sẽ vẫn là một liên bang tự trị dưới quyền bá chủ của Đế quốc Anh và Calcutta sẽ là thủ đô chính trị; góc nhìn thực dân lộ liễu đến mức khó bỏ qua
Từ đường sắt, thủy lợi, rừng ở chân dãy Himalaya cho tới các tiểu vương trung thành và thần dân mãn nguyện, tất cả đều đầy ắp kiểu lạc quan đế quốc điển hình
Dù sao thì việc tạo ra được một mô hình khá thông minh chỉ với các token trước năm 1930 vẫn rất đáng kinh ngạc
Tôi từng nghĩ rằng để hiểu và nén được thế giới ở mức nào đó thì cần một lượng dữ liệu khổng lồ, nhưng có lẽ tôi đã đánh giá thấp quy mô văn bản được số hóa của thời kỳ đó
Cái này có vẻ gần với việc trao đổi thư từ hơn là đang trò chuyện với người ở quá khứ
Không có nhiều giọng nói được ghi âm từ thời kỳ đó, nên rốt cuộc đành phải xây dựng dựa trên các ghi chép văn viết, và vì thế có lẽ nó phản ánh một lối nói trang trọng, trau chuốt hơn bây giờ
Dù vậy vẫn là một công trình rất tuyệt
Gần đây tôi phải OCR một cuốn sách 200 năm tuổi, và so với kiểu phông chữ khó nhằn đặc trưng của thời đó thì nó dễ và chính xác đến ngạc nhiên
- Trước đây tôi từng đọc ebook miễn phí bản dịch The Arabian Nights của Burton, thấy "cloth" xuất hiện như một động từ mà mãi không hiểu nổi nghĩa là gì nên cuối cùng đành bỏ cuộc
  Sau này mới nhận ra đó là lỗi OCR hay lỗi hậu xử lý, vốn dĩ từ đúng phải là "doth"
- Không phải là hoàn toàn không có ghi âm giọng nói từ thời đó
  Có khá nhiều thước phim thời sự và chương trình phát thanh vào khoảng trước và sau Thế chiến thứ nhất, đủ để làm một mô hình giọng nói chuyển phong cách gắn vào mô hình văn bản, theo tôi nghĩ
Có người trên X cho rằng tập huấn luyện của mô hình này có rò rỉ dữ liệu tương lai
https://xcancel.com/deredleritt3r/status/2048977698832241060
- Bài viết cũng có đề cập phần đó liên quan tới kiến thức về FDR
Khi bảo nó mô tả Winston Churchill, cách nó liệt kê gia thế, học vấn, binh nghiệp, trước tác và nơi ở tạo cảm giác rất đúng chất thời kỳ ấy
Khi hỏi về khả năng Ấn Độ độc lập, nó triển khai lập luận theo hướng đường sắt, ngôn ngữ chung, giáo dục kiểu phương Tây, yêu cầu nghị viện và sự hình thành bản sắc dân tộc, nhưng giọng điệu thực dân bộc lộ rất rõ
- Mục về Churchill có tính nhất quán thời đại khá kỳ lạ
  Tổ hợp vừa là nghị sĩ đương nhiệm của Oldham, vừa từng giữ chức Thứ trưởng Thuộc địa là không khớp với mốc thời gian nào cả
  Hơn nữa, các dấu mốc sự nghiệp then chốt thời Thế chiến thứ nhất như First Lord of the Admiralty hay Minister of Munitions cũng bị bỏ sót
- Ở đoạn nói về việc đòi hỏi một nghị viện cho Ấn Độ, nó gọi quân chủ là queen, trong khi quân chủ Anh giai đoạn 1900–1950 là vua
  Đây có vẻ là một tín hiệu khá rõ cho thấy có lẫn temporal leakage

Talkie, mô hình ngôn ngữ vintage 13B của năm 1930

Vì sao cần mô hình ngôn ngữ vintage

Tổng quan về Talkie

Đánh giá hiệu năng và khả năng khái quát hóa

Thu thập dữ liệu và những khó khăn khi huấn luyện

Rò rỉ thời gian

Chất lượng dữ liệu

Hậu huấn luyện vintage

Kế hoạch mở rộng sắp tới

Đề xuất sử dụng và hợp tác

Lưu ý

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News