1 điểm bởi GN⁺ 4 giờ trước | 1 bình luận | Chia sẻ qua WhatsApp
  • Thư viện Quốc gia Na Uy đang đưa 2PB lưu trữ flash Huawei OceanStor Dorado vào pipeline huấn luyện AI để xây dựng một LLM có chủ quyền (sovereign) hiểu tiếng Na Uy
  • Trong bối cảnh các nhà cung cấp LLM thương mại không xây dựng mô hình bản địa cho tiếng Na Uy, các LLM thiên về tiếng Anh khó có thể xử lý đúng lịch sử, tin tức và văn hóa được ghi lại bằng ngôn ngữ địa phương
  • Thư viện Quốc gia đã số hóa sách, báo, trang web, âm thanh và video từ năm 2005, hiện sở hữu 20PB dữ liệu gốc, và lưu trữ khoảng 60PB theo mô hình 3-2-1
  • Điểm nghẽn không nằm ở năng lực tính toán mà ở chất lượng dữ liệu, tinh lọc và thông lượng xử lý; dữ liệu được chuẩn bị trên DGX H200, cụm CPU nội bộ và flash Huawei trước khi huấn luyện trên Sigma2 Olivia
  • Kho lưu trữ bảo tồn và pipeline AI có các yêu cầu khác nhau về độ bền, chi phí so với độ trễ thấp và I/O song song, nên một LLM có chủ quyền cũng cần năng lực quản trị và lưu trữ bảo tồn

Dự án LLM có chủ quyền của Thư viện Quốc gia Na Uy

  • Thư viện Quốc gia Na Uy (Nasjonalbiblioteket) đang phát triển một mô hình ngôn ngữ lớn (LLM) hiểu tiếng Na Uy và sử dụng 2PB lưu trữ flash Huawei OceanStor Dorado trong pipeline dữ liệu huấn luyện AI
  • Marius Husnes, người phụ trách nền tảng CNTT của thư viện, cho biết tại Huawei ID Forum 2026 Paris rằng các nhà cung cấp LLM thương mại hiện không phát triển LLM ngôn ngữ địa phương cho tiếng Na Uy
  • Những quốc gia không có LLM có chủ quyền được huấn luyện bằng chính ngôn ngữ của mình sẽ phải phụ thuộc vào các LLM được huấn luyện từ dữ liệu toàn cầu và xoay quanh tiếng Anh; các mô hình như vậy khó hiểu lịch sử, tin tức và văn hóa được ghi lại bằng ngôn ngữ địa phương
  • Bộ Văn hóa Na Uy đã giao cho Thư viện Quốc gia nhiệm vụ xây dựng AI có chủ quyền, tức một LLM, và thư viện này đang nắm giữ bộ sưu tập số lớn nhất Na Uy về sách, báo và trang web
  • Thư viện Quốc gia có quyền nhận bản sao của mọi cuốn sách đã xuất bản và mọi nội dung phát sóng, và nghĩa vụ nộp lưu chiểu đã được mở rộng vượt ra ngoài sách để thu thập và bảo tồn toàn bộ di sản văn hóa Na Uy
  • Theo thỏa thuận với các tòa soạn báo Na Uy, cả nội dung có bản quyền cũng có thể được dùng để huấn luyện LLM; Husnes nói rằng “các công ty tư nhân không có điều này”

Quy mô dữ liệu và nền tảng số hóa

  • Thư viện Quốc gia đã số hóa bộ sưu tập từ năm 2005 và tích lũy 20PB dữ liệu gốc
  • Dữ liệu này được lưu theo mô hình 3-2-1
    • 3 bản sao
    • 2 loại phương tiện lưu trữ
    • 1 bản lưu ngoài địa điểm
  • Vì cấu trúc này, tổng dung lượng lưu trữ đạt khoảng 60PB
  • Đối tượng số hóa bao gồm văn bản gốc, âm thanh, video, ảnh tĩnh và nội dung web
  • Quá trình số hóa tạo ra rất nhiều bản quét OCR, cùng với lượng lớn metadata và API cho truy cập trực tuyến
  • Phần lớn dữ liệu được lưu trong hệ thống bảo tồn gồm đĩa số và kho lưu trữ băng từ

Bài toán chuyển dữ liệu từ kho lưu trữ sang pipeline AI

  • Thách thức cốt lõi là đưa dữ liệu trong hệ thống bảo tồn sang hệ thống huấn luyện LLM
  • Điểm nghẽn không nằm ở compute mà ở chất lượng dữ liệu, tinh lọc và thông lượng pipeline
  • Quy trình được chia thành giai đoạn chuẩn bị dữ liệu trong môi trường tính toán nội bộ của thư viện và giai đoạn chạy huấn luyện thực tế trên siêu máy tính quốc gia
  • Môi trường nội bộ gồm các thiết bị sau
    • Hệ thống Nvidia DGX H200
    • Cụm CPU 384 lõi
    • Nhiều hệ all-flash array Huawei OceanStor Dorado với tổng dung lượng flash 2PB
  • Lưu trữ flash Huawei được dùng làm lưu trữ độ trễ thấp cho pipeline dữ liệu và khâu chuẩn bị huấn luyện
  • Pipeline bao gồm các bước thu thập dữ liệu, tinh lọc, loại bỏ trùng lặp, chuẩn hóa định dạng, xác thực và chuẩn bị

Môi trường chạy huấn luyện: Sigma2 Olivia

  • Dữ liệu đi qua pipeline sau đó được chuyển tới hệ thống Sigma2 Olivia, siêu máy tính quốc gia của Na Uy, để chạy huấn luyện thực tế
  • Olivia là một hệ thống HPE Cray Supercomputing EX
  • Cấu hình của Olivia gồm
    • 448 GPU
    • 64.512 lõi CPU
    • Hệ thống lưu trữ 5,3PB Cray ClusterStor E1000
  • Môi trường AI on-premise của Thư viện Quốc gia đảm nhiệm việc chuẩn bị dữ liệu, còn Olivia phụ trách chạy huấn luyện

Các yêu cầu lưu trữ khác nhau

  • Kho lưu trữ bảo tồnlưu trữ cho pipeline AI có các yêu cầu khác nhau
  • Hệ thống bảo tồn 60PB được tối ưu cho độ bền và chi phí, chứ không tối ưu cho I/O tốc độ cao
  • Hệ thống bảo tồn được thiết kế cho truy cập thưa, nên độ trễ đọc cao
  • Lưu trữ cho pipeline AI được thiết kế cho thông lượng cao, độ trễ thấp và I/O dữ liệu song song
  • Đội ngũ đã phải tự tìm cách chuyển và xử lý các bộ dữ liệu quy mô PB từ kho lưu trữ sang pipeline dữ liệu AI

Những bài toán vẫn đang được giải quyết

  • Đánh giá

    • Chưa có công cụ đánh giá tiêu chuẩn để đánh giá LLM tiếng Na Uy có chủ quyền
    • Tiếng Na Uy có hai dạng văn viết, cùng nhiều phương ngữ và biến đổi lịch sử
    • Nhóm của Thư viện Quốc gia đang xây dựng công cụ đánh giá riêng
  • Quản trị

    • Cần xác định ai sẽ kiểm soát quyền truy cập vào LLM có chủ quyền
    • Việc ai quyết định LLM có chủ quyền được dùng cho mục đích gì cũng là một bài toán
    • Đây là những câu hỏi mang tính thể chế và chính trị, không có câu trả lời dễ dàng
  • Điều phối

    • Công việc giúp ba hệ thống gồm kho lưu trữ bảo tồn, môi trường AI on-premise và siêu máy tính quốc gia Sigma2 vận hành trơn tru cùng nhau vẫn đang tiếp diễn

Ý nghĩa và kết luận

  • Lưu trữ của Huawei đang đóng vai trò quan trọng và thực chất tại thị trường châu Âu
  • Những quốc gia muốn phát triển LLM ngôn ngữ địa phương có chủ quyền có thể hưởng lợi khi trao đổi với Husnes và hiểu rõ khối lượng công việc cần thiết
  • Na Uy được nêu như một quốc gia nhỏ đang xử lý vấn đề mà mọi quốc gia không thuộc khối nói tiếng Anh đều phải đối mặt
  • Câu hỏi cốt lõi là làm thế nào để xây dựng AI phản ánh ngôn ngữ, văn hóa và lịch sử của chính quốc gia mình
  • AI không chỉ cần những người xây dựng mà còn cần cả người quản trị và người lưu giữ

1 bình luận

 
Ý kiến trên Hacker News
  • Với tư cách là người Na Uy, tôi dùng Thư viện Quốc gia gần như mỗi ngày để tìm kiếm văn bản
    Giao diện người dùng và các tính năng để tìm kiếm trong khối lượng văn bản khổng lồ thực sự ở đẳng cấp rất cao

    • Thật sự rất tuyệt. Chỉ là tôi ước có ít hạn chế hơn với nội dung có thể truy cập
      Khá nhiều thứ chỉ có thể truy cập từ IP Na Uy, nên đó là một trong những lý do chính khiến tôi vẫn duy trì VPN dù sống ở Anh nhưng là người Na Uy. Một số nội dung khác thì chỉ truy cập được từ IP của thư viện hoặc tổ chức nghiên cứu, nhưng ngay cả vậy thì lượng tư liệu công khai cho mọi người vẫn đã cực kỳ lớn
    • Việc không có công cụ tìm kiếm hợp nhất khiến tôi rất bực bội. Tôi không hiểu tại sao lại không thể tìm trong phụ đề TV
    • Điều này khiến tôi nhận ra mình đã quen đến mức nào với xử lý từ gốc và độ linh hoạt về chính tả, những thứ vốn là tính năng cơ bản của mọi công cụ tìm kiếm từ thời Altavista
  • Tôi tự hỏi nhận định này đúng đến mức nào: “Một quốc gia có ngôn ngữ riêng sẽ ở thế bất lợi nếu không có LLM chủ quyền được huấn luyện bằng ngôn ngữ đó. Vì các LLM tiếng Anh được huấn luyện trên dữ liệu toàn cầu sẽ không biết lịch sử, tin tức và văn hóa của quốc gia ấy khi chúng được mô tả bằng tiếng bản địa”
    Tôi cứ nghĩ các tay chơi lớn đã huấn luyện trên gần như mọi tư liệu có thể tiếp cận được, bất kể ngôn ngữ hay chất lượng, nên quan điểm này nghe giống một ý tưởng hình thành từ giai đoạn đầu của LLM đa dụng

    • Nếu muốn LLM có kiến thức tiếng Na Uy, có lẽ cách obvious nhất là tạo ra một bộ dữ liệu huấn luyện tốt và công bố rộng rãi
      Tôi không hiểu lý do gì phải tốn chi phí lớn để tự huấn luyện mô hình, nhất là khi nó có khả năng kém hơn các mô hình tối tân
    • Các LLM nước ngoài có lẽ chưa được huấn luyện trên tư liệu của Thư viện Quốc gia Na Uy
      Vì nghiên cứu gia phả nên tôi thường tìm thấy tư liệu ở đó bằng tìm kiếm từ khóa thông thường, và có những thứ mà cả công cụ tìm kiếm lẫn mô hình ngôn ngữ đều không biết
      Dĩ nhiên, thông tin tôi quan tâm thường cũng được đăng ở đâu đó mà AI có thể cào lấy, nhưng để moi hết toàn bộ tư liệu thú vị trong đó thì chắc sẽ mất rất lâu
    • Theo đánh giá của tôi thì điều đó hầu như không đúng. Tôi không giỏi tiếng Na Uy nhưng biết tiếng Thụy Điển, và hai ngôn ngữ này rất giống nhau nên tôi nhìn chung cũng hiểu được tiếng Na Uy
      Mọi mô hình mà tôi thử nói chuyện bằng tiếng Thụy Điển đều xử lý hoàn hảo. Tôi cho rằng tiếng Na Uy nhiều khả năng giờ cũng đã như vậy
    • Ít nhất thì có lẽ nó sẽ giúp viết như người Na Uy thay vì theo kiểu văn phong tiếng Anh được dịch sang tiếng Na Uy
      Cũng sẽ thú vị nếu thử áp dụng các thí nghiệm như https://arxiv.org/pdf/2507.22445
    • Các mô hình tốt nhất hiện nay khá lưu loát với những ngôn ngữ và nền văn hóa lớn, nên ít nhất từ “mọi” là không đúng
      Hiệu năng có thể gần như không bị ảnh hưởng, hoặc đôi khi còn tốt hơn. Tuy vậy, các mẫu diễn đạt kiểu tiếng Anh có thể len lỏi một cách tinh vi vào các mẫu diễn đạt bản ngữ của ngôn ngữ khác
      Với các ngôn ngữ ít tài nguyên thì đây lại là một vấn đề hoàn toàn khác, nhưng để cải thiện điều đó thì cần nhiều dữ liệu hơn chứ không phải mô hình mới
  • “Hệ thống Olivia là một hệ thống HPE Cray Supercomputing EX với 448 GPU và 64.512 lõi CPU”
    Với lượng phần cứng ít ỏi như vậy mà lại định huấn luyện LLM chủ quyền thay vì chỉ chồng LoRA lên mô hình mã nguồn mở thì trông như một sai lầm lớn và là dấu hiệu đáng lo
    Họ không thể nào có đủ tài nguyên để huấn luyện một LLM hoàn chỉnh, nên việc tuyên bố đó là mục tiêu khiến tôi cảm giác như họ không thực sự có ý định làm cho LLM này trở nên hữu ích. Nếu vậy thì phải hỏi là đang lãng phí tiền của ai và để làm gì

    • Có thể nó không hữu ích với người ngoài, nhưng một trong các mục tiêu có thể là học tập ở cấp tổ chức
      Tức là nội hóa kiến thức về cách xây dựng LLM vào trong tổ chức
      Trên danh nghĩa thì Thư viện Quốc gia là bên chủ trì, nhưng theo bài báo thì có vẻ họ được chọn vì sở hữu hợp pháp và có thể sử dụng tư liệu tiếng Na Uy cho mục đích này. Các nhà nghiên cứu ở những đơn vị liên quan như trường đại học có lẽ cũng sẽ tham gia vào quá trình
    • Họ đã từng tạo thành công một mô hình tinh chỉnh để chứng minh khái niệm, nên bước tiếp theo sẽ là huấn luyện một LLM hoàn chỉnh
      Tuy nhiên tôi không nghĩ họ đang nhắm đến thứ gì đó thực sự có giá trị. Các mô hình tinh chỉnh đó rất lỗi và có vẻ gần với việc xây dựng phương pháp luận hơn. Tôi không chắc nó cực kỳ hữu ích, nhưng chuyện ai làm gì với tiền tài trợ nghiên cứu thì không phải tôi quyết định
      Một mô hình tinh chỉnh mà tôi từng dùng thường xuyên chế giễu con người khi họ bộc lộ cảm xúc trong đoạn chat
      Một mô hình tinh chỉnh khác thì cứ mỗi lần tôi chỉ gõ “hei”, nó lại ảo giác rằng tôi là bác sĩ và em bé của tôi mắc một căn bệnh khủng khiếp. Khá có thể một system prompt bình thường và trung tính đã gây ra hành vi đó
      Tôi cho rằng Olivia là đủ lớn cho mục đích sử dụng của nó. Lúc này tốt hơn là đi theo xu hướng mới nhất nhưng đừng lãng phí quá nhiều tiền vào phần cứng
    • Các mô hình ngôn ngữ đa ngữ và quốc tế hóa không phải là lĩnh vực mà các phòng thí nghiệm tuyến đầu dồn nhiều tài nguyên vào, và đặc biệt với tiếng Na Uy thì lại càng như vậy
      Ngữ liệu tiếng Na Uy có thể không cần đến một cụm máy cực lớn, và kể cả nếu cần thì đây có lẽ cũng là mức tốt nhất mà thư viện có thể làm. Trong các khoản đầu tư cho mô hình tiếng Na Uy, đây gần như chắc chắn là một trong những trụ cột lớn nhất
      Các mô hình đỉnh cao có thể không tiếp cận được chất lượng nội dung mà Thư viện Quốc gia nắm giữ. Bài báo cũng nhắc đến giấy phép với các tòa soạn báo, và bản thân thư viện cũng có kho lưu trữ riêng
      Vì tiếng Anh và tiếng Na Uy không phải các ngôn ngữ gần nhau trong cùng một họ, nên LoRA có thể không phải cách tiếp cận tốt nhất
      Tôi tự hỏi có nghiên cứu công khai nào về việc bản địa hóa bằng LoRA hoạt động tốt đến mức nào tùy theo mức độ ngữ pháp và từ vựng của ngôn ngữ đích khác xa tiếng Anh ra sao hay không
      Những dự án như vậy thường không chỉ có một mục tiêu, và không chỉ nhằm tạo ra mô hình tối tân mà còn để xây dựng và đào tạo nhân lực địa phương, giống như khi trường đại học phóng vệ tinh
    • Với lượng tài nguyên như thế này thì cũng đủ để dựa trên thứ như công thức Olmo 3, áp dụng dữ liệu pha trộn ưu tiên dữ liệu riêng và huấn luyện tiếp theo cho các tác vụ riêng
      Nếu xây dựng mô hình embedding riêng, lập chỉ mục toàn bộ thư viện, rồi huấn luyện mô hình truy xuất dữ liệu đó để trả lời các câu hỏi về lịch sử, văn hóa, pháp luật và chiến lược theo góc nhìn của quốc gia mình, thì khả năng cao sẽ khá thú vị và hữu ích
      Nó sẽ không thể đánh bại Anthropic trong việc sinh code React, nhưng cũng chẳng có lý do gì phải sao chép điều đó
    • Thực ra vấn đề lớn nhất là dữ liệu huấn luyện có thể sử dụng được
      Chúng tôi đã thử cả tinh chỉnh lẫn huấn luyện từ đầu với nhiều mô hình dưới 10 tỷ tham số, và lần cuối tôi kiểm tra thì cách huấn luyện từ đầu nắm bắt ngôn ngữ tốt hơn
  • Có lẽ sẽ tốt hơn nếu Na Uy thay vào đó, hoặc song song, tạo ra bộ dữ liệu huấn luyện và chia sẻ miễn phí cho mọi nhà phát triển mô hình
    Việc giúp các mô hình hàng đầu hiểu tiếng Na Uy và văn hóa của nước này có vẻ là một cách tốt hơn, hoặc bổ sung, để đạt mục tiêu ở đây

    • Các mô hình hàng đầu vốn đã biết tiếng Na Uy khá tốt. Chúng còn thích nghi được với các phương ngữ Na Uy, và cũng bắt chước tiếng Na Uy cổ khá thuyết phục
      Ví dụ, tôi đã yêu cầu Claude giải thích tiểu thuyết năm 1911 “De knyttede næver” bằng chính tả tiếng Na Uy khoảng năm 1911, và nó làm khá tốt
      Điều còn thiếu là sự hiểu biết về văn học, văn hóa và lịch sử Na Uy. “De knyttede næver” từng là một trong những tiểu thuyết Na Uy bán chạy vào thời điểm xuất bản, nhưng Claude chỉ có thể đưa ra điều gì đó sau khi tra cứu nó. ChatGPT làm tốt hơn, đặc biệt ở chế độ suy luận thì đưa ra bản tóm tắt chi tiết
      Ngày nay tác phẩm này không còn quá nổi tiếng, nhưng tác giả đã là một nhà báo danh tiếng trong nhiều thập kỷ, và bộ truyện này đủ nổi tiếng để có một ca sĩ Na Uy lấy bút danh theo tên nhân vật chính. Do lập trường chính trị của tác giả và ảnh hưởng của nó lên tiểu thuyết, tác phẩm cũng đã được nhắc đến trong báo chí và sách Na Uy suốt nhiều thập kỷ, nên đây là một bài kiểm tra khá hợp lý và theo tôi nó cho thấy một khoảng trống kiến thức đáng kể
      Tôi đồng ý rằng sẽ tốt hơn nếu làm cho bộ dữ liệu của Thư viện Quốc gia dễ tiếp cận hơn. Tuy vậy, yếu tố bổ sung lớn ở đây có vẻ là họ đã ký được thỏa thuận cho phép huấn luyện trên tài liệu có bản quyền đang bị khóa trong kho lưu trữ và bị hạn chế sử dụng
      Dù vậy, ngay cả việc công bố chỉ phần dữ liệu đã hết bản quyền trong bộ sưu tập cũng sẽ là một điểm khởi đầu tuyệt vời
    • Tôi không hiểu tại sao phải chia sẻ toàn bộ dữ liệu này với những công ty Mỹ tham lam, đánh cắp dữ liệu của mọi người để trục lợi cho riêng mình
      Tốt hơn nhiều là duy trì các thỏa thuận pháp lý với cơ quan nhà nước và phát triển thứ gì đó thực sự hữu ích cho chính đất nước mình
  • Đọc đoạn Marius Husnes nói rằng “các nhà cung cấp LLM thương mại không phát triển LLM Na Uy bản địa, và các quốc gia không có LLM có chủ quyền được huấn luyện bằng ngôn ngữ của mình sẽ ở thế bất lợi”, tôi không thật sự tin rằng ông ấy hiểu rõ mình đang nói gì ở đây

    • Ông ấy nói đúng. Nhưng đây không hoàn toàn chỉ là vấn đề của ngữ liệu huấn luyện, mà còn là vấn đề của tokenizer, vốn có thể token hóa các chuỗi con hiệu quả hơn dựa trên thiên lệch cần thiết cho ngôn ngữ mục tiêu
      Lý do các LLM thiên về tiếng Anh mạnh hơn ở tiếng Anh là vì không gian token được phân bổ cô đọng hơn cho tiếng Anh. Nếu thử đưa các từ tiếng Anh phổ biến và từ tiếng Na Uy vào tokenizer online gọi API của Anthropic, tiếng Anh thường chỉ một token hoặc ít hơn, còn tiếng Na Uy thường thành 2–4 token, đôi khi còn nhiều hơn. Những ngôn ngữ như tiếng Thái còn bất lợi hơn rất nhiều
      Việc lựa chọn ngữ liệu cũng thường nghiêng mạnh về phía ngôn ngữ mục tiêu. Đó là vì cần nhiều công sức hơn để thu thập tác phẩm bằng ngôn ngữ đó
      Do ảnh hưởng lẫn nhau giữa các embedding tương đồng về ngữ nghĩa giữa các ngôn ngữ, trong không gian vector cũng xuất hiện đường cơ sở văn hóa và các thiên lệch nghĩa khác. Cuối cùng, fine-tuning có tác động lớn đến cách LLM thể hiện văn hóa. Những hiệu ứng này không hề nhỏ
      Có nhiều nỗ lực xây dựng mô hình ngôn ngữ cho các ngôn ngữ đang mai một và mô hình xuyên văn hóa, nhưng với một ngôn ngữ có nền tảng biết chữ vững chắc, có đủ lý do để tạo ra một LLM kiểu di sản chuyên biệt cho chính ngôn ngữ và văn hóa đó. Trông chờ OpenAI hay Anthropic sẽ ưu tiên ngôn ngữ của bạn hơn khách hàng mục tiêu của họ vào thời điểm phải chọn lựa là điều phi thực tế
    • Khi trò chuyện với ChatGPT, ngay cả khi nói bằng tiếng Đan Mạch thì việc nó mang tính Mỹ vẫn khá rõ ràng
      Tiếng mẹ đẻ, văn phong và thái độ đều rất Mỹ
      Cũng như ta không thể dựa vào Netflix và HBO trong lĩnh vực này chỉ vì giờ họ cũng làm các chương trình truyền hình Bắc Âu, ở mảng này chúng ta cũng phải tự xây lấy cái của mình
      Theo thời gian, công nghệ cho phép điều đó sẽ rẻ hơn và dễ tiếp cận hơn
    • Ba Lan có LLM riêng tên là Bielik
      Nó không chỉ tốt hơn trong việc giữ lại lối diễn đạt đậm chất tiếng Ba Lan mà còn làm tốt hơn cả trong soạn thảo văn bản hành chính. Lý do nó tốt hơn là vì đã có đánh giá arena, và kết quả thống kê cho thấy nó vượt trội hơn
    • Tôi tò mò liệu có thể đưa ra bằng chứng rằng ông ấy sai hay không
      Có đưa ra khẳng định, nhưng dường như không có cơ sở. Tại sao chỉ có LLM tiếng Anh lại không phải là bất lợi?
      Với các mô hình hiện nay, có thể nắm được các sắc thái của lịch sử và văn hóa Na Uy không?
    • Nghe khá hợp lý để xin trợ cấp
  • Tiếng Wales cũng đang được huấn luyện LLM bằng Nemotron
    https://www.bangor.ac.uk/news/2025-09-15-reaching-across-the...

  • Có thể đây không phải cách hiệu quả nhất, nhưng với các ngôn ngữ dùng chữ viết phi Latinh thì dường như vẫn có trường hợp sử dụng rõ ràng cho việc xây từ đầu
    Cứ xem sarvam.ai và ví dụ họ cải thiện token hóa cho ngôn ngữ địa phương [1]. Không phải mọi LLM đều phải giúp lập trình, cũng không phải ngay lập tức phải trở thành Babel Fish
    Ngôn ngữ là văn hóa, nên tôi hiểu động lực của họ. Có đủ nguồn lực để tự làm có lẽ là điều tốt
    [1] https://www.sarvam.ai/blogs/sarvam-30b-105b

    • Cải thiện token hóa không nhất thiết đồng nghĩa phải xây từ đầu
      T-Bank của Nga đã thay tokenizer của Qwen gốc để đưa vào số token chữ Kirin nhiều gấp 5 lần, rồi tiếp tục huấn luyện bằng ngữ liệu tiếng Nga, nhờ đó có thể tăng tốc độ sinh lên 1,5–3 lần
  • Đây là một đợt triển khai lưu trữ khổng lồ
    Xét đến yêu cầu I/O của huấn luyện LLM, đặc biệt là checkpointing, thì việc chuyển sang NVMe flash ở quy mô này là hợp lý hơn so với các dàn đĩa truyền thống

  • “Na Uy là một quốc gia nhỏ đang giải bài toán mà mọi nước không thuộc khối nói tiếng Anh đều phải đối mặt. Làm thế nào để tạo ra AI phản ánh ngôn ngữ, văn hóa và lịch sử của chính mình? AI không chỉ cần người tạo ra mà còn cần cả người quản lý”
    Đáng tiếc là tôi cho rằng câu trả lời phần lớn gần với “không làm được”.
    Những việc như thế này cần ý chí chính trị mạnh mẽ, nhưng ít nhất là trong phạm vi xung quanh tôi, việc tập hợp được điều đó có vẻ gần như bất khả thi.
    Chi phí thì cũng khó gánh nổi, nhưng hơn thế nữa, những người quan tâm đến tính đại diện địa phương này либо hoàn toàn thấy ổn ngay cả khi các công ty nước ngoài triển khai, hoặc ngay từ đầu đã phản đối bản thân AI. Vì nếu muốn thì vẫn có thể dùng ChatGPT bằng tiếng Basque mà

    • Với trường hợp của Na Uy, việc chi phí thực sự không thể kham nổi hay không vẫn còn có thể tranh luận
      Đây là một quốc gia nhỏ nhưng cực kỳ giàu có, và hiện thông qua đầu tư của quỹ tài sản quốc gia đang nắm giữ cổ phần tương đương 1,5% các công ty niêm yết trên toàn thế giới
    • Nếu Na Uy tiếp cận các viện nghiên cứu ở Mỹ với mục tiêu xây dựng bộ dữ liệu được tuyển chọn cho huấn luyện, thì chắc chắn họ sẽ cho phép tham gia vào quá trình huấn luyện
      Và khả năng cao những mô hình như vậy sẽ vượt trội hơn rất nhiều so với những gì có thể tự xây dựng trong nước
      Tất nhiên, nói đến đây tôi cũng có thể cảm nhận được sự rùng mình từ phía bên kia màn hình