The Pile, bộ dữ liệu mô hình hóa ngôn ngữ mã nguồn mở quy mô 825GiB (2020)

(pile.eleuther.ai)

1 điểm bởi GN⁺ 2024-03-09 | 1 bình luận | Chia sẻ qua WhatsApp

Khi độ rộng của nguồn dữ liệu ngày càng trở nên quan trọng trong huấn luyện mô hình ngôn ngữ quy mô lớn, The Pile được công bố như một tập huấn luyện mở quy mô 825GiB, kết hợp 22 bộ dữ liệu chất lượng cao
Thiết kế cốt lõi nằm ở việc kết hợp nhiều nguồn như sách, mã nguồn, trang web, nhật ký trò chuyện, bài báo học thuật... để nâng cao khả năng khái quát hóa liên miền
Các mô hình được huấn luyện bằng The Pile cho thấy mức cải thiện trung bình trên các benchmark mô hình hóa ngôn ngữ hiện có, và cải thiện đáng kể trên Pile BPB
Vì Pile BPB xử lý đồng thời văn bản từ nhiều miền, nó được dùng để kiểm tra năng lực mô hình hóa văn bản rộng hơn thay vì chỉ hiệu năng trên một kho ngữ liệu đơn lẻ
Bảng xếp hạng đánh dấu khả năng trùng lặp tập kiểm thử bằng *, còn Zero-shot nghĩa là không phải tất cả thành phần của The Pile đều có trong dữ liệu huấn luyện

Thành phần và phân phối của The Pile

The Pile là một bộ dữ liệu mô hình hóa ngôn ngữ mã nguồn mở đa dạng, quy mô 825GiB
Được tạo bằng cách kết hợp 22 bộ dữ liệu nhỏ hơn và chất lượng cao thành một bộ duy nhất
Các tệp tải xuống được lưu trữ tại the Eye
Nếu bạn sử dụng The Pile hoặc có mô hình được đánh giá bằng The Pile, bạn có thể thông báo cho EleutherAI
Khi sử dụng The Pile hoặc các thành phần của nó, cần trích dẫn bài báo sau
- The Pile: An 800GB Dataset of Diverse Text for Language Modeling
  - arXiv preprint arXiv:2101.00027, 2020

Vai trò như tập huấn luyện và benchmark

Đặc biệt với các mô hình quy mô lớn, sự đa dạng của nguồn dữ liệu giúp cải thiện tri thức liên miền tổng quát và khả năng khái quát hóa cho các tác vụ downstream
Kết quả đánh giá cho thấy các mô hình được huấn luyện bằng The Pile đạt mức cải thiện trung bình trên các benchmark mô hình hóa ngôn ngữ truyền thống, và ghi nhận cải thiện đáng kể trên Pile BPB
Pile BPB (bits per byte) là một benchmark đòi hỏi khả năng hiểu văn bản ở nhiều miền
- Các miền mục tiêu bao gồm sách, kho lưu trữ GitHub, trang web và nhật ký trò chuyện
- Cũng bao gồm các bài báo về y học, vật lý, toán học, khoa học máy tính và triết học
Benchmark này đồng thời đòi hỏi tri thức thế giới theo từng miền và năng lực suy luận, nên được dùng để đánh giá khả năng mô hình hóa văn bản liên miền của các mô hình ngôn ngữ quy mô lớn
Ví dụ bảng xếp hạng bao gồm các mục tính đến ngày 1 tháng 1 năm 2021
- GPT-3 (Zero-Shot)*, OpenAI: Test BPB 0.7177
- GPT-2 (Zero-Shot)*, OpenAI: Test BPB 1.2253
- * biểu thị khả năng trùng lặp tập kiểm thử tiềm ẩn
- Zero-shot nghĩa là không phải tất cả thành phần của The Pile đều có trong dữ liệu huấn luyện

1 bình luận

GN⁺ 2024-03-09

Các ý kiến trên Hacker News

Khi có người bày tỏ lo ngại vào năm 2020 rằng The Pile có bao gồm Books3, Stella Biderman, khi đó là người phụ trách Eleuther, đã trả lời như sau:
Dữ liệu gồm 1) dữ liệu thô tồn tại trên thế giới và đã được đưa lên mạng, 2) dữ liệu theo từng tập đã được làm sạch và xử lý từ dữ liệu thô đó để dùng cho mô hình hóa ngôn ngữ, 3) The Pile, kết hợp quy mô lớn các dữ liệu theo từng tập cùng cả trọng số
Eleuther đã tạo và công bố 2 và 3; 2 được để cho mọi người có thể tái trọng số và tái kết hợp, còn đa số sẽ tải thẳng 3, theo giải thích của họ
Họ cũng cho rằng, dù 2 và 3 có chứa dữ liệu có bản quyền, theo chuẩn của Mỹ thì đó là sử dụng hợp lý, nên không phải vi phạm bản quyền; việc tải Maroon 5 từ một trang web xuống để tạo một bộ dữ liệu thuộc loại 2 có thể là vi phạm tùy trường hợp, nhưng họ cho rằng cách sử dụng của mình không vi phạm
- Việc nói “2 và 3 là sử dụng hợp lý nên không vi phạm bản quyền” là điều không thể biết chắc cho đến khi được tranh tụng tại tòa
  Sử dụng hợp lý không phải cứ tự tuyên bố là thành lập; nó giống như Michael Scott trong The Office hét lên “Tôi tuyên bố phá sản!”
  Tòa án sẽ cân nhắc 1) mục đích và tính chất của việc sử dụng, 2) tính chất của tác phẩm có bản quyền, 3) lượng và mức độ trọng yếu của phần được sử dụng, 4) ảnh hưởng đến thị trường hoặc giá trị tiềm năng; OpenAI đang tranh chấp với New York Times cũng chính vì lý do này
  Phần tổng quan tại https://copyright.columbia.edu/basics/fair-use.html tóm tắt khá tốt
- Nếu tập số 2 chứa toàn bộ tác phẩm mà chủ sở hữu bản quyền không cho phép phân phối, chẳng hạn cả một cuốn sách, thì tôi không hiểu làm sao phát biểu đó có thể đúng được
  Trừ khi “xử lý cho mô hình hóa ngôn ngữ” nghĩa là một quá trình hoàn toàn không thể đảo ngược
- Tôi không biết đáp án đúng cho vấn đề bản quyền là gì, nhưng trong năm 2024, mong rằng chúng ta có thái độ tốt hơn về lao động của con người nằm trong mô hình, thay vì những cách nói bị động như “dữ liệu tồn tại trên thế giới” hay “được thu thập thành bộ dữ liệu”
- Phân phối tác phẩm mà không có phép của tác giả, dùng chúng theo cách cạnh tranh với tác giả, nhiều AI kiếm tiền, và một số còn tái hiện nguyên văn văn bản gốc
  Những bộ dữ liệu như vậy có vẻ thất bại ở phần lớn bài kiểm tra 4 yếu tố của luật bản quyền, và cả những người không chuyên mà tôi giải thích về LLM cũng hiểu rằng các công ty AI đang ăn cắp tác phẩm của người khác
  Có một bài viết tổng hợp các vấn đề pháp lý liên quan, từng bộ dữ liệu bao gồm The Pile, các phương án thay thế hợp pháp, và đề xuất sửa đổi bản quyền cân bằng: http://gethisword.com/tech/exploringai/
  Hiện tại, tôi cho rằng ít nhất ở một quốc gia nào đó cần ngay ba quy tắc: các tác phẩm mà người dùng có quyền truy cập hợp pháp phải được phép dùng để huấn luyện AI; việc hạn chế huấn luyện, thu phí bổ sung, hạn chế tải xuống phải là bất hợp pháp; phải được phép sao chép và chuyển đổi các tác phẩm có thể truy cập để huấn luyện cho mục đích sử dụng cá nhân; và các tác phẩm web công khai miễn phí phải được phép sao chép, chia sẻ, xử lý và gộp thành bộ cho huấn luyện AI bất kể điều kiện nào
  Bản quyền của đầu ra AI nên tuân theo án lệ hiện có về AI và tác phẩm hỗn hợp; nếu đầu ra là đối tượng được bảo hộ bản quyền, nó nên có địa vị giống như việc người dùng trực tiếp xuất bản dựa trên tác phẩm hiện có, và để có thể phán đoán điều đó thì tập huấn luyện cũng phải được công khai
- Libgen bị scrape, rồi nội dung có bản quyền được tải xuống và tái phân phối mà lại không bất hợp pháp sao?
  Tôi hoài nghi. Seed torrent một bộ phim lấy từ đâu đó trên Internet không phải là “sử dụng hợp lý”, và The Pile không chỉ là mã để chuyển đổi dữ liệu mà là chính dữ liệu đã được tái phân phối
  Theo lập luận này thì vận hành một mirror Libgen cũng có thể hợp pháp
Có thể kiểm tra ở đâu việc tái hiện giấy phép và ghi công/ghi tên tác giả của nội dung được phân phối trong bộ dữ liệu này?
Tất cả có được bao gồm không? Có thể biết mọi mục được đưa vào đều đang tuân thủ không?
Tôi sẵn sàng thảo luận rằng một trình tạo được tạo ra từ mô hình đã ăn dữ liệu bản quyền có thể tránh nghĩa vụ bản quyền trong đầu ra, nhưng bản thân bộ dữ liệu thì đương nhiên phải bị ràng buộc bởi bản quyền của nội dung bên trong nó, không phải sao?
- Bộ dữ liệu này có Books3, gần như là một bản dump toàn bộ Bibliotik, một tracker torrent chuyên sách điện tử lậu
  Nếu phủ kín tường bằng tên các tác giả hoặc nhà xuất bản nổi tiếng rồi ném phi tiêu, rất có thể phía trúng phi tiêu có quyền đối với một phần dữ liệu này
  Có vẻ chỉ cần nói “dùng cho nghiên cứu AI” là được làm bất cứ điều gì. Kiểu như chỉ cần có tên miền .ai thì đăng Blu-ray rip cũng không sao
- Họ đã ăn cắp vì nghĩ việc làm đồ chơi của mình quan trọng hơn quyền mà người khác có đối với thành quả lao động của họ
Không thể tin được là mọi người lại chia sẻ và đăng lại các tác phẩm có bản quyền trên Internet. Sốc thật
Dù sao thì RedPajama 30T và The Pile có phải là “all you need” không? ;)
- Về sau, như vậy là đủ để tiền huấn luyện nhằm xử lý các tác vụ xử lý ngôn ngữ tự nhiên cụ thể
  Để có kết quả thú vị, cần tạo một bộ dữ liệu chỉ dẫn từ đây, và nó phải bao quát nhiều tác vụ khác nhau
  Bản thân các câu hoàn chỉnh không khiến LLM bộc lộ tri thức và suy luận; chính bộ dữ liệu chỉ dẫn lớn và đa dạng mới làm điều đó
- Vì có quá nhiều tranh luận về bản quyền, một dự án nhằm tạo The Pile v2 chỉ bao gồm dữ liệu có giấy phép cho phép đang được tiến hành
Books3 được nhắc trong bài báo The Pile có đúng là bộ dữ liệu mà các tác giả đang kiện không? Cái có rất nhiều tài liệu phổ biến và có bản quyền ấy?
- Đúng. Theo bài báo được liên kết, Books3 là bộ dữ liệu sách phái sinh từ bản sao nội dung của tracker riêng tư Bibliotik do Shawn Presser công bố
  Bibliotik gồm cả tiểu thuyết lẫn phi hư cấu, lớn hơn bộ dữ liệu sách lớn tiếp theo là BookCorpus2 gần một bậc độ lớn, và họ nói đưa vào vì sách rất quý cho nghiên cứu mô hình hóa ngữ cảnh dài và kể chuyện nhất quán
- Để bắt đầu tìm hiểu các thủ tục pháp lý khác nhau, danh sách này có vẻ ổn. Tôi không biết nó được cập nhật thường xuyên đến mức nào, kể cả các vụ như Silverman và những người khác
  https://originality.ai/blog/openai-chatgpt-lawsuit-list
- Có vẻ là vậy. Xem https://www.wired.com/story/battle-over-books3/
- Họ có lập luận rằng dữ liệu của họ không đến từ nguồn có bản quyền, hoặc không thuộc đối tượng được bảo hộ bản quyền không?
Books3 thu hút nhiều chú ý, nhưng một thành phần lớn khác của bộ dữ liệu này là OpenWebText2, cái tên nghe có phần đánh lừa
Đây là dữ liệu được cào từ 15 năm các website bên thứ ba được liên kết trong những bài đăng Reddit nhận nhiều đề xuất, và một phần bài viết của tôi cũng nằm trong đó
- Bỏ qua mức độ liên quan và tác động, tôi thấy khó thuyết phục khi đưa nội dung lên Internet công khai, trên một site không hạn chế truy cập, rồi lại đòi quyền đạo đức đối với nội dung đó
  Nó giống như phát qua radio hoặc phát tờ in đến trước cửa nhà hàng triệu người ngẫu nhiên
  Có những cách để xác lập quyền sở hữu trí tuệ và bảo vệ dữ liệu bằng bản quyền, nhưng fanfic Tumblr, bình luận YouTube, thảo luận HN không phải là con đường chính thức để bảo đảm bản quyền
  Những gì bạn đăng lên một website có thể được cào hợp pháp có thể thuộc phạm vi sử dụng hợp lý
  Dữ liệu thu thập từ website công khai thì về mặt cá nhân bạn có thể làm bất cứ gì, thậm chí có thể tạo một HN LLM xuất sắc từ bộ dữ liệu đã cào để dùng riêng
  Xét án lệ gần đây, miễn là có nỗ lực thiện chí nhằm tôn trọng bản quyền và ngăn tái tạo nguyên văn, một mô hình được huấn luyện trên các tác phẩm của cả thế giới vẫn có thể được cung cấp qua API và dùng thương mại
  Tuy nhiên, nếu bán hoặc phân phối chính bản thân mô hình thì bước sang một phạm vi pháp lý khác
  Internet vốn được thiết kế để hoạt động như vậy, và nếu muốn chặn truy cập thì hãy triển khai xác thực, cấu hình mạng, kiểm soát truy cập
  Nếu không có các cơ chế đó mà đăng lên site công khai, thì nên xem như bạn đã từ bỏ phần lớn lập luận bảo vệ trước phạm vi sử dụng hợp lý rộng, và ngay khi dựng server cùng domain là bạn đã ngầm mời cả thế giới đến tải xuống
  Việc bạn cho là bị lạm dụng trong OpenWebText2 về cơ bản cũng bắt nguồn từ chuyện đưa lên website công khai rồi mất quyền kiểm soát cách sử dụng về sau, và nó đã được cào một cách hợp lý
- Nếu cho tôi biết tên miền, tôi sẽ kiểm tra xem có đạo văn trong các LLM lớn không
  Có lẽ chẳng mô hình nào tạo ra nổi dù chỉ một câu từ bài của bạn
Hiện vẫn có thể tải ở đâu đó không? Vài tháng trước tôi định tải xuống nhưng link tải bị 404, và giờ có vẻ vẫn vậy
- Việc phân phối chủ yếu diễn ra qua torrent/liên kết magnet và trao đổi ổ cứng trực tiếp
  Nếu không biết ai đã có sẵn, bạn có thể tìm trên các tracker công khai
  Tuy nhiên cần biết rằng vì có chứa nội dung có bản quyền, việc phân phối sẽ bị xem là sao chép lậu
- Tôi không biết đăng liên kết magnet ở đây có ổn không
  magnet:?xt=urn:btih:0d366035664fdf51cfbe9f733953ba325776e667&dn=EleutherAI_ThePile_v1
- The Pile là tin cũ, và có hướng dẫn nên xem các bộ dữ liệu gần đây hơn như the-stack-v2
  https://huggingface.co/datasets/bigcode/the-stack-v2
  — https://the-eye.eu/public/AI/pile/readme.txt
- The Pile có nhiều nguồn được tuyển chọn, còn xu hướng gần đây là kết hợp các nguồn dữ liệu tuyển chọn với web crawl đã lọc
  Chẳng hạn xử lý mạnh Common Crawl rồi trộn vào; dolma mà người khác nhắc tới, hay the-stack-v2 cho mô hình code, là những ví dụ như vậy
Tên hay thật. Làm tôi nhớ đến “Pile” ban đầu của Manhattan Project
Tôi đã đọc trong “The Making of the Atomic Bomb” (1986), và chắc cũng xuất hiện trong bộ phim gần đây
- Thật ra gần như không xuất hiện. Tôi nhớ chỉ có một cảnh nhắc rất ngắn
  Bộ phim có cảm giác như xâu chuỗi các giai thoại để tạo ra một thông điệp thô ở cuối
  Nếu xem như một câu chuyện hư cấu hơn là tái hiện thực tế thì đó là phim ổn, nhưng có lẽ đọc sách sẽ tốt hơn
  Đặc biệt nếu quan tâm đến Fermi, tôi khuyên đọc “The Last Man Who Knew Everything” của David Schwartz
The Pile đã khá cũ rồi, đây có phải là phiên bản đã được cập nhật không?
- Không
  Liên quan đến việc này, dataset the-stack v2 gần đây đã được công bố
  Họ cho biết đã duyệt qua dataset đồ thị Software Heritage 2023-09-06 để thu thập 3,28 tỷ tệp duy nhất thuộc 104,2 triệu kho lưu trữ GitHub, và thu thập thêm metadata cấp kho lưu trữ từ dữ liệu GitHub Archive đến ngày 2023-09-14
  Tổng dung lượng chưa nén là 67,53TB, và trong pipeline tiền xử lý họ đã triển khai khử trùng lặp gần đúng bên cạnh khử trùng lặp chính xác
  Sau khi khử trùng lặp, xét theo dung lượng và số token, v1 là 2,9TB·200B, còn v2 là 32,1TB·900B
  Có vẻ sắp có các coding model công khai khá mạnh, và các model định thử nghiệm là dolphincoder-starcoder2-15b-iMat.GGUF, CodeFuse-DeepSeek-33B-iMat.GGUF, OpenCodeInterpreter-DS-33B-iMat.GGUF, starcoder2-15b-instruct-iMat.GGUF
  Dataset: https://huggingface.co/datasets/bigcode/the-stack-v2
  Lượng tử hóa GGUF: https://huggingface.co/dranger003
Các studio lớn ở Hollywood trả rất nhiều tiền cho nhiều công ty an ninh mạng để tìm nội dung vi phạm bản quyền và gửi thông báo yêu cầu chấm dứt xâm phạm bản quyền tới các công ty hosting
Nếu các tác giả và nghệ sĩ tập hợp lại dưới hình thức như một liên minh dữ liệu, họ có thể làm điều tương tự như các studio
Nếu luật bản quyền có sức mạnh thực chất, một tổ chức như vậy có thể gửi yêu cầu pháp lý đến nơi hosting nội dung và yêu cầu gỡ xuống

The Pile, bộ dữ liệu mô hình hóa ngôn ngữ mã nguồn mở quy mô 825GiB (2020)

Thành phần và phân phối của The Pile

The Pile: An 800GB Dataset of Diverse Text for Language Modeling

Vai trò như tập huấn luyện và benchmark

Bài viết liên quan

1 bình luận

Các ý kiến trên Hacker News