35 điểm bởi GN⁺ 9 giờ trước | 8 bình luận | Chia sẻ qua WhatsApp
  • Bộ dữ liệu persona tiếng Hàn quy mô lớn đầu tiên phản ánh phân bố thực tế về nhân khẩu học, địa lý và tính cách, được xây dựng dựa trên dữ liệu công từ Cục Thống kê Hàn Quốc, Tòa án Tối cao, Cơ quan Bảo hiểm Y tế Quốc gia và các nguồn khác
  • Bao gồm 7 triệu persona trong 1 triệu bản ghi, được cấu thành từ 26 trường như tên, giới tính, tuổi, tình trạng hôn nhân, trình độ học vấn, nghề nghiệp, khu vực cư trú, v.v.
  • Được tạo bằng NeMo Data Designer, hệ thống tạo dữ liệu tổng hợp cấp doanh nghiệp, cùng mô hình google/gemma-4-31B-it
  • So với các bộ dữ liệu persona hiện có, bộ này phản ánh trung thực hơn nhóm cao tuổi, khu vực nông thôn, cùng phân bố đa dạng về học vấn và nghề nghiệp, qua đó góp phần giảm thiên lệch của các mô hình AI chủ quyền
  • Phát hành theo giấy phép CC BY 4.0, cho phép tự do sử dụng cho cả mục đích thương mại và phi thương mại

Vấn đề của các persona Hàn Quốc do LLM hiện nay tạo ra

  • Persona là phần mô tả về đặc điểm riêng, sở thích, tính cách, nghề nghiệp... của một cá nhân; một bộ dữ liệu gồm các persona cần phản ánh đúng đặc trưng văn hóa và đặc trưng phân bố của nhóm người đó
  • Ngay cả khi đưa prompt cho LLM nước ngoài kiểu “hãy tạo hồ sơ nhân vật thực tế và đa dạng của xã hội Hàn Quốc”, kết quả vẫn bị méo mó nghiêm trọng
    • 40% persona được tạo ra chọn salad là món ăn yêu thích nhất, hoặc sinh ra các kết quả phi thực tế như “tôi điều hành một vườn táo ở Andong, Gyeongsangbuk-do”
  • Khi lấy mẫu ngẫu nhiên 2.000 persona Hàn Quốc bằng Claude Opus 4.7, đã ghi nhận thiên lệch cực đoan trong phân bố nghề nghiệp: 77,6% là “nông dân trồng yuja”
  • Với GPT-5.4, 90,1% được tạo thành “nhân viên chăm sóc điều dưỡng”
  • Từ phân bố đô thị, cấu trúc gia đình, hình thức sở hữu nhà ở đến sở thích ẩm thực, tồn tại thiên lệch ở mọi khía cạnh không phù hợp với thực tế Hàn Quốc

Tổng quan và mục tiêu của bộ dữ liệu

  • Bộ dữ liệu persona tổng hợp mã nguồn mở được thiết kế để phản ánh rộng rãi tính đa dạng và đặc trưng của dân số Hàn Quốc
  • Được viết bằng tiếng Hàn bản địa để ai cũng có thể đọc dễ dàng
  • Mục tiêu chính là giảm dữ liệu thiếu hụt và thiên lệch tiềm ẩn trong dữ liệu huấn luyện khi xây dựng các hệ thống AI chủ quyền
  • Tập trung khắc phục thiên lệch trong các bộ dữ liệu persona hiện có dùng cho sinh dữ liệu tổng hợp, đặc biệt theo các trục tuổi tác, khu vực, trình độ học vấn và nghề nghiệp

Nguồn dữ liệu và cách xây dựng

  • Sử dụng dữ liệu điều tra dân số từ KOSIS (Cổng thống kê quốc gia của Cục Thống kê Hàn Quốc) liên quan đến giới tính, khu vực, ngành công nghiệp, nghề nghiệp, du lịch và hoạt động giải trí
  • Sử dụng dữ liệu năm sinh, giới tính, tên từ Tòa án Tối cao, thông tin khám sức khỏe từ Cơ quan Bảo hiểm Y tế Quốc gia, và kết quả khảo sát hành vi tiêu dùng thực phẩm từ Viện Kinh tế Nông thôn Hàn Quốc
  • NAVER Cloud cung cấp dữ liệu ban đầu và tri thức chuyên môn miền trong giai đoạn thiết kế
  • Sử dụng mô hình đồ thị xác suất (PGM) độc quyền, mô hình google/gemma-4-31B-it theo giấy phép Apache-2.0, cùng các phương pháp kiểm chứng và đánh giá của NeMo Data Designer
  • Bao quát các yếu tố như tên, tuổi, giới tính, khu vực, hôn nhân, gia đình, nhà ở, học vấn, chuyên ngành, hoạt động kinh tế, thu nhập, nhóm ngành, nhóm nghề, huyết áp, đường huyết, vòng eo, BMI, du lịch, giải trí, loại nhà hàng ưa thích, tần suất giao đồ ăn và ăn ngoài, v.v.
  • Tất cả dữ liệu đều phản ánh phân bố thực tế nhưng được tổng hợp hoàn toàn nhân tạo; mọi sự giống với người có thật chỉ là ngẫu nhiên

Quy mô và cấu thành bộ dữ liệu

  • Gồm 1 triệu bản ghi với tổng cộng 1,7 tỷ token (trong đó persona chiếm 1 tỷ token)
  • 26 trường: 7 trường persona, 6 trường thuộc tính persona, 12 trường ngữ cảnh nhân khẩu học-địa lý và 1 mã định danh duy nhất
  • Bao phủ đầy đủ 17 tỉnh/thành phố cấp cao252 quận/huyện/thành phố
  • Hơn 209.000 tổ hợp họ tên duy nhất (118 họ, 21.400 tên)
  • 7 loại persona: nghề nghiệp, thể thao, nghệ thuật, du lịch, ẩm thực, gia đình, tóm tắt
  • Thuộc tính persona bổ sung: nền tảng văn hóa, kỹ năng và chuyên môn, mục tiêu-nguyện vọng nghề nghiệp, sở thích-mối quan tâm

Phân bố tên

  • Dữ liệu tên công khai hiện nay ở Hàn Quốc chỉ giới hạn từ năm 2008 trở đi
  • Nemotron-Personas-Korea là bộ dữ liệu công khai đầu tiên dựa trên toàn bộ dữ liệu tên của Hàn Quốc từ năm 1940
  • Giải quyết vấn đề gán tên không phù hợp với bối cảnh thời đại như “ông/bà Kim Ha-yul 82 tuổi?” hay “Kim Soon-ja 21 tuổi?”
  • Phân bố họ cho thấy 5 họ phổ biến nhất là Kim (21,5%), Lee (14,7%), Park (8,5%), Jeong (4,8%), Choi (4,7%), chiếm khoảng 54% tổng thể
  • Tên gọi phản ánh xu hướng đặt tên theo thế hệ dựa trên giới tính và năm sinh
    • Nữ: các tên phổ biến ở nhóm lớn tuổi như Young-sook, Jung-sook, Soon-ja cùng tồn tại với tên của thế hệ trẻ như Ji-young, Yoo-jin, Ji-hyun
    • Nam: các tên hiện đại như Ji-hoon, Hyun-woo, Jun-ho đứng nhóm đầu
  • Tên xuất hiện thường xuyên nhất toàn bộ là Kim Young-sook, trùng khớp với kết quả điều tra thực tế

Phân bố độ tuổi

  • cấu trúc hình chum với phần giữa phình ra, phản ánh trung thực cơ cấu dân số hiện tại khi tỷ lệ sinh thấp và già hóa diễn ra đồng thời
  • Nhóm dày nhất là 50~64 tuổi (tỷ trọng khoảng 0,09), tương ứng với thế hệ bùng nổ sinh đẻ thập niên 1960~70
  • Ở nhóm cao tuổi từ 70 trở lên, tỷ lệ nữ cao hơn nam rõ rệt
    • Trong nhóm 80~89 tuổi, tỷ lệ nữ cao gấp khoảng 1,52 lần nam

Phân bố tình trạng hôn nhân

  • Tỷ lệ chưa kết hôn ở nhóm 19~24 tuổi là trên 95%; trong độ tuổi 30 giảm từ 55% xuống 31%, phù hợp với xu hướng kết hôn muộn khi tuổi kết hôn lần đầu trung bình là 31~33
  • Tỷ lệ có vợ/chồng tăng lên 64% từ tuổi 35 và đạt đỉnh 78% ở cuối tuổi 50
  • Tình trạng góa bụa tăng mạnh từ độ tuổi 60, đạt 66% ở cuối tuổi 80 và 74~81% ở tuổi 90
  • Ly hôn cao nhất ở nhóm cuối tuổi 50 đến đầu tuổi 60, khoảng 12%, phù hợp với xu hướng “ly hôn hoàng hôn”

Phân bố loại hộ gia đình

  • Ở mọi độ tuổi, hộ vợ chồng + con chưa kết hôn chiếm tỷ trọng cao nhất, đạt đỉnh 63,6% ở tuổi 19
  • Sau tuổi 50, hộ chỉ có vợ chồng tăng mạnh và đạt đỉnh 45,7% ở nhóm 65~69 tuổi
  • Hộ đơn thân có mô hình hai đỉnh ở đầu tuổi 20 (15~22%) và sau 75 tuổi (21~32%)
  • Hộ mẹ + con chưa kết hôn (5~14%) cao hơn hộ cha + con chưa kết hôn (2~5%), cho thấy bất đối xứng giới tính trong hộ đơn thân nuôi con

Phân bố trình độ học vấn

  • Ở thế hệ trẻ 20~34 tuổi, tỷ lệ tốt nghiệp đại học 4 năm vượt 50%; nếu tính cả cao đẳng thì khoảng 75% có trình độ từ đại học/cao đẳng trở lên
  • Với nhóm từ 80 tuổi trở lên, không đi học (36%) và tiểu học (37%) chiếm 73% tổng thể
  • Theo khu vực, tỷ lệ có bằng cử nhân trở lên cao nhất ở Sejong (49,0%), Seoul (45,1%) và Daejeon (39,7%)
    • Sejong chịu ảnh hưởng từ dòng dịch chuyển của công chức và nhân sự nghiên cứu có học vấn cao sau khi Khu phức hợp Chính phủ Sejong được di dời về đây

Phân bố nghề nghiệp

  • Chuyên gia và nhân viên văn phòng chiếm tỷ trọng lớn nhất, phản ánh cơ cấu kinh tế dịch vụ và tri thức
  • Trong nhóm bán hàng, nhân viên bán hàng mua sắm trực tuyến đứng số 1 với 19,8%, cho thấy tỷ trọng thương mại điện tử cao
  • Trong lao động phổ thông, bảo vệ tòa nhà (21,3%) và nhân viên vệ sinh tòa nhà (16,0%) chiếm tỷ lệ tập trung
  • Quân nhân chiếm khoảng 1% tổng lao động có việc làm, trong đó lục quân chiếm hơn 2/3

Ràng buộc kỹ thuật và giới hạn

  • Do giới hạn thực tế về tính sẵn có và tính cập nhật của dữ liệu công khai, cũng như của mô hình PGM, bộ dữ liệu áp dụng giả định độc lập giữa một số biến nhất định
    • Ví dụ: khi gán nghề nghiệp chi tiết, giả định rằng giới tính, thu nhập, học vấn, chuyên ngành... ảnh hưởng một cách độc lập và không phản ánh tương tác giữa chúng
  • Không bao gồm gender do dữ liệu thống kê công ở Hàn Quốc không có số liệu bao quát cho khái niệm này
  • Chỉ bao gồm persona người trưởng thành từ 19 tuổi trở lên
  • Không bao gồm persona liên quan đến khách hàng doanh nghiệp trong các lĩnh vực như tài chính, y tế

Kết quả cải thiện so với cách phụ thuộc vào LLM

  • Khi chỉ dựa vào LLM, phân bố đô thị bị lệch về Suncheon, Changwon...; còn Nemotron-Personas-Korea phản ánh phân bố tỷ lệ dân số thực tế như Hwaseong (Gyeonggi), Namyangju, Songpa-gu (Seoul)
  • Hình thái gia đình được mở rộng từ chỗ thiên hẳn về hộ đơn thân sang nhiều dạng đa dạng như sống cùng vợ/chồng, sống cùng vợ/chồng và con, sống cùng cha mẹ
  • Hình thức sở hữu nhà ở cũng được điều chỉnh từ 100% nhà sở hữu sang tỷ lệ thực tế giữa sở hữu và thuê
  • Phân bố món ăn cũng chuyển từ thiên hẳn về salad sang phản ánh văn hóa ẩm thực thực tế như bibimbap, món Nhật, gà rán, galbi, samgyeopsal, tteokbokki, đồ ăn vặt kiểu bunsik, bánh mì, doenjang-jjigae, jjajangmyeon

Ví dụ về phản ánh văn hóa

  • “Jeong Jun, 33 tuổi, thuộc nhóm kangaroo-jok, xả mệt sau ngày làm việc bằng cách ăn samgyeopsal và uống soju cùng đồng nghiệp trên đường về nhà” — cư trú tại Songpa-gu, Seoul; tốt nghiệp đại học 4 năm; chưa kết hôn; sống cùng cha mẹ; phản ánh hiện tượng kangaroo-jok trong xã hội Hàn Quốc
  • “Kim Chun-hee, 73 tuổi ở Ulsan, thích nhạc Sim Soo-bong và đăng ảnh vào phòng chat nhóm gia đình” — nữ, không đi học, có bạn đời, thất nghiệp; phản ánh dân số nữ cao tuổi

Vì sao bộ dữ liệu persona hữu ích cho LLM

  • Mỗi người đều sở hữu tri thức riêng biệt, và persona là một biểu hiện kiểu hình cô đọng loại tri thức riêng này
    • Ví dụ: persona thợ điện có thể đóng vai trò trung gian để kéo ra kiến thức liên quan đến điện từ LLM
  • Trong dữ liệu tổng hợp, tính đa dạng là chỉ số cực kỳ quan trọng, và con người chính là nguồn đa dạng tốt nhất
  • Có thể tạo ra nhiều dữ liệu huấn luyện tổng hợp đa dạng theo từng persona dưới dạng như “hãy tạo một bài toán suy luận logic liên quan đến {persona được cho}”

Trường hợp sử dụng thực tế

  • Cải thiện hiệu năng sử dụng công cụ nói chung: cung cấp đồng thời bộ công cụ và persona cho user-LLM để tổng hợp dữ liệu và huấn luyện. Nemotron-Nano-9B-v2-Japanese đã áp dụng phương pháp này và đạt hạng 1 trên bảng xếp hạng Nejumi. Cách làm tương tự cũng được đưa vào Nemotron Nano v3 và Super v3
  • Cải thiện an toàn mô hình: được dùng làm dữ liệu seed cho bộ dữ liệu Sensitive-safety-category-refusals (SSCR). Bộ dữ liệu SSCR được bao gồm trong nemotron-safety-blend

Cách dùng và giấy phép

  • Có thể tải bằng thư viện Python datasets thông qua lệnh load_dataset("nvidia/Nemotron-Personas-Korea")
  • Phát hành theo giấy phép CC BY 4.0, cho phép tự do sử dụng cho cả mục đích thương mại và phi thương mại
  • Cũng có cung cấp riêng một phiên bản mở rộng có thể dùng trực tiếp trong NeMo Data Designer

8 bình luận

 
dongho42 1 giờ trước

Hữu ích đấy!

 
calmlake79 8 giờ trước

Tôi cũng đang định đăng lên GeekNews một lần..

https://manyperson.com/

Tôi đang xây dựng một dịch vụ persona liên quan. Tương tự, tôi đã sử dụng dữ liệu MDIS và tận dụng Gemini.

 
civilian 6 giờ trước

https://github.com/civilian7/korean-people-persona

Do nhu cầu cá nhân,
tôi đã tạo và đăng một chương trình Python có thể chuyển đổi dữ liệu đã công khai sang sqlite3
và một mẫu máy chủ mcp.

 

Có cảm giác là chuyện tỷ lệ thanh niên độ tuổi 20 vào đại học hệ 4 năm còn chưa tới 50% vẫn chỉ mới khá gần đây thôi, mà giờ thì có vẻ đã vượt rồi nhỉ

 

Có nhiều thống kê thú vị nhỉ

 

So với những persona mà các LLM nước ngoài tạo ra thì các persona này chân thực đến mức quá thực tế.

"Ông Park Ho-cheol là một tư vấn viên kỳ cựu tại trung tâm bảo hiểm Wonju, ngày ngày đeo headset lặng lẽ tiếp nhận hàng chục cuộc khiếu nại gay gắt, đồng thời diễn giải những điều khoản bảo hiểm phức tạp một cách dễ hiểu như thể một ông chú nhà bên đang giải thích.

"Ông đã sống hàng chục năm giữa khung cảnh yên bình bên sông Imjin ở Paju, và sau khi tốt nghiệp trung học thì lao ngay vào công trường lắp đặt đường ống, tích lũy một vốn sống sâu dày được tôi luyện bằng chính trải nghiệm cơ thể. Gần đây, ông cũng chú ý đón nhận thông tin mới bằng cách dùng smartphone để xem các bài review đồ gia dụng mới nhất hay những video về tình hình thế giới."