74 điểm bởi GN⁺ 13 ngày trước | 10 bình luận | Chia sẻ qua WhatsApp
  • Bộ dữ liệu persona tiếng Hàn quy mô lớn đầu tiên phản ánh phân bố thực tế về nhân khẩu học, địa lý và tính cách, được xây dựng dựa trên dữ liệu công từ Cục Thống kê Hàn Quốc, Tòa án Tối cao và Cơ quan Bảo hiểm Y tế Quốc gia Hàn Quốc
  • Gồm 1 triệu bản ghi với 7 triệu persona, được cấu thành từ 26 trường như tên, giới tính, tuổi, tình trạng hôn nhân, trình độ học vấn, nghề nghiệp, khu vực cư trú, v.v.
  • Được tạo bằng NeMo Data Designer, hệ thống tạo dữ liệu tổng hợp cấp doanh nghiệp, cùng mô hình google/gemma-4-31B-it
  • So với các bộ dữ liệu persona hiện có, bộ này phản ánh trung thực hơn người cao tuổi, khu vực nông thôn, và phân bố đa dạng về học vấn, nghề nghiệp, qua đó góp phần giảm thiên lệch cho các mô hình AI chủ quyền
  • Có thể tự do sử dụng cho cả mục đích thương mại và phi thương mại theo giấy phép CC BY 4.0

Vấn đề của các persona Hàn Quốc do LLM hiện có tạo ra

  • Persona là mô tả về các đặc điểm, sở thích, tính cách, nghề nghiệp riêng của một cá nhân; tập dữ liệu gồm nhiều persona cần phản ánh đúng đặc trưng văn hóa và phân bố của nhóm đó
  • Ngay cả khi đưa cho LLM nước ngoài prompt như “hãy tạo hồ sơ nhân vật thực tế và đa dạng của xã hội Hàn Quốc”, kết quả vẫn bị méo mó nghiêm trọng
    • Có trường hợp 40% persona chọn salad là món ăn yêu thích nhất, hoặc sinh ra các kết quả phi thực tế như “tôi điều hành một vườn táo ở Andong, Gyeongsangbuk-do”
  • Khi lấy mẫu ngẫu nhiên 2.000 persona Hàn Quốc bằng Claude Opus 4.7, người ta phát hiện thiên lệch cực đoan trong phân bố nghề nghiệp khi 77,6% được tạo thành “nông dân trồng thanh yên”
  • Với GPT-5.4, 90,1% lại được tạo thành “nhân viên chăm sóc điều dưỡng”
  • Thiên lệch không phù hợp với thực tế Hàn Quốc tồn tại ở mọi khía cạnh như phân bố đô thị, cấu trúc gia đình, hình thức sở hữu nhà ở, sở thích ẩm thực, v.v.

Tổng quan và mục tiêu của bộ dữ liệu

  • Là bộ dữ liệu persona tổng hợp mã nguồn mở được thiết kế để phản ánh rộng rãi sự đa dạng và đặc trưng của dân số Hàn Quốc
  • Được viết bằng tiếng Hàn để ai cũng có thể đọc dễ dàng
  • Mục tiêu chính là giảm dữ liệu thiếu hụt và thiên lệch tiềm ẩn trong dữ liệu huấn luyện khi xây dựng hệ thống AI chủ quyền
  • Tập trung giải quyết thiên lệch của các bộ dữ liệu persona hiện có dùng để tạo dữ liệu tổng hợp, đặc biệt theo các trục tuổi tác, khu vực, trình độ học vấn và nghề nghiệp

Nguồn dữ liệu và cách tạo

  • Sử dụng dữ liệu điều tra dân số từ KOSIS (Cổng Thống kê Quốc gia của Cục Thống kê Hàn Quốc) liên quan đến giới tính, khu vực, ngành nghề, nghề nghiệp, du lịch và hoạt động giải trí
  • Sử dụng dữ liệu năm sinh, giới tính, tên từ Tòa án Tối cao, thông tin khám sức khỏe từ Cơ quan Bảo hiểm Y tế Quốc gia, và kết quả khảo sát hành vi tiêu dùng thực phẩm từ Viện Nghiên cứu Kinh tế Nông thôn
  • NAVER Cloud cung cấp dữ liệu ban đầu và chuyên môn lĩnh vực trong giai đoạn thiết kế
  • Sử dụng mô hình đồ thị xác suất (PGM) độc quyền, mô hình google/gemma-4-31B-it theo giấy phép Apache-2.0, cùng phương pháp kiểm chứng và đánh giá của NeMo Data Designer
  • Bao quát các yếu tố như tên, tuổi, giới tính, khu vực, hôn nhân, gia đình, nhà ở, học vấn, chuyên ngành, hoạt động kinh tế, thu nhập, nhóm ngành, nhóm nghề, huyết áp, đường huyết, vòng eo, BMI, du lịch, hoạt động giải trí, loại nhà hàng ưa thích, tần suất đặt đồ ăn và ăn ngoài, v.v.
  • Tất cả dữ liệu đều phản ánh phân bố thực tế nhưng được tổng hợp hoàn toàn bằng phương pháp nhân tạo, mọi sự giống với người có thật chỉ là ngẫu nhiên

Quy mô và cấu trúc bộ dữ liệu

  • Gồm 1 triệu bản ghi với tổng cộng 1,7 tỷ token (trong đó persona chiếm 1 tỷ token)
  • 26 trường: 7 trường persona, 6 trường thuộc tính persona, 12 trường ngữ cảnh nhân khẩu học/địa lý và 1 định danh duy nhất
  • Bao phủ đầy đủ 17 thành phố/tỉnh252 thành phố/quận/huyện
  • Có hơn 209.000 tổ hợp họ tên duy nhất (118 họ, 21.400 tên)
  • 7 loại persona: nghề nghiệp, thể thao, nghệ thuật, du lịch, ẩm thực, gia đình, tóm tắt
  • Thuộc tính persona bổ sung: nền tảng văn hóa, kỹ năng và chuyên môn, mục tiêu/nguyện vọng nghề nghiệp, sở thích/mối quan tâm

Phân bố tên

  • Dữ liệu tên hiện đang được công khai ở Hàn Quốc chỉ giới hạn từ năm 2008 trở đi
  • Nemotron-Personas-Korea là bộ dữ liệu công khai đầu tiên dựa trên dữ liệu tên đầy đủ của Hàn Quốc từ năm 1940
  • Giải quyết vấn đề gán tên không phù hợp với bối cảnh thời đại như “ông/bà Kim Ha-yul 82 tuổi?” hay “Kim Soon-ja 21 tuổi?”
  • Phân bố họ gồm Kim (21,5%), Lee (14,7%), Park (8,5%), Jeong (4,8%), Choi (4,7%), với 5 họ phổ biến nhất chiếm khoảng 54% tổng số
  • Tên phản ánh xu hướng đặt tên theo thế hệ dựa trên giới tính và năm sinh
    • Nữ: cùng tồn tại các tên phổ biến ở thế hệ lớn tuổi như Yeong-suk, Jeong-suk, Sun-ja và các tên của thế hệ trẻ như Ji-young, Yoo-jin, Ji-hyeon
    • Nam: các tên hiện đại như Ji-hoon, Hyeon-woo, Jun-ho đứng nhóm đầu
  • Tên xuất hiện nhiều nhất toàn bộ là Kim Young-sook, phù hợp với kết quả điều tra thực tế

Phân bố độ tuổi

  • Có cấu trúc dạng chum phình ở giữa, phản ánh trung thực cấu trúc dân số hiện tại khi tỷ lệ sinh thấp và già hóa dân số cùng diễn ra
  • Nhóm dày nhất là 50~64 tuổi (tỷ trọng khoảng 0,09), tương ứng thế hệ bùng nổ dân số những năm 1960~70
  • Ở nhóm người cao tuổi từ 70 trở lên, tỷ lệ nữ cao hơn nam một cách rõ rệt
    • Trong nhóm 80~89 tuổi, tỷ lệ nữ cao gấp khoảng 1,52 lần nam

Phân bố tình trạng hôn nhân

  • Tỷ lệ chưa kết hôn ở nhóm 19~24 tuổi là trên 95%, giảm từ 55% xuống 31% ở độ tuổi 30, phù hợp với xu hướng kết hôn muộn với tuổi kết hôn lần đầu trung bình là 31~33
  • Tỷ lệ có vợ/chồng tăng lên 64% từ tuổi 35 và đạt đỉnh 78% ở cuối tuổi 50
  • Tình trạng góa bụa tăng mạnh từ độ tuổi 60, đạt 66% ở cuối tuổi 80 và 74~81% ở tuổi 90
  • Ly hôn cao nhất ở nhóm tuổi 50 đến đầu 60, khoảng 12%, phù hợp với xu hướng “ly hôn tuổi xế chiều”

Phân bố loại hộ gia đình

  • Ở mọi độ tuổi, hộ vợ chồng + con chưa kết hôn chiếm tỷ trọng cao nhất, đạt đỉnh 63,6% ở tuổi 19
  • Sau tuổi 50, hộ vợ chồng tăng mạnh và đạt đỉnh 45,7% ở nhóm 65~69 tuổi
  • Hộ một người có mô hình hai đỉnh, ở đầu tuổi 20 (15~22%) và sau 75 tuổi (21~32%)
  • Hộ mẹ + con chưa kết hôn (5~14%) cao hơn hộ cha + con chưa kết hôn (2~5%), cho thấy bất đối xứng giới tính trong hộ gia đình đơn thân

Phân bố trình độ học vấn

  • Ở thế hệ trẻ 20~34 tuổi, tỷ lệ tốt nghiệp đại học 4 năm vượt 50%; nếu tính cả cao đẳng thì khoảng 75% có trình độ từ đại học trở lên
  • Ở nhóm từ 80 tuổi trở lên, không đi học (36%) và tiểu học (37%) chiếm 73% tổng số
  • Theo khu vực, tỷ lệ cử nhân trở lên cao nhất lần lượt là Sejong (49,0%), Seoul (45,1%), Daejeon (39,7%)
    • Sejong chịu ảnh hưởng từ làn sóng công chức và nhân sự nghiên cứu có học vấn cao chuyển đến sau khi khu phức hợp hành chính chính phủ được dời về đây

Phân bố nghề nghiệp

  • Chuyên gia và nhân viên văn phòng chiếm tỷ trọng lớn nhất, phản ánh cơ cấu kinh tế dựa trên dịch vụ và tri thức
  • Trong nhóm bán hàng, nhân viên bán hàng mua sắm trực tuyến đứng đầu với 19,8%, cho thấy tỷ trọng thương mại điện tử cao
  • Trong nhóm lao động giản đơn, tập trung vào bảo vệ tòa nhà (21,3%) và nhân viên vệ sinh tòa nhà (16,0%)
  • Quân nhân chiếm khoảng 1% tổng lao động có việc làm, trong đó lục quân chiếm hơn 2/3

Ràng buộc kỹ thuật và giới hạn

  • Do hạn chế thực tế về tính sẵn có, tính cập nhật của dữ liệu công khai và mô hình PGM, bộ dữ liệu áp dụng giả định độc lập giữa một số biến nhất định
    • Ví dụ: khi gán nghề nghiệp chi tiết, giả định giới tính, thu nhập, học vấn, chuyên ngành... ảnh hưởng độc lập và không phản ánh tương tác giữa chúng
  • Thống kê bao quát về gender không tồn tại trong dữ liệu công khai trong nước nên chưa được phản ánh
  • Chỉ bao gồm persona người trưởng thành từ 19 tuổi trở lên
  • Loại trừ persona liên quan đến khách hàng doanh nghiệp trong các lĩnh vực như tài chính, y tế

Kết quả cải thiện so với cách phụ thuộc vào LLM

  • Khi chỉ phụ thuộc vào LLM, phân bố đô thị bị lệch về Suncheon, Changwon, v.v.; còn Nemotron-Personas-Korea phản ánh phân bố tỷ lệ dân số thực tế như Hwaseong và Namyangju của Gyeonggi, hay Songpa-gu của Seoul
  • Cấu trúc gia đình được mở rộng từ kiểu gần như chỉ có hộ một người sang nhiều dạng đa dạng như sống cùng vợ/chồng, vợ/chồng + con, sống cùng cha mẹ
  • Hình thức sở hữu nhà ở cũng được sửa từ 100% nhà sở hữu sang tỷ lệ thực tế giữa sở hữu và thuê
  • Phân bố món ăn cũng chuyển từ gần như chỉ có salad sang văn hóa ẩm thực thực tế như bibimbap, món Nhật, gà, galbi, samgyeopsal, tteokbokki, món ăn vặt, bánh mì, doenjang-jjigae, jajangmyeon

Ví dụ phản ánh văn hóa

  • “Jeong Jun, 33 tuổi, kiểu ‘kangaroo-jok’, giải tỏa mệt mỏi sau một ngày bằng samgyeopsal và soju cùng đồng nghiệp trên đường tan làm” — sống ở Songpa-gu, Seoul; tốt nghiệp đại học 4 năm; chưa kết hôn; sống cùng cha mẹ, phản ánh hiện tượng người trẻ sống dựa vào cha mẹ trong xã hội Hàn Quốc
  • “Bà Kim Chun-hee 73 tuổi ở Ulsan, thích nhạc Sim Soo-bong và đăng ảnh lên phòng chat nhóm gia đình” — nữ, không đi học, có chồng, thất nghiệp, phản ánh dân số nữ cao tuổi

Vì sao bộ dữ liệu persona hữu ích cho LLM

  • Mỗi con người đều sở hữu tri thức riêng có, và persona là một biểu hiện cô đọng của tri thức riêng đó
    • Ví dụ: persona thợ điện có thể là phương tiện giúp rút ra tri thức liên quan đến điện từ LLM
  • Trong dữ liệu tổng hợp, tính đa dạng là một chỉ số cực kỳ quan trọng, và con người chính là nguồn đa dạng tốt nhất
  • Có thể tạo nhiều dữ liệu huấn luyện tổng hợp đa dạng theo từng persona dưới dạng như “hãy tạo bài toán suy luận logic liên quan đến {persona được cho}”

Ví dụ ứng dụng thực tế

  • Cải thiện hiệu năng dùng công cụ nói chung: đưa đồng thời bộ công cụ và persona cho user-LLM để tổng hợp dữ liệu và huấn luyện. Nemotron-Nano-9B-v2-Japanese áp dụng phương pháp này và đạt hạng 1 bảng xếp hạng Nejumi. Phương pháp tương tự cũng đã được đưa vào Nemotron Nano v3 và Super v3
  • Cải thiện an toàn mô hình: được dùng làm dữ liệu seed cho bộ dữ liệu Sensitive-safety-category-refusals (SSCR). Bộ SSCR được đưa vào nemotron-safety-blend

Cách sử dụng và giấy phép

  • Có thể tải bằng thư viện Python datasets với lệnh load_dataset("nvidia/Nemotron-Personas-Korea")
  • Theo giấy phép CC BY 4.0, được tự do sử dụng cho cả mục đích thương mại và phi thương mại
  • Ngoài ra còn có phiên bản mở rộng có thể dùng trực tiếp trong NeMo Data Designer

10 bình luận

 
calmlake79 13 ngày trước

Tôi cũng đang định đăng lên GeekNews một lần..

https://manyperson.com/

Tôi đang xây dựng một dịch vụ persona liên quan. Tương tự, tôi đã sử dụng dữ liệu MDIS và tận dụng Gemini.

 
recast7838 13 ngày trước

Cảm ơn về tài liệu.

 
rlaaudgjs5638 13 ngày trước

Cảm ơn vì tài liệu hữu ích. Thì ra persona được xây dựng theo cách như thế này.

 

Hữu ích đấy!

 

https://github.com/civilian7/korean-people-persona

Do nhu cầu cá nhân,
tôi đã tạo và đăng một chương trình Python có thể chuyển đổi dữ liệu đã công khai sang sqlite3
và một mẫu máy chủ mcp.

 

Có cảm giác là chuyện tỷ lệ thanh niên độ tuổi 20 vào đại học hệ 4 năm còn chưa tới 50% vẫn chỉ mới khá gần đây thôi, mà giờ thì có vẻ đã vượt rồi nhỉ

 

Có nhiều thống kê thú vị nhỉ

 

So với những persona mà các LLM nước ngoài tạo ra thì các persona này chân thực đến mức quá thực tế.

"Ông Park Ho-cheol là một tư vấn viên kỳ cựu tại trung tâm bảo hiểm Wonju, ngày ngày đeo headset lặng lẽ tiếp nhận hàng chục cuộc khiếu nại gay gắt, đồng thời diễn giải những điều khoản bảo hiểm phức tạp một cách dễ hiểu như thể một ông chú nhà bên đang giải thích.

"Ông đã sống hàng chục năm giữa khung cảnh yên bình bên sông Imjin ở Paju, và sau khi tốt nghiệp trung học thì lao ngay vào công trường lắp đặt đường ống, tích lũy một vốn sống sâu dày được tôi luyện bằng chính trải nghiệm cơ thể. Gần đây, ông cũng chú ý đón nhận thông tin mới bằng cách dùng smartphone để xem các bài review đồ gia dụng mới nhất hay những video về tình hình thế giới."