Giọng nói của tôi đã bị đánh cắp bằng AI
(jeffgeerling.com)- Jeff Geerling phát hiện phần thuyết minh có giọng rất giống mình trong một video hướng dẫn quảng bá trên YouTube của Elecrow, nhưng anh chưa từng trực tiếp nói những câu đó
- Giọng nói gây tranh cãi dường như đã được dùng trong nhiều loạt video về ESP32 và RP2040, và Jeff nghi ngờ các video YouTube của mình có thể đã bị dùng cho công cụ nhân bản giọng nói AI
- Elecrow từng có quan hệ với Jeff vì anh đã đánh giá CrowPi 2 và đây là công ty sản xuất phụ kiện Raspberry Pi cùng thiết bị điện tử, nên bối cảnh mối quan hệ này phức tạp hơn một tranh chấp đơn thuần với bên ngoài
- Tiền lệ pháp lý về việc tự thân nhân bản giọng nói AI trái phép vẫn chưa rõ ràng, nhưng việc dùng giọng nói của người khác trong công việc thương mại mà không có sự đồng ý có liên hệ với vụ Midler vs. Ford
- Jeff trước tiên đã gửi email cho Elecrow để yêu cầu giải thích và gỡ video thay vì gửi yêu cầu xóa hoặc tiến hành pháp lý, đồng thời cho rằng doanh nghiệp nên giải quyết bằng cách thuê diễn viên lồng tiếng hoặc hợp tác chính thức
Giọng nói giống Jeff Geerling được nghe thấy trong video của Elecrow
- Jeff Geerling nghe một đoạn clip YouTube của Elecrow và nhận thấy phần thuyết minh nghe khá quen thuộc, rất giống giọng của mình
- Video đó không phải từ kênh Jeff Geerling mà là video của Elecrow, và Jeff chưa từng nói những câu xuất hiện trong đó
- Có người đã gửi liên kết video Elecrow qua email để báo rằng âm thanh nghe lạ, và Jeff cho rằng vì kênh của mình cũng nói về cùng chủ đề nên một số người xem có thể đã nghĩ anh đồng ý góp giọng cho video của Elecrow
- Elecrow là công ty sản xuất thiết bị điện tử và phụ kiện Raspberry Pi, và trước đây Jeff từng đánh giá CrowPi 2 của Elecrow
- Trước đây Jeff chưa từng có quan hệ xấu với Elecrow, nên anh vẫn chưa thể khẳng định 100% rằng việc này là có chủ đích
- Trong phiên bản video của bài viết này, có thể so sánh trực tiếp đoạn clip của Elecrow với giọng nói tự nhiên của Jeff
Nghi vấn nhân bản giọng nói AI và cách phản ứng
- Dù thừa nhận rất khó chứng minh, Jeff cho rằng nhiều khả năng Elecrow đã đưa các video YouTube của anh vào một công cụ nhân bản giọng nói AI và dùng giọng đó để thuyết minh cho nhiều video hướng dẫn quảng bá
- Ví dụ như loạt ESP32 và loạt RP2040
- Sau vụ OpenAI bị cho là đã thực chất sao chép giọng của Scarlett Johansson, Jeff từng kỳ vọng các công ty sẽ cẩn trọng hơn khi dùng giọng AI cho demo sản phẩm hoặc video hướng dẫn, nhưng trường hợp này lại đi ngược kỳ vọng đó
- Theo hiểu biết của Jeff, chưa có tiền lệ pháp lý rõ ràng về việc nhân bản giọng nói AI trái phép, nhưng anh nhắc đến Midler vs. Ford như một tiền lệ cho thấy không được dùng giọng nói của người khác trong công việc thương mại nếu không có sự đồng ý
- Việc phản ứng thông qua luật sư sẽ tốn kém, và cũng không chắc việc nhân bản giọng nói không có đồng thuận có vi phạm điều khoản dịch vụ của YouTube hay không
- Yêu cầu của Jeff rất rõ ràng
- Không được đánh cắp giọng nói hay hình ảnh của người khác để gắn vào sản phẩm hoặc video
- Các thương hiệu nên thuê diễn viên lồng tiếng hoặc trả tiền cho nhà sáng tạo nội dung để hợp tác
- Jeff đã gửi email cho Elecrow, yêu cầu gỡ ít nhất 2 loạt video có chứa giọng AI giống mình
- Anh hỏi liệu giọng đó có được cố ý tạo ra để giống mình hay không
- Anh cũng yêu cầu xác nhận liệu giọng nói đó có được huấn luyện từ video hoặc nội dung âm thanh của mình hay không
- Anh muốn bắt đầu bằng email trước khi gửi yêu cầu xóa lên YouTube hoặc tiến hành pháp lý, và vì trước đây chưa từng có vấn đề nên vẫn để ngỏ khả năng đây là một sai sót trung thực
- Tuy vậy, việc Elecrow biết đến kênh của Jeff là điều chắc chắn
- Từ năm 2020 đến nay, Jeff đã trao đổi hơn 43 email với 5 nhân sự marketing của Elecrow
- Trong số đó, 22 email là trong năm nay
- Vào ngày 2 tháng 4 năm 2024, một nhân sự marketing của Elecrow đã gửi email nói muốn thảo luận về quan hệ đối tác trả phí
- Trong cập nhật ngày 23 tháng 9, CEO của Elecrow đã phản hồi, và Jeff đã đăng một bài viết tiếp theo chứa phản hồi đó cùng suy nghĩ của anh về việc nhân bản giọng nói AI
1 bình luận
Ý kiến trên Hacker News
Nỗi sợ về AI có thể khác nhau với mỗi người, nhưng điều đặc biệt đáng sợ là trường hợp ngụy tạo như thể ai đó đã nói lời báng bổ bằng AI
Ở đất nước tôi, chỉ cần trông có vẻ như một sự xúc phạm rất nhỏ thôi, dù là thật hay tưởng tượng, cũng đã có thể xuất hiện đám đông hành hình vì tội báng bổ. Họ kéo đến, hành hình rồi đốt xác, còn gia đình thì phải lẩn trốn, đồng thời đưa ra thông điệp video phủ nhận nạn nhân và tha thứ cho đám đông, trong khi đám đông chia nhau ăn đồ ngọt
Chuyện này đã như vậy ngay cả trước khi AI trở nên dễ tiếp cận. Có thể nói đây là “chuyện của nước kém phát triển”, nhưng nó sẽ không dừng ở đó mà sẽ lan ra. Không thể đưa dao cho trẻ mới biết đi rồi trách nó vì đã đâm người
Bất kể danh tiếng, bảo mật hay bản quyền ra sao, chuyện này có thể khiến người ta mất mạng, và không có công cụ nào để kiểm soát
https://x.com/search?q=blasphemy
Tôi sợ tương lai
Nếu chúng vẫn bị hạn chế, bị quản lý hoặc khó tiếp cận, mọi người sẽ tiếp tục nghĩ rằng video và bản ghi âm là thứ không thể bị giả mạo. Nhưng nếu việc sao chép giọng nói trở thành một trò đùa vui, dễ làm bằng ứng dụng 1 đô la, và để thanh thiếu niên thử gọi điện chọc ghẹo, thì nó có thể sớm ăn sâu vào nhận thức đại chúng
Tuần trước mẹ tôi, 70 tuổi, hỏi liệu có nên xóa lời chào thư thoại không. Bà lo ai đó có thể lấy cái đó để ăn cắp giọng nói, và tôi khá bất ngờ, chắc bà nghe đâu đó trên Fox
Vài năm tới sẽ khó khăn, nhưng tôi hy vọng nó qua nhanh
Hiện giờ, nếu là người dùng có khá nhiều bình luận thì rất có thể có thể bị gỡ ẩn danh bằng phân tích tương quan. Dù không chính xác 100%, văn phong vẫn có thể bị đánh cắp. Có thể là quá thận trọng, nhưng chẳng có gì đảm bảo rằng chúng ta sẽ không tiến vào khu rừng tăm tối, và cũng có lý do để nghĩ rằng ta đang đi theo hướng đó
Đồng thời tôi cũng tự hỏi liệu không rút vào bóng tối có phải là một cách không đầu hàng hay không
Giống như trên mạng xã hội kiểu Reddit, trong vài năm người ta từng làm trò “truy tìm thủ phạm” hay “công khai danh tính”, rồi các quản trị viên nhận ra đám đông trên mạng thường xuyên sai nên thường cấm luôn
Nhưng sẽ có rất nhiều người bị hại trước khi luật được thông qua hoặc trước khi việc video giả có khả năng cao hơn video thật trở thành nhận thức phổ thông. Có thể còn lâu hơn 5 năm, và vấn đề là luật thường chỉ được làm ra sau khi thiệt hại với ai đó đã được chứng minh
Tôi không hiểu vì sao dùng AI lại có thể né được án lệ Midler vs. Ford
Thậm chí nếu không phải thuê diễn viên lồng tiếng khác bắt chước giọng, mà là dùng AI để sao chép giọng nói, thì lập luận bào chữa còn có vẻ yếu hơn
Ở nhiều bang khác, luật và án lệ liên quan đến cái gọi là quyền công khai hình ảnh/danh tính nằm rải rác rất khác nhau. Việc có nên công nhận khái niệm đó và nên vạch ranh giới ra sao vẫn còn rất xa mới đạt được đồng thuận phổ quát giữa các bang
“...nhận xét này áp dụng cho bài hát, đặc biệt là bài hát của ca sĩ nổi tiếng. Ca sĩ bộc lộ chính mình trong bài hát. Mạo danh giọng hát của cô ấy là cướp biển danh tính của cô ấy...”
“Chúng tôi không cần, và cũng không phán quyết rằng, mọi hành vi bắt chước giọng nói trong quảng cáo hàng hóa đều có thể bị kiện. Chúng tôi chỉ phán rằng khi một giọng nói đặc trưng của ca sĩ chuyên nghiệp nổi tiếng bị cố ý bắt chước để bán sản phẩm, thì người bán đã chiếm đoạt thứ không thuộc về mình...”
Cảm ơn vì đã chỉ ra án lệ, nhưng án lệ chỉ là điểm khởi đầu, rốt cuộc vẫn phải thiết lập những nguyên tắc vượt lên trên án lệ
Khi công nghệ mang lại những năng lực chưa từng có tiền lệ, xã hội либо phải vạch ra những ranh giới để nó vận hành có lợi cho con người thay vì gây hại, либо cứ để thế giới tiến gần hơn tới chỗ kẻ mạnh muốn làm gì thì làm còn người yếu hơn hay những người chỉ đủ chạy một chiếc Camry thì phải tự gánh chịu
Nó vẫn đang được xây dựng ở Hạ viện nhưng đã có sự ủng hộ lưỡng đảng. Bạn có thể liên hệ dân biểu khu vực của mình để đề nghị đồng bảo trợ hoặc bỏ phiếu ủng hộ
https://www.cbsnews.com/losangeles/news/california-bills-pro...
https://salazar.house.gov/media/press-releases/salazar-intro...
https://files.constantcontact.com/1849eea4801/695cfd71-1d24-...
Bạn sẽ phải tìm một tổ chức phi lợi nhuận chính trị như ACLU để gánh chi phí cho các vòng kháng cáo lặp đi lặp lại, đồng thời chịu đựng sự chú ý và đưa tin tiêu cực của truyền thông trong suốt thời gian đó
Tôi hoàn toàn đồng ý rằng tầng lớp Camry cần có người đứng ra bảo vệ, nhưng một trong những nguyên tắc cốt lõi của thực hành hiện đại là để mọi người tự chọn mức đóng góp mà họ có thể gánh nổi. Hãy khuyến khích, nâng đỡ và tiếp thêm can đảm, nhưng đừng khiến họ xấu hổ
Dù sao thì chỉ riêng bài blog này có lẽ cũng đã đủ. Hầu như không ai đứng về phía chuyện ăn cắp giọng nói của người khác, và khác với việc cào dữ liệu huấn luyện từ kho lưu trữ của NYT hay deviantart, chuyện này tạo cảm giác sai trái một cách trực giác mạnh hơn nhiều. Có lẽ sẽ không kiếm được khoản bồi thường lớn nhờ bêu tên công khai, nhưng có vẻ đó cũng không phải điều họ muốn
Nếu mô hình ngôn ngữ lớn là cỗ máy remix tối thượng, thì liệu bất kỳ ai có RAG có phải đều là DJ số không nhỉ
Với thông tin số, giờ thậm chí còn khó biết trộm cắp là gì. Thiếu tiền lệ pháp lý nên cảm giác như thời miền Viễn Tây của quyền sở hữu trí tuệ và luật bản quyền
Nếu ngay cả một siêu sao như Scarlett Johansson cũng chỉ có thể viết một bức thư đau đớn vì OpenAI cố bắt chước persona trong “Her”, thì một kẻ lập dị ngách tương đối bình thường có thể làm gì đây
Có lẽ cũng chỉ như Geerling, vừa buồn vừa giận vừa thất vọng, rồi nói kiểu “xin hãy giữ quy tắc danh dự với thiện ý” mà thôi
Trong trường hợp đó, danh tiếng ấy cũng có thể dùng để phản công. Ví dụ, khó mà tưởng tượng chuyện này cuối cùng sẽ tốt cho danh tiếng của Elecrow. Lần sau khi thấy tên công ty này, tôi sẽ nghĩ “à, công ty lừa người đó”, và điều đó không tốt cho họ
Điều đáng lo hơn là khi nó được dùng để triệt hạ người bị ghét. Chẳng hạn có thể hình dung một sinh viên không hài lòng về điểm số dùng nhân bản giọng nói để dựng lên như thể giảng viên đại học đã nói điều gì đó đủ để bị sa thải, dù thực ra không làm gì sai. Nếu nhân bản giọng nói trở nên cực kỳ tốt, những người như vậy sẽ tự bảo vệ mình thế nào? Sẽ rất khó, ít nhất cho đến khi nó trở nên phổ biến đến mức bản ghi âm không còn được tin cậy nữa
Trộm cắp đòi hỏi phải có nạn nhân mất đi lợi ích từ món đồ bị lấy cắp. Sao chép-dán chỉ làm sụp đổ một hệ thống như nhà bằng bài, nơi người ta đe dọa tống người khác vào tù và nghèo đói nếu họ dùng các meme đã bị tuyên bố sở hữu mà không trả tiền
Nếu tôi làm bồi thẩm cho một vụ vi phạm bản quyền mà bị đơn là con người chứ không phải doanh nghiệp, tôi sẽ vô hiệu hóa bồi thẩm đoàn trong mọi trường hợp
Chẳng phải gần đây Eric Schmidt đã nói cứ đi ăn cắp trước đi, nếu thành công thì để luật sư xử lý sau sao?[0,1]
[0] https://x.com/alexeheath/status/1823873344133062680
[1] Chính xác hơn thì ông ấy nói hãy ăn cắp một cách hợp pháp, nhưng tôi cũng chẳng biết điều đó có nghĩa là gì
Nếu thế giới cứ liên tục nhảy lên từ bên dưới, đá vào chân bạn và cố hất bạn ngã, có lẽ vấn đề là ở chỗ bạn đang đứng
Với các đối tượng có giao diện
.copy(), trộm cắp không được định nghĩa. Dù vậy, nhìn kỹ thì nó vẫn còn đóMọi người nên điều chỉnh kỳ vọng chứ không phải luật pháp. Máy tính đã thay thế nhân viên thu ngân, giờ diễn giọng nói thay thế diễn viên lồng tiếng. Danh tiếng thật ra không có nhiều ý nghĩa, mà nếu chỉ người nổi tiếng mới giữ được việc làm thì chẳng phải điều đó cũng bất công sao
Ngay cả khi bỏ phần AI ra, tôi vẫn thấy đây chẳng phải là bóp méo nghiêm trọng quan điểm của Jeff hoặc sử dụng hình ảnh của anh ấy mà không xin phép sao
Việc dùng giọng nói của anh ấy tạo ra một sự bảo chứng ngầm và bị thao túng cho sản phẩm, và điều đó có cảm giác rất sai trái. Có lẽ luật để xử lý kiểu trường hợp này đã tồn tại từ rất lâu trước khi có AI
Từ trước đến nay vẫn luôn có những người bắt chước giọng rất giỏi, và phần lớn họ dùng khả năng đó cho hài kịch hoặc châm biếm chứ không phải để bóp méo quan điểm của người khác. Tôi không phải luật sư, nhưng chuyện này có vẻ có nền tảng pháp lý khá vững, và việc đại diện sai cho người khác có lẽ là thứ pháp luật tương đối dễ xử lý
Điểm khác biệt là sự dân chủ hóa. Từ chỗ chỉ có cực ít người sở hữu khả năng này, giờ gần như ai có máy tính cũng có thể làm điều tương tự. Vì vậy việc kiểm soát trở nên khó hơn rất nhiều, và nếu việc giải quyết đòi hỏi hành động pháp lý thì có lẽ sẽ vượt quá khả năng của những người như Jeff Geerling
Có thể là tôi kỳ quặc, nhưng tôi không nghĩ giọng đó giống anh ấy đến mức như vậy
Nó có hơi giống nhưng vẫn khác, cao hơn một chút, giọng mũi hơn và ngữ điệu cũng hơi khác
https://www.youtube.com/watch?v=UMofZIT9FcQ
Sự khác biệt về ngữ điệu và cao độ vừa nói đơn giản là do đây là giọng do AI tạo ra, không phải phát ngôn của con người
Có lẽ phía bên kia sẽ nói kiểu họ đã trộn thêm các giọng dễ nghe hơn để tạo ra khác biệt đủ lớn
Vấn đề là ai sẽ quyết định phải khác đến mức nào mới không còn là chiếm dụng hình tượng/giọng nói tương tự nữa. “Ông vua của giọng mọt công nghệ phổ thông” sẽ tuyên bố có sự tương đồng quá mức, còn phía bị nghi ngờ thì sẽ không công khai toàn bộ quy trình
Việc tinh chỉnh giọng AI bằng tai rồi cũng sẽ sớm khả thi, nên ngay cả khi yêu cầu đừng đưa giọng tiêu biểu của một lĩnh vực nào đó vào dữ liệu huấn luyện thì cũng chưa chắc an toàn hơn. Ý tưởng về một cục quản lý quyền giọng nói nghe thật u ám
Là một YouTuber công nghệ nhỏ, tôi cũng từng làm việc với Elecrow
Theo tôi biết thì không chỉ Elecrow mà nhân viên của nhiều công ty khác cũng được thưởng, thăng chức hoặc hưởng hoa hồng nếu chốt được quan hệ hợp tác dài hạn hay video cộng tác với YouTuber. Có thể ai đó đã nghĩ rằng kênh của Jeff khá nổi trong lĩnh vực này, nên nhân bản giọng Jeff sẽ là một ý tưởng khôn ngoan
Ở thời điểm này, với Elecrow thì đây chắc chắn không phải kiểu quảng bá tốt, và tôi cũng tò mò liệu họ có thừa nhận là cố ý hay không
Ý tưởng cho rằng tông giọng bị đánh cắp mới là điều quan trọng có lẽ là một trong những góc nhìn thiển cận nhất trong làn sóng đầu tư AI. Nó được thúc đẩy bởi kiểu tư duy Hollywood rằng “đừng bao giờ tạo ra thứ gì mới cả”
Khoảng 5 năm nữa, giọng nói AI sẽ được cá nhân hóa và thậm chí dễ nghe hơn giọng người thật. Nó không bị giới hạn bởi sự mệt mỏi của dây thanh, có thể thay đổi tùy ý, và có thể dễ dàng tinh chỉnh bằng cách khảo sát mức độ tương tác của người dùng
Trong tương lai, điều cốt lõi sẽ là tinh chỉnh đầu ra giọng nói và quan sát mức độ tương tác
Đó chính là lý do họ chọn đúng giọng của anh ấy
Giọng AI có thể khó phân biệt về mặt thẩm mỹ, thậm chí còn được ưa thích hơn, nhưng nó không thể mang theo danh tiếng hay tính chân thực. Những thứ đó vốn hiếm nên mới có giá trị. Ngược lại, trong biển nội dung đại trà chất lượng thấp bị hàng hóa hóa, nhu cầu đối với những con người có giá trị thương hiệu riêng có lẽ sẽ không giảm mà còn tăng. Đó cũng là lý do dạo này influencer kiếm được rất nhiều tiền từ quảng cáo
“Đào tạo” cơ à
Ngay bây giờ nó đã cung cấp nhiều kỹ thuật sao chép giọng nói, bắt đầu chỉ từ 30 giây đầu vào âm thanh. Bản 30 giây thì có phần giống giọng mục tiêu nhưng chưa hoàn toàn trùng khớp, còn nếu đưa vào nhiều giờ âm thanh thì nghe như người thật. Ngoài ra còn có thể điều chỉnh giọng bằng một vài tham số, hoặc tạo mới chỉ bằng việc định nghĩa tham số
Giọng trong video, xét theo chất lượng, có thể là giọng “sao chép tức thì” được tạo từ vài giây đầu vào. Muốn sao chép cao cấp hơn thì cần chứng minh đó là giọng của chính mình
[1] https://elevenlabs.io
Trong bối cảnh đó, các công ty có thể muốn mua giọng của họ. Không chỉ vì nó dễ nghe, mà giá trị của sự quen thuộc cũng rất lớn. Ví dụ, ElevenLabs từng mua quyền giọng nói của người đã qua đời từ gia đình họ
Nhưng ngoài những bối cảnh đặc thù mang màu sắc hoài niệm như vậy, tôi không hiểu vì sao lại không tạo giọng tổng hợp ngay từ đầu
Mọi người sẽ coi đó là chuyện vui cho đến khi có ai đó tạo ra một bản ghi âm như thể người khác đang thú nhận tội phạm, rồi nó được dùng trước tòa
Đây chính là phần tôi ghét ở AI
Nhưng nếu cả video lẫn âm thanh đều không còn được chấp nhận làm chứng cứ thì chúng ta phải làm gì
Dù vậy, trong cả hai trường hợp, có vẻ điều này quan trọng hơn ở tòa án dư luận so với tòa án thực tế
Khi đánh giá một công nghệ mới hữu ích, khó có thể nói rằng mối quan tâm chính là bảo toàn hình thức của chứng cứ
Có hàng trăm công cụ sao chép giọng nói, nên việc xuất hiện nội dung dùng giọng sao chép là điều tất yếu
Nó tương tự như việc sử dụng trái phép hình ảnh của ai đó. Các nền tảng và đội ngũ vận hành đã có sẵn quy trình báo cáo và gỡ bỏ. Có lẽ giọng nói cũng cần một cơ chế tương tự