BrainGPT, chuyển suy nghĩ thành văn bản

(iflscience.com)

1 điểm bởi GN⁺ 2023-12-18 | 1 bình luận | Chia sẻ qua WhatsApp

Các nhà nghiên cứu tại University of Technology Sydney đã công bố công nghệ brain-to-text không xâm lấn có thể biến các câu được đọc thầm thành văn bản trên màn hình chỉ bằng sóng não EEG
Mô hình AI DeWave hoạt động mà không cần cấy ghép não hay MRI, và người dùng chỉ cần đội mũ EEG để ghi lại hoạt động não
Dù EEG có nhiều nhiễu hơn tín hiệu dựa trên cấy ghép, hệ thống vẫn đạt khoảng 0.4 theo thước đo BLEU và cho kết quả khớp động từ tốt hơn danh từ
Các lỗi như biến “the author” thành “the man” cho thấy giới hạn của hệ thống là chọn từ gần nghĩa thay vì từ chính xác
Nhóm nghiên cứu cho rằng có thể nâng độ chính xác lên 0.9; kết quả đã được công bố tại NeurIPS nhưng bản preprint trên ArXiV vẫn chưa qua bình duyệt

Thử nghiệm đọc câu chỉ bằng EEG

Nhóm nghiên cứu tại GrapheneX-UTS Human-centric Artificial Intelligence Centre của University of Technology Sydney đã thử nghiệm cách chuyển trực tiếp dạng sóng EEG thô thành ngôn ngữ
Ching-Ten Lin cho biết đây là trường hợp đầu tiên tích hợp kỹ thuật mã hóa rời rạc (discrete encoding) vào quy trình dịch brain-to-text
Những người tham gia đọc thầm các đoạn văn bản, và mô hình AI DeWave chỉ nhận đầu vào là sóng não rồi hiển thị từ lên màn hình
Kết quả này đã được chọn là spotlight paper tại NeurIPS conference, hội nghị thường niên dành cho các nhà nghiên cứu AI và machine learning

Ưu điểm của phương pháp không xâm lấn và các giới hạn hiện tại

Khác với các công nghệ brain signal-to-language trước đây, phương pháp này không cần cấy ghép não hay thiết bị MRI
- Có thể sử dụng mà không cần đầu vào bổ sung như phần mềm eye-tracking
- Nhóm nghiên cứu cũng cho rằng có thể kết hợp với các thiết bị khác
Người dùng chỉ cần đội mũ ghi lại hoạt động não bằng EEG
- Tín hiệu EEG có nhiều nhiễu hơn thông tin thu được từ implant
- Điểm số theo thuật toán BLEU vào khoảng 0.4
Yiqun Duan giải thích rằng mô hình giỏi khớp động từ hơn danh từ
- Với danh từ, mô hình có xu hướng tạo ra từ đồng nghĩa hoặc từ gần nghĩa về mặt ngữ nghĩa, như “the man” thay cho “the author”, thay vì bản dịch chính xác
- Nhóm nghiên cứu cho rằng khi não xử lý từ ngữ, những từ có ý nghĩa tương tự có thể tạo ra các mẫu sóng não giống nhau
Mục tiêu độ chính xác trong tương lai là 0.9
- Mức 0.9 có thể so sánh với các chương trình dịch ngôn ngữ truyền thống
- Thí nghiệm có 29 người tham gia, được đánh giá là nhiều hơn hơn một bậc độ lớn so với nhiều thí nghiệm dùng kỹ thuật giải mã khác
Kết quả đã được công bố tại NeurIPS, và bản preprint được đăng trên ArXiV
- Hiện vẫn chưa qua bình duyệt đồng cấp

1 bình luận

GN⁺ 2023-12-18

Ý kiến trên Hacker News

Tôi có bằng tiến sĩ về giao diện não–máy tính, từng làm việc với EEG và điện cực cấy ghép
Phần lớn nghiên cứu BCI tập trung vào việc giúp bệnh nhân liệt có thể giao tiếp trở lại
Đáng tiếc là EEG không cung cấp đủ tỷ lệ tín hiệu trên nhiễu để đạt tốc độ giao tiếp tốt ngoài các điều kiện như phòng thí nghiệm có lồng Faraday, khử nhiễu trong nhiều ngày/nhiều tuần, loại bỏ nhiễu do chuyển động mắt
Đây là giới hạn vật lý do điện trường não yếu đi khi ra ngoài hộp sọ nên không dễ khắc phục. Ví dụ, các món đồ chơi “đọc ý nghĩ” thương mại thực ra hoạt động dựa trên tín hiệu từ cơ đầu và cơ mắt
Điện cực cấy ghép cho tín hiệu tốt hơn, nhưng để trở nên khả thi về mặt thương mại thì vẫn cần nhiều vòng cải tiến nữa. Sau vài tháng, não tạo mô sẹo quanh điện cực khiến tín hiệu suy giảm, và bản thân phẫu thuật não tất nhiên cũng khá rủi ro
Thử nghiệm trên người cần được chính phủ phê duyệt nên chu kỳ lặp cũng rất chậm. Nếu một người bạn bị liệt chỉ còn cử động được mắt, tôi chắc chắn sẽ tập trung vào công nghệ theo dõi ánh mắt. Nó vượt trội mọi BCI mà tôi từng nghe đến
- Tôi tò mò bạn nghĩ gì về Neuralink của Elon
  Và cũng tò mò liệu bạn có cho rằng các thuật toán AI tốt, như trong bài viết, có thể giúp lọc bỏ hoặc diễn giải nhiều nhiễu hay không
- Gần đây tôi đã làm một xét nghiệm EEG di động kéo dài hai ngày và ghi lại mỗi khi làm những việc có thể gây nhiễu điện
  Ví dụ như đi qua máy dò kim loại hoặc chạm vào điện thoại
  Đúng như dự đoán, một trong những nguồn nhiễu lớn nhất là chạm vào điện thoại đang cắm sạc
  Những thứ như mũ beanie Faraday cho EEG có vẻ thực sự có thể hiệu quả, và nếu thêm cả video góc nhìn thứ nhất hỗ trợ thì các bác sĩ có thể lọc được rất nhiều nhiễu
- Điều này có cảm giác rất mạnh là đang quá tự tin bác bỏ một công nghệ mới là bất khả thi. Tất nhiên diễn đàn này thích những chuyện như vậy, hồi GPT cũng thế
  Bản thân bài báo này ngược lại trông như bằng chứng khá mạnh rằng khi thuật toán tốt lên, vấn đề tỷ lệ tín hiệu trên nhiễu của EEG có thể được cải thiện
- Gần đây một nhóm Thụy Sĩ–Pháp đã làm được giao tiếp giữa não và chân, và thiết bị trông cũng khá trưởng thành
  Tôi nghĩ bệnh nhân là trường hợp dây thần kinh vùng cột sống bị tổn thương. Trông như một bước tiến đầy hứa hẹn, tôi tò mò bạn nghĩ gì
  https://actu.epfl.ch/news/thought-controlled-walking-again-a...
- Tôi tin là tỷ lệ tín hiệu trên nhiễu rất tệ, nhưng vẫn rất nghi ngờ rằng nếu có đủ dữ liệu thì sẽ xuất hiện những tiến bộ đáng kinh ngạc
  Giống như việc khôi phục nội dung đã gõ từ âm thanh trong phòng có bàn phím, không nên đánh giá thấp khả năng của deep learning trong việc kéo tín hiệu ra khỏi nhiễu
  Thách thức lớn nhất có thể là chi phí tạo dữ liệu EEG có tương quan với tín hiệu tương đối cao. Vì vậy việc đưa vào mô hình hàng triệu giờ dữ liệu của những người đang nhìn hoặc xử lý các đối tượng đã biết khó có thể xảy ra
  Ngược lại, dữ liệu theo dõi ánh mắt sẽ sớm tăng vọt khi trở thành thành phần cốt lõi của phần cứng tiêu dùng mới
Đáp án đúng: Bob attended the University of Texas at Austin where he graduated, Phi Beta Kappa with a Bachelor’s degree in Latin American Studies in 1973, taking only two and a half years to complete his work, and obtaining generally excel- lent grades
Dự đoán: was the University of California at Austin in where he studied in Beta Kappa in a degree of degree in history American Studies in 1975. and a one classes a half years to complete the degree. and was a excellent grades
Chà, cái này trông giống các hệ thống chuyển giọng nói thành văn bản sơ khai của thập niên 70–80. Giao diện não đang nhanh chóng rời khỏi địa hạt khoa học viễn tưởng để trở thành hiện thực. Tôi vẫn chưa biết phải đón nhận chuyện này thế nào
- Figure 1 không phải kết quả thực tế, mà là hình minh họa thể hiện “mục tiêu” của bài báo
  Kết quả thực tế nằm ở Table 3 và tệ hơn nhiều
- Chỉ cần kết hợp mô hình đã huấn luyện với một mô hình ngôn ngữ lớn được huấn luyện trên ngôn ngữ mà người đó dự kiến sẽ nghĩ bằng, có vẻ nó có thể tốt hơn rất nhanh
  Tức là tìm điểm cân bằng giữa xử lý từ dưới lên về những gì mô hình TTS tin rằng người đó “đang nghĩ”, và xử lý từ trên xuống về những gì mô hình ngữ pháp tin rằng một người bình thường “sẽ nói tiếp theo” với cuộc hội thoại cho đến hiện tại. Giống như tân vỏ não thật sự
  Nghĩ kỹ thì, nếu có kho ngữ liệu các cuộc trò chuyện đã được chép lại của người đó, cũng có thể huấn luyện LLM theo đó. Khi ấy nó gần như tương ứng chính xác với chức năng dự đoán “người đó sẽ nói gì vào thời điểm này”
  Thậm chí có lẽ còn có thể tìm thêm các vị trí đặt miếng đệm EEG có thể đọc được kết quả điện của hoạt động AMPAR và NMDAR. Nhờ đó có thể phân biệt người đó hiện đang dựa vào mô hình phát ngôn từ trên xuống bên trong của mình đến mức nào, hay đang dùng xử lý từ dưới lên bên trong để tạo ra một câu lạ và mới mà trước đây chưa từng nghĩ tới, rồi dùng thông tin này để điều chỉnh trọng số ảnh hưởng của mô hình TTS và LLM lên đầu ra
- Nếu “không biết phải cảm thấy thế nào về chuyện này”, chúng tôi sẽ đọc thay bạn
- Nhất định phải dùng mã nguồn mở hoặc công nghệ thương mại trả phí đúng nghĩa
  Chắc chắn sẽ có ai đó tung ra BCI “miễn phí” để giám sát tối đa
- Podcast này đề cập rất hay về tương lai mà chúng ta đang lao tới
  https://www.youtube.com/watch?v=OSV7cxma6_s
  “Trong bối cảnh tất cả các công nghệ này đang phát triển với tốc độ không thể tưởng tượng nổi, nhà tương lai học đáng chú ý Peter Diamandis sẽ làm rung chuyển cách suy nghĩ của bạn, giúp bạn hình dung những khả năng và cơ hội mới cho tuổi thọ khỏe mạnh”
Có đoạn nói rằng đây “không phải là công nghệ đầu tiên có thể dịch tín hiệu não thành ngôn ngữ, nhưng là công nghệ duy nhất cho đến nay không cần cấy ghép vào não cũng không cần tiếp cận thiết bị MRI quy mô lớn”
Tôi tự hỏi liệu sau 10–20 năm nữa, khi công nghệ cảm biến đủ tốt đến mức thậm chí không cần đội mũ, có người nào sẽ nói kiểu rằng ở nơi công cộng thì không có kỳ vọng hợp lý nào về việc suy nghĩ của mình không bị đọc hay không
Công nghệ giám sát nhìn chung có xu hướng được bình thường hóa, và tôi cũng tò mò liệu có giới hạn thực tế nào cho việc nó có thể đi xa đến đâu không
- Đến lúc đó chắc chúng ta sẽ bắt đầu đội mũ giấy bạc
- Ngay cả khi không phải là đọc tín hiệu não, chỉ bằng xử lý dữ liệu tổng hợp, chủ thể xử lý tập trung cũng có thể biết hầu hết mọi thứ về bạn
  Hơn 10 năm trước đã có câu chuyện rằng thuật toán chương trình khách hàng thân thiết của Target đã nhận ra một thiếu nữ mang thai trước cả khi cô ấy nói với gia đình, dựa trên các tương quan trong thay đổi mua sắm, chẳng hạn như chuyển từ nến thơm sang nến không mùi
  Nếu có thể lấy dữ liệu mạng xã hội, theo dõi khuôn mặt/ánh nhìn từ CCTV, dữ liệu con quay hồi chuyển của điện thoại, lịch sử mua hàng, lịch sử tìm kiếm, và cả dữ liệu tương tự của những người quen có liên hệ, thì với một bộ dữ liệu so sánh đủ rộng, người ta có thể tìm ra đủ loại bí mật ẩn giấu
  Nó giống nỗi sợ “điện thoại của tôi đang nghe lén cuộc trò chuyện”. Thực ra nó không nghe, nhưng điều đáng lo hơn là ngay từ đầu nó không cần nghe lén mà vẫn phác họa rất chính xác rốt cuộc bạn sẽ nói gì
- https://en.m.wikipedia.org/wiki/The_Hood_Maker
- Chúng ta vẫn điều khiển máy tính theo cách giống thập niên 1970, tức bằng bàn phím và màn hình
  Tôi không kỳ vọng nhiều
Điều này rất ấn tượng và hữu ích, đồng thời cũng đáng sợ
Mọi người lập tức nghĩ đến đọc tâm trí để thẩm vấn, nhưng còn việc tự phản tỉnh thì sao? Vì chúng ta không thể tự phân tích bản thân một cách hoàn toàn khách quan nên mới tồn tại nhiều hình thức giáo dục và trị liệu
Nếu có thể phân tích các mẫu hình suy nghĩ của chính mình ở bên ngoài đầu óc, đủ loại cải thiện có thể trở nên khả thi. Có thể tìm ra kỹ thuật giáo dục nào thực sự hiệu quả nhất, khách quan xác định khi nào mình tập trung nhất hoặc kém tập trung nhất, và chỉ ra chính xác những suy nghĩ lo âu bắt đầu khi nào, do điều gì kích hoạt
Hơn hết, có thể lựa chọn làm việc này một cách cá nhân, với bạn đời, hoặc trong một nhóm
Ngay cả ngày nay cũng có thể dùng fMRI như máy phát hiện nói dối bằng quét não. Tuy nhiên tính chính đáng của việc đó vẫn còn nhiều nghi vấn
https://scholarship.law.columbia.edu/cgi/viewcontent.cgi?art...
- Cách gõ vào tệp văn bản nhật ký 15 phút mỗi sáng đã tồn tại rồi, và miễn phí
- Sợ hãi là một cảm xúc mạnh; chúng ta hầu như không biết mình sẽ thu được gì từ thứ này, nhưng biết khá nhiều về những gì có thể mất
- Ghi lại tự động nghe có vẻ tuyệt
  Điều khó không chỉ là tự phản tỉnh, mà còn là phải nhớ những điều cần phản tỉnh và ghi lại sự kiện để sau này phân tích. Điều này khả thi với giả định rằng có thể tin vào độ chính xác
- Không dễ nghĩ ra lợi ích của việc các suy nghĩ riêng tư biến mất
  Thật đáng ngạc nhiên là dù lỗ hổng đạo đức của vấn đề này lớn như vũ trụ, người ta vẫn có thể nhảy thẳng sang nói về ưu điểm
  Nhưng có lẽ đó là bản chất của người lạc quan về công nghệ
Tôi nhớ đến Silent Talk của DARPA 14 năm trước
Mục tiêu là “cho phép giao tiếp giữa người dùng trên chiến trường mà không cần lời nói phát ra, thông qua phân tích tín hiệu thần kinh”
https://www.engadget.com/2009-05-14-darpa-working-on-silent-...
- Nhận dạng lời nói không phát âm cũng đã được nghiên cứu lâu như vậy
Điều này rất ấn tượng và hữu ích, đồng thời cũng đáng sợ
Có vẻ nó sẽ giúp ích cho bệnh nhân đột quỵ, nhưng đồng thời tôi tưởng tượng nó cũng có thể gây rắc rối vì có thể phát ra những suy nghĩ chưa được lọc
- Đúng vậy. Vì thế đến năm 2200, có lẽ hồ sơ xin việc sẽ được xử lý nhanh bằng cách phân tích trực tiếp suy nghĩ
  Có Neuralink thì không vấn đề gì. Chỉ cần tải thẳng dấu vết suy nghĩ lên là được
  Dù có suy nghĩ sai trái cũng không cần lo. Có trường cải tạo giúp thay đổi trạng thái tâm trí
  Đừng quên rằng bạn phải hạnh phúc. Buồn bã là bị cấm
  Hiện giờ là chỉ đọc, nhưng còn ghi thì sao?
  Điều này cũng có thể mở ra những khả năng mới giống Matrix ngoài đời thực
  Mà bạn đã nghe về Lightspeed Briefs chưa?
  Dĩ nhiên bản thân nghiên cứu là tuyệt vời và sẽ trở nên hữu ích. Chỉ là về dài hạn, khả năng bị lạm dụng chính trị là cực kỳ lớn
- Cơ quan thực thi pháp luật và nhà tuyển dụng hẳn sẽ rất thích
  Với bệnh nhân hội chứng khóa trong, đây là lợi ích tích cực khó tưởng tượng nổi, nhưng đồng thời cũng là câu chuyện khiến người ta nghĩ “đừng phát minh Torment Nexus nữa!”
- Dù vậy, việc cuối cùng có thể nói về những suy nghĩ chưa được lọc của chúng ta là gì, chúng ta được kỳ vọng kiểm soát hoặc trau chuốt chúng đến mức nào, và làm sao để làm điều đó theo cách có ích về mặt tâm lý, có lẽ vẫn là điều đáng mừng
- Hãy tưởng tượng đeo thứ này khi tranh luận giữa các ứng viên tổng thống hoặc khi giải thích dự luật; nó có thể cải thiện dân chủ đáng kể và giúp mọi người biết họ thực sự đang bỏ phiếu cho điều gì
- Những suy nghĩ chưa được lọc cũng không quá xa với các vấn đề hiện có như một số dạng hội chứng Tourette
Nếu tôi không bỏ sót điều gì đó lớn, thì một màn trình diễn đối chứng mù trong đó đối tượng thử nghiệm viết từ ra giấy rồi sau đó so sánh kết quả sẽ thuyết phục hơn
Đáng tiếc là màn trình diễn trong bài trông như thứ mà một ảo thuật gia chuyên nghiệp hoặc mentalist cũng có thể làm được
Đúng là chúng ta đang tiến gần hơn tới giao diện não, nhưng trường hợp này có gì đó không ổn
Hãy giả sử vài năm nữa có ai đó tuyên bố đã phát minh ra máy quét sân bay có thể phát hiện “ý nghĩ xấu”. Nhưng không có cách nào kiểm chứng, cũng không ai chịu trách nhiệm về dương tính giả hay âm tính giả. Kết quả là đúng như những gì người vận hành nói
Nếu đủ nhiều người chấp nhận nó đến mức không phản kháng, thậm chí còn tấn công những người bị phát hiện, thì đâu là thật không còn quan trọng nữa. Nó chỉ trở thành một nghi thức ma thuật đồng cảm mà mọi người cùng tham gia. Cảm giác như trong ký ức gần đây cũng có những ví dụ về động lực tương tự
Tôi tò mò liệu tư duy phi ngôn ngữ có khả thi không
Dựa trên một bộ dữ liệu tín hiệu gắn với các hoạt động hằng ngày, liệu có thể biết được một con chó đang nghĩ gì hoặc mơ gì không
Việc xuất ra biểu diễn của những trải nghiệm qua cơ thể có vẻ là một bài toán khó để làm đúng và diễn giải đúng. Tuy vậy, các bộ dữ liệu tín hiệu gắn với trải nghiệm cơ thể có thể được chú thích một cách dễ và vững hơn bằng mô tả ngôn ngữ nhờ các mô hình thị giác-ngôn ngữ
Khi đó mô hình đọc tâm trí chó có thể dự đoán và xuất ra những mô tả ngôn ngữ đó
Hãy tưởng tượng bạn có thể biết cụ thể chú chó của mình muốn đi công viên nào, liệu nó có đang cảm nhận những dấu hiệu rất tinh tế ban đầu của bệnh tật hay chấn thương hay không, hoặc nó muốn bạn mua loại đồ ăn vặt nào
Nhân tiện, mô hình nền tảng mà bài báo này sử dụng có một lỗi trong mã khiến kết quả baseline bị thổi phồng
Hiện vấn đề đang được điều tra
https://github.com/duanyiqun/DeWave/issues/1
Tạm gác những hàm ý đáng sợ sang một bên, thứ này mở ra một điều rất tuyệt: giao tiếp thần giao cách cảm hai chiều
Bạn nghĩ một thông điệp rồi nghĩ “gửi”, sau đó nghe câu trả lời qua tai nghe. Nếu thêm nhân bản giọng nói, bạn còn có thể nhận tin nhắn bằng giọng của người gửi
Với người quan sát bên ngoài, việc này hoàn toàn im lặng và vô hình
- Có khi thậm chí không cần tai nghe
  Tôi rất tò mò về kết quả của việc dùng phần cứng của hệ thống này như một dạng bộ chuyển đổi. Tức là chạy ngược mô hình học máy ở đây từ văn bản mục tiêu, rồi đẩy các tín hiệu điện mức thấp thu được trở lại qua miếng dán EEG dưới dạng tín hiệu kích thích dòng điện một chiều xuyên sọ
  Nếu kết quả là người đó “nghe” được văn bản ấy như suy nghĩ ngôn ngữ bằng giọng nói trong tâm trí của chính mình, thì sẽ cực kỳ thú vị
- Vô hình, ngoại trừ việc bạn phải gắn 72 đầu dò EEG lên đầu
- 20 năm trước tôi không thể tưởng tượng sẽ có ngày smartphone trở nên hơi nhàm chán
  Khi đó GameBoy Color là thứ tuyệt nhất trên đời
  Tomb Raider trên PsOne trông như độ phân giải cao, mà thực ra khái niệm độ phân giải cao còn chưa tồn tại, và tôi nghĩ chúng ta đã đạt đến đỉnh cao của trò chơi
  Apple Pro One đang cố gắng không gian hóa máy tính, còn chúng ta thì thấy thần giao cách cảm thật ngầu
  Sẽ thật tuyệt nếu có thể chạy trong rừng hoặc lặn biển mà vẫn lập trình bằng ý nghĩ, mỗi lần 10 giây
  Sẽ thật tuyệt nếu nhận được một hình ảnh do người khác tạo ra trong tâm trí, khiến nó hiện ra trước mắt, rồi chia sẻ với những người xung quanh rằng “này, xem Julia làm gì kìa”
  Thật ra điều này giống hệt những gì đã diễn ra rồi, chỉ là tức thời hơn. Thay smartphone bằng tâm trí, thay màn hình bằng môi trường, là bạn đã bước vào thế giới tương lai đó
  Nếu nó trông ngầu chỉ vì sự mới lạ, thì chẳng phải quay lại đục code bằng thẻ đục lỗ hoặc gõ từng dòng bằng ed trong terminal cũng ngầu sao
  Vài năm trước tôi chuyển từ làm nhạc bằng DAW sang 10 chiếc synthesizer thập niên 70–84 và máy băng, thấy ngầu hơn nhiều và không có ý định quay lại
  Nhưng tôi có tạo ra nhanh như trước không? Không
  Lý do tôi muốn viết code chỉ bằng tâm trí và các màn hình ảo lơ lửng, ngoài vài ngày thấy ngầu vì mới lạ, chỉ có một
  Vì tôi muốn làm việc ít hơn, chính xác hơn là muốn ít ở nơi làm việc hơn
  Nhưng thực tế tôi sẽ bị yêu cầu tạo ra nhiều việc hơn. Làm việc chỉ bằng sức mạnh tâm trí, với 5–6 màn hình ảo nổi quanh mình, sẽ trở thành điều bắt buộc
  Và chỉ có thế. Cho đến khi một phát minh mới khác lại trông ngầu
- Tôi không thể kiểm soát suy nghĩ của mình 100%, nên chắc chắn sẽ không dùng
  Ví dụ như ý nghĩ xâm nhập, bài hát cứ lặp trong đầu, hay bí mật
- Hãy cẩn thận với điều mình mong muốn
  Hậu quả ngoài ý muốn của công nghệ này sẽ vượt xa trí tưởng tượng

BrainGPT, chuyển suy nghĩ thành văn bản

Thử nghiệm đọc câu chỉ bằng EEG

Ưu điểm của phương pháp không xâm lấn và các giới hạn hiện tại

Bài viết liên quan

1 bình luận

Ý kiến trên Hacker News