- Ốc tai (cochlea) xử lý âm thanh thông qua một cấu trúc vật lý tách riêng theo từng tần số bằng cách tiếp nhận các dao động sinh ra từ thay đổi áp suất không khí
- Mỗi vị trí trên màng đáy (basilar membrane) cộng hưởng với một tần số nhất định; tần số cao phản ứng ở phần đáy cứng, còn tần số thấp phản ứng ở phần cuối mềm dẻo
- Trong quá trình này, tế bào lông (hair cell) mở và đóng các kênh ion theo dao động để chuyển đổi thành tín hiệu điện, còn các sợi thần kinh lọc thông tin về thời gian và tần số
- Tuy nhiên, các bộ lọc này giữ được độ phân giải thời gian, khác với biến đổi Fourier, và trên thực tế hoạt động dưới dạng trung gian giữa wavelet và Gabor
- Cấu trúc này là một chiến lược mã hóa hiệu quả (efficient coding) giúp giảm thông tin dư thừa của âm thanh tự nhiên, và ngôn ngữ của con người chiếm một không gian thời gian-tần số đặc thù
Cấu trúc phân tách tần số của ốc tai
- Màng nhĩ (tympanic membrane) rung theo sự thay đổi của áp suất không khí, và các xương ở tai giữa khuếch đại dao động này rồi truyền vào dịch trong ốc tai
- Dao động di chuyển dọc theo màng đáy (basilar membrane), cộng hưởng với những tần số cụ thể tùy theo đặc tính vật lý của từng vị trí
- Phần đáy cứng và nhẹ phản ứng với tần số cao, còn phần cuối mềm dẻo và nặng phản ứng với tần số thấp
- Tần số cộng hưởng của màng đáy giảm theo dạng logarithmic trong không gian
- Điều này phù hợp với đặc tính tri giác cao độ (pitch) của con người thay đổi theo thang logarit
Chuyển đổi cơ-điện của tế bào lông
- Tế bào lông (hair cell) trên màng đáy rung theo tần số tương ứng tại vị trí đó, và chuyển động này gây ra sự đóng mở của các kênh ion
- Cấu trúc dạng lò xo ở đầu tế bào lông hoạt động như một “trapdoor”, giải phóng chất dẫn truyền thần kinh theo tần số dao động
- Thông qua quá trình này, dao động cơ học được chuyển thành tín hiệu điện và truyền tới dây thần kinh thính giác
Bộ lọc thính giác và độ phân giải thời gian-tần số
- Các sợi thần kinh thính giác hoạt động như những bộ lọc trích xuất thông tin về thời gian và tần số
- Bộ lọc tập trung trong thời gian ngắn có độ phân giải thời gian cao nhưng phân bố tần số không đồng đều
- Bộ lọc kéo dài trong thời gian dài có độ phân giải tần số cao nhưng thông tin thời gian bị mờ đi
- Biến đổi Fourier (Fourier transform) không có thông tin thời gian và có phân bố tần số đồng đều như hình bên phải, nhưng điều này khác với các bộ lọc thực tế của tai
- Các bộ lọc của ốc tai là dạng trung gian giữa wavelet và bộ lọc Gabor, trong đó
- ở vùng tần số cao thì tăng độ phân giải thời gian
- còn ở vùng tần số thấp thì tăng độ phân giải tần số, tạo nên một cấu trúc bù trừ lẫn nhau
Mã hóa hiệu quả và phân tích âm thanh tự nhiên
- Nghiên cứu của Lewicki (2002) cho thấy cấu trúc bộ lọc này là một chiến lược giảm dư thừa trong âm thanh tự nhiên
- So sánh âm thanh môi trường, tiếng kêu động vật và giọng nói con người thông qua ICA (Independent Component Analysis) để tối đa hóa tính độc lập
- Âm thanh môi trường và giọng nói con người cho kết quả gần với bộ lọc kiểu wavelet, còn tiếng kêu động vật gần với bộ lọc kiểu Fourier
- Ngôn ngữ của con người chiếm một không gian thời gian-tần số riêng biệt, và
- một số nhà nghiên cứu đề cập đến khả năng ngôn ngữ đã tiến hóa để lấp đầy những vùng mà âm thanh tự nhiên sẵn có chưa chiếm giữ
Mã hóa sinh thái và xử lý cảm giác
- Hệ thống cảm giác hình thành phương thức mã hóa phù hợp với môi trường, và thính giác được nêu ra như một ví dụ
- Biểu diễn phù hợp về mặt sinh thái (ecologically-relevant representation) này dựa trên sự tương tác giữa hành vi và môi trường
- Ở phần cuối, bài viết cho biết trong các bài giảng tiếp theo trọng tâm sẽ chuyển sang các tính toán sinh lý-sinh học ở cấp độ nơron
- Tổng thể, tai hoạt động như một hệ thống lọc hiệu quả và thích nghi, chứ không phải một biến đổi Fourier
1 bình luận
Ý kiến trên Hacker News
Tóm lại, tai không thực hiện biến đổi Fourier (Fourier Transform), mà thực hiện một phép biến đổi tần số được định vị theo thời gian nằm đâu đó giữa wavelet và Gabor
Điều này là vì âm thanh được định vị cục bộ theo thời gian
Bài viết cũng giới thiệu giả thuyết cho rằng ngôn ngữ của con người đã tiến hóa để chiếm lĩnh vùng còn trống trong không gian tần số–thời lượng bao âm
Có khả năng ốc tai của con người đã được tối ưu hóa cho giọng nói của con người
Ai biết về xử lý tín hiệu cũng không cho rằng tai thực hiện biến đổi Fourier trên khoảng thời gian vô hạn
Trên thực tế, tai xử lý khá giống với FFT (biến đổi Fourier nhanh), tức là tính cường độ theo từng tần số
Wavelet hay biến đổi Gabor khác về mặt toán học, nhưng trên thực tế cho ra kết quả giống nhau đến 95~99%
Vì vậy nếu giải thích đơn giản, có thể xem tai đang thực hiện một biến đổi Fourier rời rạc có cửa sổ
Điều này có thể được giải thích bằng nguyên lý bất định thời gian-tần số
Sẽ dễ hiểu hơn nếu xem bộ lọc của tai như một tập các bộ lọc tùy ý dựa trên kết quả sinh lý học
Kích thước động vật cũng có ảnh hưởng — động vật càng nhỏ thì càng có thể phát và nghe âm ở vùng siêu âm
Ví dụ, tiếng cảnh báo kiểu “hổ đang vồ tới” và “âm thanh dỗ em bé” sẽ nằm ở những vùng khác nhau
Tiêu đề hơi mang tính câu click, và nội dung cũng không hoàn toàn chính xác nếu xét nghiêm ngặt
Biến đổi Gabor hay wavelet là các dạng khái quát hóa của biến đổi Fourier, cung cấp phân tích phổ theo thời gian
Tai thực sự đang làm điều gì đó rất mang tính Fourier (Fourier-y)
Biến đổi Fourier là vô hạn và liên tục, còn DFT là hữu hạn và rời rạc
Có thể xem thính giác con người nằm đâu đó ở giữa, gần với chuỗi Fourier (Fourier Series) hơn
Wavelet là một cách khác nữa, dùng dạng sóng đã biến dạng thay vì sóng sin
Rốt cuộc, nói theo cách đời thường thì tai đúng là xử lý kiểu “Fourier”
Phần tóm tắt của bài báo ghi rõ rằng “nếu tối ưu cho âm thanh phát ra từ động vật thì nó giống biến đổi Fourier, còn nếu tối ưu cho âm thanh môi trường phi sinh học thì nó giống biến đổi wavelet”
Nếu muốn tìm hiểu sâu hơn thì mô hình CARFAC của Richard Lyon (Cascade of Asymmetric Resonators with Fast-Acting Compression) rất đáng tham khảo
Đây được đánh giá là nghiên cứu mô hình hóa thính giác con người bằng kỹ thuật số chính xác nhất
Có thể xem PDF cuốn sách của ông tại đây
Lập luận rằng giọng nói con người chiếm các vùng phổ ít đông đúc cũng tương đồng với cuốn 『The Great Animal Orchestra』
Liên kết sách
Cuốn sách bàn về việc nhiều loài đã tiến hóa để mỗi loài chiếm một hốc âm học (acoustic niche) riêng
Nhưng việc hiện tượng này đang suy yếu do phá hủy môi trường sống thì khá buồn
Ở thành phố là thời điểm sáng sớm trước khi có tiếng ồn giao thông, còn trong rừng là lúc muộn hơn khi tiếng côn trùng giảm xuống
Có thể chúng sẽ tiến hóa theo đa dạng thời gian thay vì đa dạng không gian
Dù có sự lẫn lộn về mặt thuật ngữ, biến đổi Fourier giả định một khoảng thời gian vô hạn
Với khoảng thời gian hữu hạn thì chuỗi Fourier là cách gọi chính xác hơn
Cách hoạt động thực tế của tai nằm đâu đó ở giữa chuỗi Fourier và biến đổi Fourier, dưới dạng áp dụng một hàm trọng số theo thời gian
Bài viết này chỉ ra điểm đó khá tốt
Cũng có khả năng giọng nói của con người và cấu trúc thính giác đã đồng tiến hóa (co-evolution)
Tai không thực hiện biến đổi Fourier trên thời gian vô hạn
Thay vào đó, nó thực hiện các phép biến đổi rời rạc có cửa sổ, và điều này tương tự nguyên lý bất định giữa độ phân giải thời gian và tần số
Cửa sổ dài làm tăng độ phân giải tần số và giảm độ phân giải thời gian, còn cửa sổ ngắn thì ngược lại
Ốc tai người hoạt động theo cách tăng độ phân giải tần số ở dải thấp để phân biệt formant, và tăng độ phân giải thời gian ở dải cao để phát hiện phụ âm tắc (plosive)
Màng đáy (basilar membrane) là một cấu trúc sinh học đáng kinh ngạc
Trong xử lý âm thanh bằng máy tính thì FFT rất hữu ích, nhưng nó có giới hạn khi dùng để mô hình hóa thính giác dựa trên nhận thức thời gian của con người
Video cho thấy tip link và kênh ion của tế bào lông rất thú vị
Video liên quan
Nếu cấu trúc này bị hỏng thì có thể gây ra ù tai (tinnitus)
Ngoài ra, tai còn có chức năng khuếch đại chủ động (active amplification), đến mức có thể làm rung tế bào bằng tín hiệu điện
Video trên kết thúc bằng một âm rất cao ở đoạn cuối, nên nếu đang đeo tai nghe thì cần cẩn thận
Vì vỏ não liên hợp thính giác ở thùy đỉnh phân biệt được tần số, nên tồn tại một biến đổi thời gian-tần số giữa tai và não
Đây là một biến đổi rời rạc diễn ra trong thời gian hữu hạn vì sự phát xung của nơ-ron là rời rạc
Một cách đơn giản để mở rộng tín hiệu hữu hạn thành tín hiệu vô hạn là giả định rằng tín hiệu đó lặp lại vô hạn về cả quá khứ lẫn tương lai