4 điểm bởi GN⁺ 2025-10-31 | 1 bình luận | Chia sẻ qua WhatsApp
  • Ốc tai (cochlea) xử lý âm thanh thông qua một cấu trúc vật lý tách riêng theo từng tần số bằng cách tiếp nhận các dao động sinh ra từ thay đổi áp suất không khí
  • Mỗi vị trí trên màng đáy (basilar membrane) cộng hưởng với một tần số nhất định; tần số cao phản ứng ở phần đáy cứng, còn tần số thấp phản ứng ở phần cuối mềm dẻo
  • Trong quá trình này, tế bào lông (hair cell) mở và đóng các kênh ion theo dao động để chuyển đổi thành tín hiệu điện, còn các sợi thần kinh lọc thông tin về thời gian và tần số
  • Tuy nhiên, các bộ lọc này giữ được độ phân giải thời gian, khác với biến đổi Fourier, và trên thực tế hoạt động dưới dạng trung gian giữa wavelet và Gabor
  • Cấu trúc này là một chiến lược mã hóa hiệu quả (efficient coding) giúp giảm thông tin dư thừa của âm thanh tự nhiên, và ngôn ngữ của con người chiếm một không gian thời gian-tần số đặc thù

Cấu trúc phân tách tần số của ốc tai

  • Màng nhĩ (tympanic membrane) rung theo sự thay đổi của áp suất không khí, và các xương ở tai giữa khuếch đại dao động này rồi truyền vào dịch trong ốc tai
    • Dao động di chuyển dọc theo màng đáy (basilar membrane), cộng hưởng với những tần số cụ thể tùy theo đặc tính vật lý của từng vị trí
    • Phần đáy cứng và nhẹ phản ứng với tần số cao, còn phần cuối mềm dẻo và nặng phản ứng với tần số thấp
  • Tần số cộng hưởng của màng đáy giảm theo dạng logarithmic trong không gian
    • Điều này phù hợp với đặc tính tri giác cao độ (pitch) của con người thay đổi theo thang logarit

Chuyển đổi cơ-điện của tế bào lông

  • Tế bào lông (hair cell) trên màng đáy rung theo tần số tương ứng tại vị trí đó, và chuyển động này gây ra sự đóng mở của các kênh ion
    • Cấu trúc dạng lò xo ở đầu tế bào lông hoạt động như một “trapdoor”, giải phóng chất dẫn truyền thần kinh theo tần số dao động
  • Thông qua quá trình này, dao động cơ học được chuyển thành tín hiệu điện và truyền tới dây thần kinh thính giác

Bộ lọc thính giác và độ phân giải thời gian-tần số

  • Các sợi thần kinh thính giác hoạt động như những bộ lọc trích xuất thông tin về thời gian và tần số
    • Bộ lọc tập trung trong thời gian ngắn có độ phân giải thời gian cao nhưng phân bố tần số không đồng đều
    • Bộ lọc kéo dài trong thời gian dài có độ phân giải tần số cao nhưng thông tin thời gian bị mờ đi
  • Biến đổi Fourier (Fourier transform) không có thông tin thời gian và có phân bố tần số đồng đều như hình bên phải, nhưng điều này khác với các bộ lọc thực tế của tai
  • Các bộ lọc của ốc tai là dạng trung gian giữa wavelet và bộ lọc Gabor, trong đó
    • vùng tần số cao thì tăng độ phân giải thời gian
    • còn ở vùng tần số thấp thì tăng độ phân giải tần số, tạo nên một cấu trúc bù trừ lẫn nhau

Mã hóa hiệu quả và phân tích âm thanh tự nhiên

  • Nghiên cứu của Lewicki (2002) cho thấy cấu trúc bộ lọc này là một chiến lược giảm dư thừa trong âm thanh tự nhiên
    • So sánh âm thanh môi trường, tiếng kêu động vật và giọng nói con người thông qua ICA (Independent Component Analysis) để tối đa hóa tính độc lập
    • Âm thanh môi trường và giọng nói con người cho kết quả gần với bộ lọc kiểu wavelet, còn tiếng kêu động vật gần với bộ lọc kiểu Fourier
  • Ngôn ngữ của con người chiếm một không gian thời gian-tần số riêng biệt, và
    • một số nhà nghiên cứu đề cập đến khả năng ngôn ngữ đã tiến hóa để lấp đầy những vùng mà âm thanh tự nhiên sẵn có chưa chiếm giữ

Mã hóa sinh thái và xử lý cảm giác

  • Hệ thống cảm giác hình thành phương thức mã hóa phù hợp với môi trường, và thính giác được nêu ra như một ví dụ
    • Biểu diễn phù hợp về mặt sinh thái (ecologically-relevant representation) này dựa trên sự tương tác giữa hành vi và môi trường
  • Ở phần cuối, bài viết cho biết trong các bài giảng tiếp theo trọng tâm sẽ chuyển sang các tính toán sinh lý-sinh học ở cấp độ nơron
  • Tổng thể, tai hoạt động như một hệ thống lọc hiệu quả và thích nghi, chứ không phải một biến đổi Fourier

1 bình luận

 
GN⁺ 2025-10-31
Ý kiến trên Hacker News
  • Tóm lại, tai không thực hiện biến đổi Fourier (Fourier Transform), mà thực hiện một phép biến đổi tần số được định vị theo thời gian nằm đâu đó giữa waveletGabor
    Điều này là vì âm thanh được định vị cục bộ theo thời gian
    Bài viết cũng giới thiệu giả thuyết cho rằng ngôn ngữ của con người đã tiến hóa để chiếm lĩnh vùng còn trống trong không gian tần số–thời lượng bao âm
    Có khả năng ốc tai của con người đã được tối ưu hóa cho giọng nói của con người

    • Bài này tạo cảm giác như đang dựng nên một ngụy biện người rơm quá mức
      Ai biết về xử lý tín hiệu cũng không cho rằng tai thực hiện biến đổi Fourier trên khoảng thời gian vô hạn
      Trên thực tế, tai xử lý khá giống với FFT (biến đổi Fourier nhanh), tức là tính cường độ theo từng tần số
      Wavelet hay biến đổi Gabor khác về mặt toán học, nhưng trên thực tế cho ra kết quả giống nhau đến 95~99%
      Vì vậy nếu giải thích đơn giản, có thể xem tai đang thực hiện một biến đổi Fourier rời rạc có cửa sổ
    • Ở tần số cao, tai hy sinh độ phân giải tần số để tăng độ phân giải thời gian, còn ở tần số thấp thì ngược lại
      Điều này có thể được giải thích bằng nguyên lý bất định thời gian-tần số
      Sẽ dễ hiểu hơn nếu xem bộ lọc của tai như một tập các bộ lọc tùy ý dựa trên kết quả sinh lý học
      Kích thước động vật cũng có ảnh hưởng — động vật càng nhỏ thì càng có thể phát và nghe âm ở vùng siêu âm
    • Nếu đặc tính của ốc tai người thực sự phù hợp với giọng nói của con người, thì có lẽ có thể tận dụng điều này trong mastering âm thanh lời thoại cho phim hoặc TV để làm cho thoại dễ nghe hơn
    • Có cảm giác rằng nếu tai thực sự làm biến đổi Fourier thì chắc phải chờ cả đời mới xong. Xét việc con người nghe âm thanh theo thời gian thực, rõ ràng không phải như vậy
    • Nếu mở rộng ý này thêm nữa, thì các từ và âm vị cụ thể sẽ chiếm những vùng nhất định trong không gian đánh đổi tần số–thời gian
      Ví dụ, tiếng cảnh báo kiểu “hổ đang vồ tới” và “âm thanh dỗ em bé” sẽ nằm ở những vùng khác nhau
  • Tiêu đề hơi mang tính câu click, và nội dung cũng không hoàn toàn chính xác nếu xét nghiêm ngặt
    Biến đổi Gabor hay wavelet là các dạng khái quát hóa của biến đổi Fourier, cung cấp phân tích phổ theo thời gian
    Tai thực sự đang làm điều gì đó rất mang tính Fourier (Fourier-y)

    • Tôi đồng ý là nó mang tính câu click, nhưng nếu xét chặt chẽ thì cũng không hẳn sai
      Biến đổi Fourier là vô hạn và liên tục, còn DFT là hữu hạn và rời rạc
      Có thể xem thính giác con người nằm đâu đó ở giữa, gần với chuỗi Fourier (Fourier Series) hơn
      Wavelet là một cách khác nữa, dùng dạng sóng đã biến dạng thay vì sóng sin
      Rốt cuộc, nói theo cách đời thường thì tai đúng là xử lý kiểu “Fourier”
    • Đây là bài viết của một nghiên cứu sinh giới thiệu bài báo Lewicki 2002 trong một buổi journal club
      Phần tóm tắt của bài báo ghi rõ rằng “nếu tối ưu cho âm thanh phát ra từ động vật thì nó giống biến đổi Fourier, còn nếu tối ưu cho âm thanh môi trường phi sinh học thì nó giống biến đổi wavelet”
  • Nếu muốn tìm hiểu sâu hơn thì mô hình CARFAC của Richard Lyon (Cascade of Asymmetric Resonators with Fast-Acting Compression) rất đáng tham khảo
    Đây được đánh giá là nghiên cứu mô hình hóa thính giác con người bằng kỹ thuật số chính xác nhất
    Có thể xem PDF cuốn sách của ông tại đây

    • Tài liệu rất tuyệt. Cảm ơn
  • Lập luận rằng giọng nói con người chiếm các vùng phổ ít đông đúc cũng tương đồng với cuốn 『The Great Animal Orchestra』
    Liên kết sách
    Cuốn sách bàn về việc nhiều loài đã tiến hóa để mỗi loài chiếm một hốc âm học (acoustic niche) riêng
    Nhưng việc hiện tượng này đang suy yếu do phá hủy môi trường sống thì khá buồn

    • Chim chóc cũng đã tiến hóa để chọn những thời điểm mà chúng dễ được nghe thấy hơn
      Ở thành phố là thời điểm sáng sớm trước khi có tiếng ồn giao thông, còn trong rừng là lúc muộn hơn khi tiếng côn trùng giảm xuống
    • Khi các đặc tính tiến hóa từng mang lại lợi thế trong tự nhiên biến mất, các đặc tính phù hợp với môi trường đô thị sẽ thay thế vị trí đó
      Có thể chúng sẽ tiến hóa theo đa dạng thời gian thay vì đa dạng không gian
  • Dù có sự lẫn lộn về mặt thuật ngữ, biến đổi Fourier giả định một khoảng thời gian vô hạn
    Với khoảng thời gian hữu hạn thì chuỗi Fourier là cách gọi chính xác hơn
    Cách hoạt động thực tế của tai nằm đâu đó ở giữa chuỗi Fourier và biến đổi Fourier, dưới dạng áp dụng một hàm trọng số theo thời gian
    Bài viết này chỉ ra điểm đó khá tốt

    • Cuối cùng thì tai không thực hiện một biến đổi Fourier duy nhất, mà là nhiều phép biến đổi có sự đánh đổi giữa độ phân giải thời gian và tần số
      Cũng có khả năng giọng nói của con người và cấu trúc thính giác đã đồng tiến hóa (co-evolution)
    • Tiêu đề hơi giật gân, nhưng vẫn thú vị ở chỗ nó đề cập khá tốt đến triển khai sinh lý học chi tiết của thính giác con người, ví dụ như cơ chế chuyển đổi của các lông mao trong ốc tai
  • Tai không thực hiện biến đổi Fourier trên thời gian vô hạn
    Thay vào đó, nó thực hiện các phép biến đổi rời rạc có cửa sổ, và điều này tương tự nguyên lý bất định giữa độ phân giải thời gian và tần số
    Cửa sổ dài làm tăng độ phân giải tần số và giảm độ phân giải thời gian, còn cửa sổ ngắn thì ngược lại
    Ốc tai người hoạt động theo cách tăng độ phân giải tần số ở dải thấp để phân biệt formant, và tăng độ phân giải thời gian ở dải cao để phát hiện phụ âm tắc (plosive)

    • Có lẽ ý ở đây không phải là “nguyên lý loại trừ Pauli” mà là nguyên lý bất định Heisenberg
    • Tai không lấy mẫu dữ liệu mà hoạt động như một quá trình cơ học liên tục
    • Sẽ dễ hiểu hơn nếu nghĩ đến STFT (biến đổi Fourier thời gian ngắn)
  • Màng đáy (basilar membrane) là một cấu trúc sinh học đáng kinh ngạc
    Trong xử lý âm thanh bằng máy tính thì FFT rất hữu ích, nhưng nó có giới hạn khi dùng để mô hình hóa thính giác dựa trên nhận thức thời gian của con người

  • Video cho thấy tip link và kênh ion của tế bào lông rất thú vị
    Video liên quan
    Nếu cấu trúc này bị hỏng thì có thể gây ra ù tai (tinnitus)
    Ngoài ra, tai còn có chức năng khuếch đại chủ động (active amplification), đến mức có thể làm rung tế bào bằng tín hiệu điện

  • Video trên kết thúc bằng một âm rất cao ở đoạn cuối, nên nếu đang đeo tai nghe thì cần cẩn thận

  • Vì vỏ não liên hợp thính giác ở thùy đỉnh phân biệt được tần số, nên tồn tại một biến đổi thời gian-tần số giữa tai và não
    Đây là một biến đổi rời rạc diễn ra trong thời gian hữu hạn vì sự phát xung của nơ-ron là rời rạc
    Một cách đơn giản để mở rộng tín hiệu hữu hạn thành tín hiệu vô hạn là giả định rằng tín hiệu đó lặp lại vô hạn về cả quá khứ lẫn tương lai