10 điểm bởi xguru 2024-04-11 | 5 bình luận | Chia sẻ qua WhatsApp
  • Dự án mới của Bellard, người tạo ra FFMPEG/QEMU
  • TSAC là một tiện ích nén âm thanh, cung cấp chất lượng âm thanh tốt trong khi đạt bitrate rất thấp như mono 5.5kb/s hoặc stereo 7.5kb/s ở 44.1kHz
  • TSAC có thể nén một bài hát stereo dài 3.5 phút thành tệp có kích thước 192KiB
  • Để hoạt động nhanh cần GPU Nvidia; cũng hỗ trợ chỉ dùng CPU nhưng tốc độ chậm

Thông tin kỹ thuật

  • TSAC dựa trên phiên bản đã được sửa đổi của Descript Audio Codec mở rộng cho stereo và một mô hình Transformer để tăng thêm tỷ lệ nén. Cả hai mô hình đều được lượng tử hóa 8 bit cho mỗi tham số
  • Mô hình Transformer được suy luận theo cách xác định và có thể tái lập, nên kết quả không phụ thuộc vào mẫu GPU hoặc CPU cụ thể hay số lượng luồng được cấu hình. Điều đó có nghĩa là các tệp nén có thể được giải nén bằng những cấu hình phần cứng hoặc phần mềm khác nhau.

5 bình luận

 
botplaysdice 2024-04-11

Xem trên trang chủ thì thấy ông ấy cũng từng quan tâm đến LLM trong một thời gian ngắn;;;; Tự dưng nghĩ kiểu “người như vậy mà cũng đụng tới công nghệ mới nhất này à?”, rồi lại cảm thấy đúng là AI đang là xu thế áp đảo.

 
xguru 2024-04-11

Nếu cập nhật phần giới thiệu trước đây tôi từng viết về "ông chú quái vật" Fabrice Bellard thì..

Fabrice Bellard

Năm 1989 phát triển LZEXE

Năm 1996, Harissa - vừa là Java Virtual Machine vừa là trình biên dịch mã Java sang C

Năm 1997 công bố công thức xác định giá trị của một chữ số cụ thể của số pi (π) khi biểu diễn ở hệ nhị phân.
-> Tính theo cách hoàn toàn không cần tính các chữ số phía trước. Chữ số ở vị trí thứ 1 nghìn tỷ là "1"
https://en.wikipedia.org/wiki/Bellard%27s_formula

Năm 1998 công bố TinyGL - một triển khai OpenGL nhỏ gọn, có thể nhúng

Năm 2000 công bố FFMpeg. Hiện đang được phần lớn các trình phát video mà chúng ta xem sử dụng.

Năm 2000 giành chiến thắng IOCCC với mã C 448 byte để tìm số nguyên tố lớn nhất. Số nguyên tố này là số lớn nhất từng được phát hiện cho đến năm 2016.

Năm 2001 công bố Tiny C Compiler - trình biên dịch C siêu nhẹ

Năm 2002 công bố QEmacs - bản sao Emacs siêu nhẹ. Có thể render và chỉnh sửa HTML/XML/CSS2 theo kiểu WYSIWYG (tích hợp sẵn engine trình duyệt riêng)

Năm 2003 công bố QEMU - trình giả lập CPU có khả năng ảo hóa phần cứng

Năm 2004 công bố TinyCC Boot Loader - bootloader có thể khởi động bằng cách biên dịch trực tiếp nhân Linux

Năm 2005 công bố trình tạo tín hiệu DVB-T: có thể phát sóng TV kỹ thuật số từ máy desktop thay cho thiết bị phát sóng đắt tiền. Cái này không công khai mã nguồn

Năm 2009 lập kỷ lục thế giới khi tính được 2,7 nghìn tỷ chữ số sau dấu thập phân của π. Nghe nói ông ấy đã tính trong 131 ngày bằng chính máy desktop của mình.
-> Ông nói mục đích không phải vì hứng thú với những con số lớn, mà chỉ là một thử thách lập trình máy tính.

Năm 2011 công bố JSLinux. Linux chạy trong trình duyệt web.

Năm 2019 công bố QuickJS JavaScript Engine - engine JavaScript nhỏ, nhanh và có thể nhúng

Năm 2022 công khai TextSynth, một SaaS được tạo bằng gpt2tc (GPT-2)

Ngoài ra còn có BPG, định dạng ảnh dựa trên HEVC có tỷ lệ nén tốt hơn JPG (cung cấp JavaScript decoder nên có thể dùng trên mọi trình duyệt)

Ông cũng triển khai trạm gốc 4G LTE/5G NR giá rẻ trên nền tảng PC, và đã thương mại hóa nó thông qua công ty của mình là Amarisoft

Là kiểu người mà mỗi việc ông làm ra đều khiến người ta chỉ có thể kinh ngạc không hiểu sao một người lại có thể làm được ngần ấy thứ.

 
mdisprgm 2024-04-11

Wow..

 
botplaysdice 2024-04-11

Có lần trong một bài đăng trên HN về đoạn mã do người này viết...

Có người hỏi: “Bellard không đăng bài ở đây (HN) à?”, rồi có những câu trả lời kiểu như: “Người năng suất đến mức đó thì có đời nào lại vào đây ngồi viết bài chứ”... haha

Đúng là quái vật thật....

 
xguru 2024-04-11

Ý kiến trên Hacker News

Tóm tắt:

  • Có nhiều phản hồi tích cực về TSAC, codec âm thanh mới của Bellard. Đặc biệt, hiệu năng ở bitrate thấp của nó có vẻ vượt trội so với các codec hiện có.
  • Khi làm hỏng tệp nén của TSAC, sẽ cho ra những kết quả thú vị. Âm thanh ở chế độ Fast và chế độ thường khác nhau.
  • Để xử lý thời gian thực thì cần GPU NVIDIA, và việc giải mã trên thiết bị di động có thể là gánh nặng. Có vẻ việc sử dụng trên các hệ thống nhúng cấu hình thấp sẽ bị hạn chế.
  • Kích thước tệp nén của bộ giải mã TSAC lên tới 237MB, khiến nhiều người thấy khó hiểu. Có ý kiến đặt câu hỏi liệu các mẫu âm thanh có được nhúng trong bộ giải mã hay không.
  • Có người tò mò muốn so sánh với các codec hỗ trợ bitrate thấp hơn như Codec2.
  • Có bình luận về TSAC từ nhà phát triển DAC (codec nền tảng của TSAC). Cách cải tiến bằng Transformer được xem là khá thú vị.
  • Cách TSAC hoạt động khá giống với các mô hình AI tạo nhạc. Một số mô hình đưa token vào language model để tạo nhạc, số khác thay thế quá trình token hóa bằng cách cung cấp biểu diễn liên tục cho mô hình Diffusion.
  • Có người đặt câu hỏi về phương pháp đánh giá mang tính xác định và có thể tái lập của TSAC. Họ thắc mắc liệu nó có dùng floating point và concurrency hay không. Việc port sang GPU AMD có thể ảnh hưởng đến hành vi tất định.
  • Phần lớn công nghệ nén media đều tập trung vào các kịch bản bitrate thấp. Có người tò mò mức cải thiện ở bitrate cao sẽ ra sao, ví dụ như chênh lệch hiệu năng của AV1 ở 10Mbps so với AAC 256kbps.