不在场-S2E1 MP3


MP3是不值得被怀念的,但它指向人类文明不能回头的一次跨越,以及赛博世界的模样。 封面 by 小白免 不在场第二季的主题曲(本集结尾)来自吴卓玲,名字叫Glitch Udu。 不在场由重轻主理。介绍和常见问题,请访问 buzaichang.xyz 。 节目中使用的音乐: Ahmad Jamal - 专辑《Jazz Ahead with Ahmad Jamal》 Suzanne Vega - Tom’s Diner Show Notes: 磁带饱和效果 Tape Saturation Huffman Coding 信息熵 Information Entropy ) 降比特效果 Bitcrusher MP3发明者之一 Karlheinz Brandenburg Dieter Seitzer 感官编码 Perceptual coding 等响曲线 Equal-loudness contour 声音掩蔽 Sound Masking 带通滤波器 Band pass filter 10首用来测试算法的歌 Suzanne Vega的歌Tom’s Diner MP3格式 欢迎你赞助本节目,以增加它存在下去的概率。两种方式: 1、付费订阅不在场的会员通讯。 复制 这个链接 粘贴到微信里打开; 或者,截图下面这个二维码,然后用微信扫描这个二维码↓ 会员通讯计划的定价、权益(接收邮件+查阅历史文章+接收偶尔的bonus节目)、订阅方式都在链接的页面里。一看就懂。 *注意:2022年6月27日之前捐款超过300元并在支付宝留下邮箱的朋友是终身会员,无需再付费,可以一直收到邮件,并且可以直接用之前留的邮箱登录,查看过去的全部通讯。 2、欢迎用支付宝扫描这个二维码转账捐款。 你的留言我能看到。 从2022年6月27日开始不再支持用这个方式成为会员,加入邮件列表了。会员通讯的订阅方式请参考上一条。 如何反馈和交流? 你可以写邮件给我,地址是[email protected]

[by:whisper.cpp]

[00:00.00]所以成就的聲音是什麼樣呢?

[00:24.32]就像泛黃的老照片

[00:26.80]或者被風雨侵蝕的台階

[00:29.36]任何東西都有舊的樣子

[00:32.20]那聲音呢?

[00:33.68]這個問題特別直接的指向人類整個音樂室

[00:37.84]或者說聽覺室

[00:39.28]我們可以看樂器的變化

[00:42.32]這個麥克風和錄音設備的變化

[00:44.96]聲音生產的方式和傳輸的方式

[00:48.16]都值得討論

[00:49.16]但是最直接的一個考察的角度是觀察我們的存儲戒指和回放的設備

[00:53.44]比方說電話和廣播

[00:56.56]儘管廣播可以播放任何音樂

[00:59.84]但我們始終能夠在腦海中鎖定一種

[01:03.44]絕對屬於廣播的聲音

[01:06.08]就是那個聲音特別的直覺

[01:08.08]比如說它比其他的戒指要暗淡

[01:11.20]然後它的低頻是缺乏的

[01:13.20]然後在信號不穩定的時候

[01:15.36]它會混雜著一種絲絲沙沙的噪音

01:18.48

[01:38.16]再比如黑膠

[01:40.16]黑膠是一種密紋唱片

[01:42.16]就是細密的紋路裡

[01:44.16]一圈一圈的凹凸不平

[01:46.16]在這個槽裡面有凹凸的變化

[01:49.60]帶動了唱針傳導到喇叭

[01:52.08]然後在喇叭裡形成了振動

[01:54.08]這毫無疑問就是我們所謂的類比

[01:56.24]叫 analog

[01:57.44]這個過程因為它不涉及任何的數字

[01:59.68]所以沒有什麼二進製

[02:01.04]沒有芯片

[02:01.76]沒有處理器

[02:02.64]僅僅是在物理世界中

[02:04.08]將一種變化

[02:06.96]傳導為另外一種變化

[02:08.80]就是將凹凸

[02:10.24]轉化成了喇叭的帶動空氣的振動

[02:13.28]這讓黑膠具備了一種非常特定的成就感

[02:16.48]就像廣播的聲音

[02:18.08]它不可避免地受到信號的影響一樣

[02:20.48]就比如如果黑膠唱片它飄了

[02:23.20]就是這個唱盤它不平了

[02:25.76]彎曲了的話

[02:27.76]它會導致一種輕微的周期性跑掉的聲音

[02:30.96]因為這個轉速是均勻的

[02:32.96]可是你這曲辨

[02:34.08]讓唱針跑的一會兒快一會兒慢

[02:36.48]速度就不均勻了

[02:37.92]再比如如果唱片的文理中

[02:48.08]夾雜了一些灰塵的顆粒

[02:50.08]從微觀來看

[02:51.68]唱針會特別突兀的蹦過去

[02:54.08]就是好像被灰塵的顆粒半粒根頭一樣

[02:57.28]會形成一種任何聽黑膠的朋友

[02:59.12]都會非常非常熟悉的油炸或者蹦豆子的聲音

[03:02.24]而磁帶的原理則非常不同

[03:13.68]就是在錄音的時候

[03:15.68]音頻讓電流通過磁頭的縫隙

[03:20.48]產生強弱和方向不停的變化的磁場

[03:24.80]帶動磁帶上的磁粉被磁化

[03:28.40]形成了一個個的極性和磁性的強弱

[03:33.44]都不一樣的微型磁鐵

[03:35.28]但是連貫被記錄在這個袋子上

[03:39.12]而磁粉的分佈在低頻和高頻的位置總是不太準確

[03:43.44]這個是磁帶的物理的特點

[03:46.96]就是在磁痛量很大的時候

[03:48.32]所有的磁粉會出現那種

[03:50.56]所有磁粉都被極化

[03:52.24]導致這個信號就沒區別了

[03:54.00]比如說一米五以上的身高全算一米五

[03:57.76]這個時候你就發一溜的一米五

[03:59.28]就是一米五以上的人的身高差別都被抹平了

[04:03.68]就是信號過載了

[04:04.80]會出現一種叫做saturation

[04:06.72]也就是飽和的特點

[04:08.24]就是很多人心心念念的所謂的溫暖的聲音

[04:11.60]其實本質上是一種式針

[04:12.88]是一種特定的式針

[04:15.04]然後再加上磁帶轉速不穩定

[04:17.60]又形成一種摻音的效果

[04:19.52]最後同樣的音樂進到磁帶裡會變成這個樣子

04:23.68

[04:51.12]事情到了MD和CD的時代發生了非常非常大的變化

[04:56.24]就我們沒有辦法想像出CD的任何特點

[05:00.08]因此CD也沒法變得成就

[05:03.92]就從聽覺上來說

[05:05.20]因為CD是一種無損音頻

[05:07.76]一種無損數字音頻

[05:10.32]它這個數字說的就是跟剛才我們講的模擬是相對的

[05:14.40]因為它的本質就是零和一

[05:16.72]然後你使用它需要通過編碼和解碼的芯片或者軟件

[05:21.44]來記錄聲音或者是在線這個聲音

[05:24.40]回放這個聲音

[05:25.92]它通過記錄這個44,100Hz 16bit的音頻數據

[05:30.80]理論上它完美的保存和復現了的聲音

[05:34.00]但是這個說法絕對是不對的

[05:36.16]一會我們會談到

[05:37.44]至少在人耳能分辨的頻率裡

[05:40.40]它是不可能被污染或者篡改的

[05:42.88]損壞了的CD只會卡頓到直接無法播放

[05:47.92]比如說這打口打太深了這個CD就沒法播放了

[05:50.80]它不會體現為聲音的任何特點

[05:53.12]就是它沒有一個成就的狀態沒有這個概念

[05:57.76]是不可能的

[05:59.28]但是MP3又再一次顛倒這個邏輯

[06:02.32]它是數字格式的

[06:04.32]但是它確實具備了一種特殊的聽覺特點

[06:07.44]只不過我們完全沒有辦法把這個特點跟成就聯繫在一起

[06:12.08]MP3是一種有損壓縮的音頻格式

[06:15.92]它跟CD的區別就在於

[06:17.68]它為了壓縮數據量實質性的捨棄了一些聲音

[06:21.52]今天我們要來校真一下

[06:23.28]MP3這個格式到底對音樂做了什麼

[06:26.80]最直觀的方法呢

[06:30.80]我們去觀察MP3所謂的損耗是什麼

[06:33.36]就是MP3到底丟失了什麼

[06:35.44]壓縮前後的區別是什麼

[06:37.68]我們可以這麼幹

[06:38.96]就是把同一首歌的MP3壓縮文件和原始文件並列在兩個軌道裡

[06:44.32]時間是對齊的

[06:45.52]然後我們對這個MP3的版本做反向的處理

[06:54.16]並且疊加播放

[06:56.40]這樣如果二者的聲音是一模一樣的

[06:58.88]因為有一軌是反向了

[07:00.96]我們就會得到一個完全抵消而形成的純粹的靜音

[07:05.12]對吧

[07:05.84]但是我們這裡得到的是這樣一個聲音

[07:07.92]但是我們還是不能直接的感覺到二者的區別

[07:11.84]就是就算我們把迷底看了

[07:14.08]我們才回過頭來看迷面

[07:15.84]我們還是區分不出來MP3的壓縮

[07:18.56]到底有什麼區別

[07:20.48]你能區分我此時此刻正在怎樣用音樂的音樂呢

[07:24.32]我們還是要去看這個音樂的音樂呢

[07:26.88]我們還是要去看這個音樂的音樂呢

[07:29.44]我們還是要去看這個音樂的音樂呢

[07:32.00]我們還是要去看這個音樂的音樂呢

[07:34.56]你能區分我此時此刻正在怎樣用旋鈕不停的在

[07:39.44]這個歌的MP3版本和無損音頻版本

[07:42.24]直接來回的切換和漸變嗎

[07:44.56]對吧你是區分不出來的

[07:51.20]這就是MP3壓縮的神奇之處

[07:53.76]就是它的壓縮並不是在數學或者數字層面的

[07:57.60]它是在聽覺層面的

[07:58.88]它不是客觀的而是主觀的

[08:01.44]就是當我們明白這件事的時候

[08:04.00]就是我會感覺自己整個世界觀都動搖了

[08:07.84]因為這個事和密碼學

[08:10.64]編碼學計算機科學關係其實不是特別大

[08:14.24]但是跟人本身關係巨大

[08:16.56]我先來解釋一下什麼叫不是數字層面的壓縮

[08:19.36]這是一個我自己胡說八道的一個說法

[08:21.68]我是覺得這樣說是最貼切的

[08:23.20]因為數字音頻的本質就是我們剛才說了嘛

[08:26.24]鄰合一組成的數據

[08:27.28]就它怎麼可能存在一種叫不是數字層面的壓縮呢

[08:32.16]我們從這個古典醫生的壓縮來說起

[08:36.00]通常我們所謂理解這個數據的壓縮

[08:38.32]它在幹這麼一個事

[08:39.20]就是最粗俗的例子

[08:41.12]比如說我們有這麼一串數據

[08:43.44]77777

[08:45.36]0000215888888888

[08:48.80]這總共是22個字符

[08:51.36]我們可以把它計成這樣

[08:52.88]我們這麼計就計5×7

[08:55.20]就是5星號70星號4

[08:57.76]2158星號9

[08:59.28]這樣我們把21個字符

[09:00.88]把22個字符壓縮成了12個

[09:03.44]因為這裡面有一些星號

[09:04.72]然後我們告訴這個解碼器

[09:06.64]就是說

[09:07.28]你預著星號你就把前面的那個數字

[09:09.20]按照後面那個數字去重複那麼多變就可以了

[09:13.68]所以信息沒有變

[09:15.52]但是它被壓縮成了更短的這個字符串

[09:17.92]另外一個例子就是說假設有一段文字

[09:20.32]有一個文章裡面頻繁頻繁的出現大笨蛋這個詞

[09:23.92]特別多的大笨蛋

[09:25.44]那我們就在壓縮文件的開頭

[09:27.52]就聲明把這個大笨蛋統一計為A

[09:30.56]然後所有的大笨蛋都寫成A

[09:33.12]然後大笨蛋這三個漢字所形成的一長串的字符

[09:36.16]就可以一直被記錄一次

[09:38.88]然後裡面有一堆A

[09:40.80]然後到時候解碼的時候把A都替換成大笨蛋就得了

[09:44.00]請原諒我這種非常弱智的舉例

[09:45.92]因為我對壓縮的算法一無所知

[09:49.76]我只是想給你臨時建立一個

[09:53.20]就是對於常規意義上壓縮大概是什麼樣的一個大概感覺

[09:57.44]然後我們再來聊後面這個區別

[10:00.00]就這就是我所謂的數字層面的壓縮

[10:02.56]就是它不損失任何數據

[10:04.08]它只是讓記錄更加緊湊

[10:06.40]從而佔用更小的這個存儲和貸款

[10:08.96]但是信息是沒有損耗的

[10:11.52]事實上MP3的編碼的最後一步也是這個過程

[10:14.08]它使用了一種叫做Half-man encoding的算法

[10:17.92]如果我們只應用這個過程

[10:20.48]就是光用這個Half-man coding的話

[10:23.04]其實這個聲音文件從CD的這個數據量

[10:25.60]壓縮成這個所謂的MP3的比例

[10:28.40]壓縮比例依然是很小很小的

[10:30.24]基本跟沒壓縮一樣

[10:31.76]這個事是不成立的

[10:32.72]如果你只用Half-man encoding的話

[10:34.56]如果我們把上述的壓縮過程考慮成是

[10:38.40]對信息的濃縮的話

[10:39.92]我們會意識到說它本質上是

[10:42.24]通過讓數據變得

[10:44.80]這咋說呢就是更加後視

[10:47.36]或者說是更加緊湊和複雜

[10:50.96]來讓它變小的對嗎

[10:52.48]就這個複雜和簡單的對照

[10:54.80]指向的不是多和少

[10:56.08]而是無序的程度

[10:58.40]就是這個信息論裡面的核心概念

[11:00.56]Anterpy也就是商

[11:02.48]在這個信息論裡叫做信息商

[11:05.28]音頻這種已然就非常非常之無序

[11:08.88]信息商非常非常高的數據

[11:11.44]它就基本沒有辦法直接用上面提到的這個所謂

[11:14.88]讓數據更緊湊的方式來顯著的縮小文件體積

[11:19.12]那既然無損壓縮能做的事很有限

[11:22.32]我們就得考慮丟掉一部分的信息

[11:25.76]對吧

[11:26.40]這就好比是我們的房間太亂

[11:28.40]然後我們就想辦法去整理它

[11:30.64]我們這個把所有東西整理的特別緊湊

[11:33.68]把整理數發揮到極致

[11:35.44]我們能夠節省的空間依然是有限的

[11:37.36]就是畢竟東西太多了

[11:38.40]不能因為說你特別勤勞

[11:40.24]或者我特別會整理

[11:41.20]你就能把90坪的房子給整理成120坪米

[11:44.56]所以接下來我們要考慮就是斷捨離

[11:47.52]我們要往外扔東西

[11:50.88]CD的這個編碼叫做PCM

[11:53.04]PCM非常非常的直接

[11:54.56]它是這樣

[11:55.12]就是中時的按照固定的頻率

[11:59.04]每44,101秒它記錄一個靜態的數字

[12:04.96]對應的是這個瞬間的聲音

[12:07.20]就是沿著時間這個X軸在振動這個Y軸上的位置

[12:13.44]就是我們可以非常粗略的這麼來對應

[12:16.88]就是就是咱們這音箱的指紙盆

[12:19.92]不是音箱的這個指盆或者你耳機的這個振膜

[12:23.20]它不是在來回的振動嗎

[12:25.20]就前後振動嗎

[12:26.80]對吧時間是一個軸X軸

[12:28.96]這個振動呢

[12:30.08]它總是有一個比如說從0到6萬

[12:33.44]或者是從-5到-5就隨便你怎麼來定義

[12:36.56]它總有一個振動的範圍

[12:38.24]我們把它放在Y軸上

[12:39.84]所以這個聲音就是一個來回不來放去的曲線

[12:43.12]就沿著X軸橫著往右畫的這麼一條線

[12:47.12]然後CD就是每44,101秒記錄一個這個振動的截圖

[12:52.88]就在那個瞬間它在Y軸的哪個位置上

[12:56.32]所以雖然說是無損

[12:57.36]但是它也已經很果斷的做了兩個維度上的數據的捨棄

[13:01.20]這就是聲音從模擬信號轉號為數字信號的第一次大精簡

[13:04.64]就是頻率和比特深度

[13:06.00]頻率相當於圖片的分辨率

[13:08.08]就是越高它的文件體積就越大

[13:10.80]我們都知道比如說一平方厘米的這個像素的個數

[13:15.20]會影響到整個畫面的清晰度

[13:17.04]就是這個照片洗出來有多大

[13:19.60]那麼每秒鐘的採樣點的數量就相當於這個音頻的分辨率

[13:23.12]然而的聽覺範圍是20到2萬Hz

[13:25.84]根據耐繪色相濃採樣定律

[13:27.76]就是如果我們想要保持2萬Hz以下的頻率的信息能夠得到100%準確的重現的話

[13:35.68]因為這就是我們想幹的事

[13:36.72]我們想把聲音給臨時的保存成一堆數字

[13:41.84]然後又把這堆數字在恰當的時候又變回成聲音

[13:45.12]就是一個重現的過程

[13:46.56]那麼這個編碼和解碼的這個頻率根據信息論的要求

[13:50.72]就是它必須要在4萬Hz以上根據這個定理

[13:54.64]所以對於人耳來說CD確實是無損的

[13:57.52]因為它有4萬4千Hz的數據

[14:00.00]所以在2.2萬Hz以下的信息是能夠準確的被保存的

[14:05.04]而2.2萬Hz以上的信息確實已經被捨棄掉了

[14:09.52]但我們聽不到所以我們就不在乎

[14:12.24]當然了就是我們所說的被捨棄掉並不意味著它上方沒有信號

[14:16.64]就是你播一個CD出來的時候

[14:18.80]它在2萬2千Hz以上的位置絕對是有信號的

[14:22.72]只不過那些信號不是當初的那些信號

[14:25.28]就是此聽不見和比聽不見是不能話等號的

[14:30.08]現在此聽不見是一些錯誤的隨機的噪音

[14:33.52]但是因為我們確實聽不見所以我們根本就不在意

[14:35.68]剛才說的這個是頻率就是X軸

[14:38.00]也就是時間維度上的顆粒度

[14:39.60]那麼比特深度就類似於Y軸上的這個顆粒度

[14:43.68]它大概指的是從完全靜音到最大音量中間切了多少份

[14:49.52]它影響了單個採樣點所需要的字節數

[14:52.80]從而影響音頻文件體積的大小

[14:56.00]它類似於什麼呢?類似於圖片裡的色彩深度

[14:58.96]就所謂的HDR,HDR就是把這個色彩深度又提升了

[15:04.40]就是從最黑到最白中間到底有多少個級別的中間狀態

[15:09.20]物理世界中這個Y軸它永遠是可以無限細分的

[15:13.36]但是在數字世界裡它總的有個限度

[15:16.00]在數字世界裡就沒有任何東西是無限的

[15:18.48]它就必須是一個有限的表述

[15:21.84]而這個限度就是我們所謂的動態範圍

[15:24.88]比如說CD這個16比特的深度意味著一個採樣點有16位2進製了0和1的記錄

[15:31.28]然後呢這就意味著它這個動態範圍裡包含了2的16次方

[15:35.44]就是我們就粗略理解為音量吧

[15:38.48]就是音量有65,536個台階就這麼多個台階

[15:43.36]就最小是0最大是6,5,3,6

[15:45.36]那比這個台階更小的

[15:47.76]我的意思是說介於相鄰的兩個台階中間的

[15:52.08]本來在物理世界中顯然存在著的這個某一個狀態

[15:57.20]在這個數字音頻中就被捨棄掉了

[16:00.00]就是你相鄰的兩台階中間就不能再有台階了

[16:02.96]它就是把連續變成離散對吧

[16:05.12]好那麼想要壓縮這個音頻數據最直接的想法

[16:08.72]是在剛才說的這兩個鋼性的指標上縮水

[16:11.76]就是在X軸上扔數據和在Y軸上扔數據

[16:16.16]但是CD它設置在這個44.1K16比特是有原因的

[16:21.60]因為更低我們就會很明顯的察覺到這個東西不對勁的

[16:26.24]如果我們把44.1K的採樣率逐漸降低

[16:30.32]我們會聽到這樣的聲音

[16:31.84].

[17:00.80]這個崩壞的聲音就明顯是我們不能接受的了

[17:04.00]如果我們保持44.1K的頻率降低這個比特深度呢

[17:09.04]這聲音是這樣的

[17:31.84]這種降採樣的處理方式同樣是很崩壞的

[17:43.60]但值得一提的是就是很多時候它成為了一種

[17:47.28]音樂創作者非常喜歡樂見的一種失真效果的來源

[17:50.72]就比如說我們讓一個鼓的聲音降低比特

[17:53.60]會形成一個非常粗厲強烈的打擊感

[18:04.80]總之就是在採樣點的數量和單個採樣的信息量

[18:08.16]這兩個維度上做手腳的壓縮也是不可行的

[18:11.52]就是CD已經把該扔的東西都扔完了

[18:15.04]所以這樣來看我們的音頻壓縮已經走到死了糊塗了

[18:18.72]就是到頭了

[18:19.68]現在我們就像坐在熱氣球上

[18:21.36]就是為了讓這個熱氣球飛得再高

[18:23.20]我們把該扔的東西都扔了

[18:24.72]再扔就生活必需品

[18:26.32]再扔就活不下去了

[18:27.44]那麼MP3到底是用了什麼奇特的方式

[18:31.52]讓我們能在這個基礎上

[18:33.60]就是在CD這個已經比較經典的基礎上作為參照點

[18:38.32]能夠再把文件體積縮小到它的12分之1呢

[18:42.16]就還有什麼可以扔的呢

[18:44.96]當初Karl Heinz Brandenburg

[18:49.52]他跟隨他的導師Dieter Seizer做他博士論文的時候

[18:53.04]萬萬沒有想到他的這個導師給他的這個湖B的任務

[18:56.88]會引導他發明出這個改造人類世界的音頻壓縮技術

[19:02.88]這個Dieter Seizer是一個心理升學專家

[19:05.68]他倆都是德國人

[19:07.44]然後在80年代初期

[19:09.36]這個Dieter有一個非常風逼的想法

[19:11.60]就是他想發明一種技術把音樂存放在集中的服務器上

[19:17.92]然後讓大家在自己家裡打電話給這個服務器

[19:21.44]或者是用網線去連接這個服務器

[19:24.96]然後用ISDN的網線來點播聽歌

[19:28.48]他給這個東西起了個名字叫Spotify

[19:31.04]不對 叫Digital Drugbox 就是數字的點唱機

[19:36.96]然後他還沒想具體怎麼做

[19:39.28]然後就跑到專利局去申請專利

[19:41.44]當然就被無情的拒絕了

[19:43.28]因為專利審核員就說這是不可能的

[19:46.88]就是拒絕的原因就是這是不可能的

[19:49.04]專利審核員覺得這人是不是無賴

[19:51.84]因為你要想幹這個事的話

[19:53.92]前提條件是ISDN的貸款得能夠支持傳輸每秒鐘的CD的數據量

[20:00.56]這個事想要做到的話

[20:02.48]這個專利得包含一種算法

[20:04.00]能夠把這個數據量降低到對應到當時的網速

[20:08.08]要降低到CD的12分之一

[20:11.20]這個不負責任的導師就是管啥不管買

[20:13.92]就是他就負責想的美

[20:15.92]然後把這個12比1的實際的關鍵課題

[20:18.80]丟給了他老是八交的一個博士生去做

[20:21.52]就相當於什麼就相當於

[20:23.36]相當於一個老師嫌自己批改作業太慢了

[20:25.84]然後就找一個朋友說

[20:27.68]你給我發明一下光學識別和人工智能行嗎

[20:30.08]這樣我就不用批卷了

[20:32.24]就這種感覺

[20:33.52]Carol Hines本人也覺得很扯

[20:35.92]他最開始想的就是

[20:37.92]我這個魂球導師讓我做這麼一個

[20:41.12]就是胡來的選題

[20:42.56]那我就做幾年時間我來證明一下

[20:45.92]這個幻想它是幻想

[20:47.44]是不可行的就得了

[20:48.96]我把這個寫成論文我也能混一博士學位

[20:51.60]哎美滋滋

[20:52.80]結果沒想到呢

[20:55.60]他鑽研了一下這個心理升學的研究成果

[20:58.72]就是前人的這些研究

[21:00.48]然後他意識到說

[21:01.76]隨著80年代的這個電腦處理

[21:04.32]處理器的這個速度的提升

[21:06.64]以及他們就是對後來的這個速度繼續的展望

[21:09.60]他們會覺得說也許這個壓縮也不是完全不可能的

[21:14.00]這MP3誕生是一個

[21:17.28]耗時十多年就是幾十人上百人的人類頂尖頭腦的

[21:22.40]耗耗蕩蕩艱苦著絕的

[21:24.96]你要往大了說是幾代人接力的

[21:27.52]往小了說也是這麼一群最頂尖的人類頭腦的

[21:31.36]這個齊心協力研究的一個偉大的過程

[21:35.20]這個成果它摧毀並且再造了人類音樂產業和整個聽覺世界

[21:40.32]在它飛入尋常百姓家的這過程中

[21:42.88]它也不可避免的遭遇了各種令人精疲力竭的政治爭奪

[21:46.72]經濟爭奪等等等等

[21:49.28]髒事也不少

[21:50.56]但是所有的這些老生常談的話題包括它對什麼音樂產業盜版的影響等等

[21:56.96]我們今天都不談

[21:58.24]我們這些節目就只會討論這個算法

[22:00.80]它中間最重要的一個模塊的核心

[22:04.64]從這裡我們可以推薦一些關於賽博世界和人類資深的關係

[22:09.52]MP3的壓縮算法核心是perceptual coding

[22:12.96]這個表述相當令人困惑

[22:14.88]就是感官編碼

[22:17.44]這個說法就

[22:18.96]對實際上它是從心理生學發展出來了

[22:21.04]這個學科完全不在大眾視野中

[22:23.60]是個非常非常邊緣的學科

[22:25.12]它是物理學和心理學的交叉學科

[22:27.92]它從屬於心理物理學

[22:31.12]就是psycho physics 下面的分支psycho acoustics

[22:34.96]psycho就是心理嘛

[22:36.24]聽起來就像是研究九音真經或者歸派氣功的但實際不是

[22:40.32]它是一個非常非常嚴肅的領域

[22:42.00]它研究的是

[22:43.44]人的感官世界和客官世界之間的關係

[22:47.52]特別是定量的關係

[22:49.28]而不是什麼哲學或者神學的研究

[22:52.40]就我這裡說的不是主觀而是感官

[22:56.32]是因為心理生學的研究並不涉及比如說

[22:59.28]我們音樂博客經常聊的什麼音樂的審美等等

[23:02.88]審美這種事就屬於太高層次的問題

[23:05.92]這個學科就研究特別低層次甚至是最底層的問題

[23:09.52]就是比這個再底層就不能說是心理了

[23:11.60]就只能說是生理了

[23:13.12]它研究的是這個心理和生理挨著的這個交界的這個事

[23:16.72]第一個讓我感到認知衝擊的這個學科的研究成果

[23:20.72]就是關於我們人類對於想度感知的不平均性

[23:25.76]有這麼一個曲線叫Fletcher Manson Curve

[23:28.24]就是Fletcher Manson曲線

[23:30.24]也叫等詳曲線

[23:32.08]感興趣同樣可以在收納子裡看到相關介紹

[23:35.04]這個凹下去的圖形揭示了一個事

[23:37.68]就是這門學科心理生學存在的合理性

[23:41.92]就是我們人類感官和客觀世界中間有一鴻溝

[23:45.28]我們知道聲音的本質是振動

[23:46.88]振動就是空氣在壓縮和膨脹

[23:50.24]就是壓縮和釋放

[23:51.28]就是以一個不同的頻率在幹這個事

[23:54.64]然後振動的空氣又帶動了耳膜振動

[23:58.80]傳導到耳窩裡

[24:00.24]耳窩裡有很多捲曲的毛

[24:02.96]毛裡的細胞把這個振動轉化成電信號

[24:06.56]然後通過神經傳導給我們的大腦

[24:10.16]那這個曲線講了啥呢

[24:12.40]它的橫軸是頻率

[24:14.16]就是低頻中頻高頻

[24:15.84]就是從這個暗淡到明亮到尖銳的這個聲音

[24:20.56]重軸是聲壓級

[24:22.00]然後曲線上的點呢在人的感覺裡是相同的

[24:25.36]就是它是它是無數根曲線

[24:28.48]但是它們基本上你可以理解為類似平行的

[24:31.04]或者是這麼一個足的曲線

[24:33.20]每根曲線上的每一個點

[24:35.76]就是在人的感覺裡是相同的

[24:37.52]用不負責任大白話說

[24:38.64]就是說我們對於不同頻率的聲音的大小的感知

[24:41.60]差異太過於巨大

[24:43.04]以至於這個曲線是一個這麼挖兜的形狀

[24:46.32]低頻需要特別巨大的能量

[24:48.72]才能和中頻非常非常小的能量形成的聲音大小

[24:53.12]在我們的感覺上相等

[24:54.40]就比如說一個50Hz或者80Hz的聲音

[24:57.44]想要聽起來和你輕輕的在3000Hz的位置

[25:01.84]跟我哼哼的聲音一樣大

[25:04.08]它需要比你哼哼的那個能量大

[25:06.40]可能幾十倍上百倍

[25:07.68]所以客觀的聲音呢

[25:09.52]它是用聲壓級來衡量

[25:10.88]就是所謂的Sound Pressure Level SPL

[25:13.04]然後它的單位叫做DB

[25:14.72]然後呢對人對聲音大小的感知

[25:18.40]這就是主觀了

[25:19.68]或者叫感觀了

[25:21.52]那就用這個響度來衡量

[25:23.76]就是我們覺得這事有多響

[25:25.44]這個單位叫送

[25:27.04]PHON

[25:29.04]這個曲線有很多會讓我們覺得很困惑的事

[25:31.92]就是迎刃而解水落石出

[25:34.24]比如說最簡單的就是

[25:36.56]為什麼低音炮那麼沉那麼大

[25:39.12]而全頻的音箱那麼小

[25:41.68]因為你覺得低音炮其實只發低頻那一點點聲音

[25:44.40]但為什麼它需要比這個正常的那一對立體聲音的全頻的喇叭要大特別多呢

[25:50.80]再比如說樂手都會想這個問題

[25:53.36]就是說為什麼Bass的音箱比吉他大巨多

[25:55.92]而且它的功率是吉他的好幾倍

[25:57.84]其實音量聽起來感覺吉他那聲音更大

[26:00.40]等想曲線它是一個向上翹的位置

[26:03.36]對如果我們拿高頻來說也是一樣的

[26:05.92]我們說人類的聽覺上線是兩萬赫茲

[26:08.00]這句話翻一過來

[26:09.12]就是用這個曲線來表述

[26:11.28]就是在兩萬赫茲的位置

[26:12.80]我們需要這個能量大到能刺破我們耳膜了的程度

[26:17.28]才勉強能夠跟三千赫茲的位置輕微到不能再輕微的振動

[26:22.00]聽上去一樣大

[26:23.28]這就是等想曲線給我們揭示的這個現實

[26:27.52]這個曲線中最低的一條

[26:29.68]再低就變複數了就不成立了

[26:32.24]最低的一條就是我們人類能聽到的最小聲音的等想曲線

[26:37.12]它是幾位科學家當年幹了一些髒活累活所得到的

[26:41.76]就很簡單他們就是大量的測試

[26:44.32]讓一個人坐在這裡

[26:46.48]聽不同頻率上播放音量大小不同的純粹的單純的正弦波

[26:52.64]就是你只要聽到你就按按鈕

[26:54.24]這樣的話我就記錄下來

[26:55.20]如果你沒聽到你就別按

[26:56.72]這樣收集了大量的數據之後

[26:58.88]這些數據點你合成了一條曲線

[27:01.04]這就是最早的等想曲線

[27:02.96]居然是用一種調查的方式來獲得的

[27:05.60]在這個最低的等的等想曲線上

[27:09.28]就是在它上方非常多還有一個風險曲線

[27:12.24]就是聲壓級大到什麼程度人類會感覺痛苦

[27:16.56]甚至會對聽覺有損傷

[27:19.12]所以這兩條曲線就把本來廣闊無邊的聲音的分佈

[27:24.40]中間圈出了一個封閉的區域

[27:27.44]這個區域其實跟整個區域相比並不大

[27:30.24]就是我們人類聽覺的區域或者說是音樂的區域

[27:33.68]音樂就存在在這個區域裡面的一部分的中間一部分

[27:37.84]所有的音樂就困在這裡

[27:39.84]然後人說話的聲音又困在這個空間裡更小的多的一個子級裡

[27:44.56]有了這個等想曲線之後

[27:46.16]感官世界跟客觀世界就取得了一個可靠的聯繫

[27:49.84]因為我們有了一個基本的換算規律

[27:52.08]沿著這個方向科學家們發現了一些更加神奇的事情

[27:55.20]讓我們意識到就是我們的感官和客觀世界的差距到底有多麼巨大

[27:59.52]這個事情叫做 Masking 眼閉

28:02.16

[28:16.64]1958年有一個在美國馬薩諸塞州建橋市的一個人

[28:21.44]叫做 J.C.R. Licklider

[28:23.44]他突發奇想拿了一個噪音發生器去牙醫的診所

[28:27.76]聽上去像是一冷笑話

[28:29.76]就翻過來就是脫褲子放屁股

[28:32.32]就是因為牙醫本身就已經是一個噪音發生器了好嗎

[28:35.68]就是他看牙就是拿鑽頭去鑽別人的牙

[28:39.04]對吧這就是一個噪音發生器

[28:41.04]Licklider 本人是一個心理生學的研究者

[28:44.08]他這麼做是想做一個不規範的實驗

[28:46.48]就是他覺得自己拔牙的這個時候

[28:48.96]可以用巨大的噪音來替代麻醉劑

[28:52.32]就是他自己的一個猜想

[28:54.32]就是只要能他聽著巨大的噪音他可以不打麻藥

[28:57.68]然後直接讓這個牙醫來處理他一顆驅齒

[29:01.04]鑽開然後給他填好

[29:03.04]結果他成功了

[29:05.04]就是他帶著耳機聽著雞瓜拉的巨大的噪音

[29:08.56]然後他的牙被鑽開填不好

[29:10.08]整個這個過程他什麼也沒有感覺到

[29:12.08]後來他們又找了一個人

[29:15.12]就是這個牙醫的秘書

[29:16.64]這個女士她一直極端恐懼補牙的疼痛

[29:20.72]永遠都是要打劑量很大的麻藥

[29:23.28]但是這次她也成功的用這個噪音消除掉了自己補牙的任何的感覺

[29:29.68]這個女人帶著耳機的補牙的照片後來還上了報紙

[29:32.56]成了一個很大的新聞

[29:34.56]但是這個事最後也沒有一個定論

[29:36.56]就是有的研究者說這事是騙局

[29:38.80]還有很多牙醫說這確實有用

[29:40.80]但是這個技術至於他為什麼沒有成為主流

[29:43.76]這不是我們這個節目要討論的

[29:45.36]我們要討論的是這裡面的這個眼閉現象

[29:48.88]說眼閉我們要先說噪音

[29:52.00]噪音在頻率的世界裡大概就是一個平均的水位線

[29:56.88]就是它在任何頻率都有能量

[29:58.88]正因為這樣所以它聽起來才沒有音調可言

[30:01.92]就是它聽起來沒有任何調

[30:04.80]我們說它不是月音是噪音

[30:06.64]恰恰是因為它裡面充滿了調

[30:08.16]因為在任何一個調

[30:09.12]一個調就是頻率嘛

[30:10.16]在任何一個頻率的位置上它都有均等的能量

[30:13.60]所以它聽起來就是什麼都不是

[30:15.04]剛我們聽到的這個白噪音

[30:19.04]就是比較線性的能夠抬升我們的等響曲線

[30:22.72]就是當我們聽到一點白噪音的時候

[30:24.72]我們耳朵的那個等響曲線就要跟著它往上抬一些

[30:28.72]就用大白話說就是在嘈雜的環境裡

[30:31.52]你想要聽見相對單純的聲音

[30:33.52]比如人跟你說話呀或者聽歌、旋律或者是什麼東西

[30:37.52]任何鮮明的聲音你就得讓它相應的提升音量

[30:40.80]否則的話就會被嘈雜的環境所掩蓋

[30:43.36]這個我們每個人都有生活經驗

[30:45.04]這就是所謂的Masking眼閉

[30:47.04]如果我們想要掩蓋一個1000Hz的聲音

[30:49.60]我們其實並不需要完整的全頻率的白噪音

[30:52.40]我們只需要圍繞在1000Hz附近的白噪音就可以了

[30:56.00]我們可以做這麼一個實驗

[30:57.28]就是我們用帶寬比較窄的白噪音慢慢提升頻率

[31:01.12]用這樣一個聲音

[31:03.04]我們慢慢讓它升高

[31:06.00]然後讓它經過一個緩慢經過一個單純的正弦音

[31:10.08]我們可以清楚的體會到人類聽覺的局限

[31:13.92]就是那個音在噪音經過它的頻率的時候

[31:19.04]它就會消失

[31:20.32]這樣的話你可以理解為

[31:38.24]那個等響曲線因為噪音的存在被扭曲了

[31:40.80]它在特定的頻率上鼓勵一個包

[31:43.36]而這個包下面本來咱們能聽見的聲音咱們聽不見了

[31:47.60]這個就是MP3發明者找到的秘密

[31:50.80]就是它把每一個鼓包的瞬間被淹沒的那些聲音都扔掉了

[31:57.44]上面我描述的這個是頻率的眼閉

[32:00.00]還有另外一種眼閉叫Temporal Masking

[32:02.80]Temporal就是信條的電影裡所謂前行攻擊的那個詞

[32:07.04]時間

[32:08.08]這個眼閉效應它不發生在頻率、發生在時間裡

[32:11.52]因為我們說頻率是一個垂直與時間的另外一個維度

[32:14.88]那如果說是時間裡的眼閉這個事對我們來說更直觀的多

[32:19.20]跟頻率沒關系就純粹是時間

[32:21.76]我們先說這個Foreward Masking

[32:24.08]當我們聽到一個噪音加然而止的時候

[32:26.88]在它結束之後會有一個長達200毫秒的逐漸減弱的眼閉效果

[32:32.00]也就是說在它停止之後完全停止之後的200毫秒裡

[32:38.16]還有一些比它小的聲音被它眼閉掉

[32:41.76]導致咱們完全停不見

[32:43.52]就彷彿是這個噪音直接把我們的耳朵給打暈了

[32:47.20]我們耳朵麻痺了一樣

[32:48.80]就需要200毫秒時間才能恢復這個知覺

[32:51.76]就好像是這樣的一個效果

[32:55.20]另外一種Temporal Masking反過來叫Backward Masking

[32:58.00]這個事就非常非常的反知覺

[33:00.88]就是它跟我們剛說這個Foreward是相反的

[33:03.36]Foreward Masking說是噪音眼閉了它之後的聲音

[33:07.68]但是同樣這個噪音還能眼閉它之前的聲音

[33:11.28]雖然只有50毫秒而且這個曲線很陡峭

[33:14.00]也就是說只有緊緊貼著這個噪音開頭

[33:16.72]之前的這個聲音才有可能被它眼閉

[33:19.52]但是仍然讓我感覺到這事不可思議

[33:21.76]就是因為這意味著什麼呢

[33:24.16]這意味著我們頭腦中有一個緩衝時間

[33:26.48]就是我們頭腦類似於電腦屏幕或者是鼠標鍵盤的延遲

[33:30.24]我們的神經系統顯然要緩衝一段時間才能報告到我們的意識力

[33:36.24]而不是立刻就把這些信息傳達到位

[33:38.24]而且這個緩衝的周期居然有50毫秒

[33:41.20]這也太長了好吧

[33:42.96]接下來你要聽到的這個極其不規律的這個短促的聲音

[33:47.12]會被整齊的緊貼著它們的噪音給眼閉掉

[33:51.84]如果你不信邪的話你可以用心記錄一下

[33:55.12]你覺得哪個位置有聲音哪個位置沒有聲音

[34:00.08]然後我會在小宇宙的評論區給出這個謎底

[34:03.44]但是你就會發現你自己的都是一些心理作用

[34:06.24]實際上你是聽不見的

[34:07.92]因為它都被眼閉掉了

[34:09.28]這個時候你可能想說音樂裡其實並沒有這麼難聽的噪音

[34:28.32]但其實樂音和噪音並不是一個非黑記白的分野

[34:31.36]就這世界上沒有完全的樂音

[34:33.76]也沒有絕對意義上的完美而純粹的噪音

[34:37.52]一切聲音都在樂音和噪音的中間

[34:39.84]我們說純粹的樂音就是正弦波

[34:41.92]就是那個最純粹的聲音

[34:43.60]我們讓一個小提琴家在小提琴上去拉一個中央C

[34:49.04]這個聲音裡面也不只全是樂音

[34:51.20]它還是有很多噪音在裡面

[34:52.72]如果我們把白噪音去過一個非常非常窄的帶同綠波器的話

[34:57.36]你會聽見它這個噪音其實也可以被分解或者被理解為一堆樂音的疊家

[35:02.80]所以在實際的音樂裡

[35:09.04]各種樂音組合在一起

[35:10.64]就又形成了慈濟彼伏的類似於

[35:13.68]就是忽然出現又消失了窄帶噪音的聲音瞬間

[35:18.00]就這些聲音瞬間就是MP3音頻壓縮算法下手的地方

[35:23.28]MP3做的事就是利用一個精心迭代了很多年的聽覺模型

[35:28.56]把音樂裡的每一個瞬間對應在MP3文件格式裡叫做Frame

[35:33.12]一個Frame的數據塊

[35:35.52]檢查數據塊裡上述兩類演弊作用所發生的頻率和時間段

[35:43.36]然後把頻率裡的信息給扔掉

[35:45.68]本來這個頻率也可以是無限細分的嘛

[35:48.96]在現實世界中

[35:50.16]但是在MP3的聽覺模型裡

[35:51.60]它被簡化成了有限格的濾波器組

[35:54.56]就只有32段

[35:55.52]就比我們現在聽到的音樂

[35:56.72]可以表示為32分

[36:01.52]就聽起差不多的聲音

[36:04.88]但是它們有的是明亮有的是暗淡

[36:06.32]這就是那所謂的32分的濾波器組

[36:09.68]疊加在一起

[36:10.48]這個精心設計的完全不是平均分佈的

[36:17.04]不是在頻率世界裡平均分佈的

[36:19.68]這個32段的Filter Bank也是來自於心理升學的另外一個研究成果

[36:23.52]就是人類在頻率的差距縮小到一定程度之後

[36:27.36]我們就沒有辦法再分清楚兩個頻率的差別了

[36:30.96]就是我們的頭腦會把i的特別特別近的音高理解為同一個音高

[36:36.08]這個問題可以引申到另外一個很複雜的問題

[36:39.68]就是為啥一個8度裡只有12個半音呢

[36:41.44]為啥不是8個半音呢

[36:42.72]為啥不是20個半音呢

[36:44.48]當然這個問題也比較複雜了

[36:46.32]就不是這一期咱們能討論了

[36:48.32]大家可以考慮一下

[36:49.52]我這裡要再囉嗦一句

[36:52.80]我這裡說的"聲音"並不是說聲音變少了

[36:55.68]聲音不存在變少的概念

[36:57.20]除非這聲音完全靜音了就沒聲了

[36:59.76]我們說的"聲音"就僅僅是它的傷降低了

[37:03.36]就是它的無序性降低了

[37:05.52]因此它變得更加容易被壓縮了

[37:08.08]所以說到這兒我們要再回到節目最開頭討論的那個話題

[37:11.52]就是聲音媒介的特徵

[37:13.84]它到了MP3這個時代它變成什麼呢

[37:17.28]高馬濾的MP3你聽不到任何區別

[37:20.08]雖然它確實有區別

[37:22.16]但是隨著馬濾逐漸降低

[37:24.08]你聽到的不是什麼灰塵在黑膠縫隙裡的那種暴鬥的聲音

[37:27.52]也不是磁帶那種磁粉急化造成飽和的聲音

[37:30.88]都不是

[37:31.76]它是所謂的artifact

[37:33.28]這種artifact就是

[37:35.84]當我們要求的馬濾低到一定程度的時候

[37:39.04]那個編碼器會被迫捨棄了

[37:42.88]其實我們本來應該能察覺到的聲音

[37:47.36]也都被它停而走險的給捨棄掉了

[37:49.68]它捨棄的聲音太多了

[37:51.20]從而形成了一種聲音的不連貫

[37:54.40]一種斷裂

37:55.60

38:05.60

[38:27.12]然而尷尬的是

[38:28.56]黑膠磁帶廣播這些媒介跟它相比

[38:32.80]就是我們剛剛對MP3聲音特點的這個描述

[38:36.88]既不精確也沒法被人理解

[38:39.20]就啥叫捨棄啥叫不連貫啥叫斷裂

[38:43.04]因為它並不是物理世界形成的一種必然的

[38:46.64]與物體本身和振動本身的性質密不可分的物理現象

[38:51.36]它是一種經濟現象

[38:53.28]人類在這個時間點需要讓聲音鑽過一個狹窄的貸款

[38:59.68]所以這裡的artifact不僅是人為的人造的

[39:02.24]它甚至是完全是被設計所決定的

[39:04.80]在當時MP3規範制定的過程中

[39:08.00]海量的測試人員不停的聽

[39:10.96]這段你覺得像不像

[39:13.12]這段你覺得有沒有區別

[39:15.04]這種測試人員要對每一個他們聽到的測試聲音做一個評級

[39:18.88]就有四個選項吧

[39:20.40]第一個選項叫聽不出區別

[39:23.52]第二個檔次叫有一點區別

[39:25.52]第三檔和第四檔特別離譜叫有點難聽和非常難聽

[39:29.12]也就是說這個壓縮算法的發明和設計自日中把人類

[39:34.24]某種就是生物底層的耗誤

[39:36.80]或者說我不知道這能不能叫美學判斷

[39:40.00]至少是一種非常原始的感官判斷

[39:43.20]作為考量的目標

[39:44.72]它是沒區別有點區別

[39:48.32]有點難聽和非常難聽

[39:50.40]大家可以考慮一下這個選項意味著什麼

[39:53.20]所以整個MP3的壓縮算法當然我們不能說它是主觀的了

[39:57.52]但是它絕對絕對不是客觀的

[40:00.08]它的發明和疊帶伴隨著無窮無盡的痛苦的人肉測試

[40:05.20]和你以為的那種所謂數學家跟工程師聯手發明了一個

[40:10.32]哇 橫空出世的天才黑箱算法這種想像

[40:14.40]就是相差十萬八千里完全不是那樣

[40:18.00]而安排協會就是這個行業協會選擇的這個使手用來測試

[40:23.68]就是因為有很多的這個來參賽就希望能夠成為這個

[40:28.80]下一代的音頻壓縮算法的標準嘛

[40:32.08]他們來給就是各位代表隊這個參賽來評價的這十首歌

[40:37.76]就如同這個開卷考試的題目一樣

[40:40.08]就成了所有的音頻壓縮算法

[40:42.00]今年累月想方設法去完美的壓縮它的目標

[40:46.96]就這十首歌就是就跟音頻壓縮算法的高考一樣

[40:50.80]所以這十首歌它當然被完美的壓縮了

[40:54.96]或者說是盡量完美的壓縮了

[40:56.72]可是這個完美性它端然不是在人類所有音樂和音頻中

[41:01.68]平均等價的實現的

[41:04.40]我不知道這麼說能不能說明白這個意思

[41:08.32]就是這種完美性這個完美的程度

[41:11.76]在所有的音樂中它不可能是平均的

[41:14.72]就是它的它的被設計的過程中已經決定了這一點

[41:19.12]這十首歌裡包括這個什麼Tracy Chapman呢

[41:22.32]包括一些就是比如說Bass和一些個別樂器的獨奏

[41:28.56]Ornate Coleman

[41:29.92]海盾就是有古典音樂的等等的東西

[41:33.20]所以不同的這個配器不同的音色都有考慮

[41:37.04]但這這十首歌是非常非常arbitrary的

[41:40.08]有一個非常浪漫的插曲發生在這個MP3誕生初期

[41:44.00]就我不確定這裡邊有多少是這個Carol Hines本人銀河媒體

[41:48.64]而就是因為他這人是一個特別老好人的感覺

[41:52.16]可能是他銀河媒體講述故事有點美化了的成分

[41:55.52]但是確實非常有意思

[41:57.36]大概就是說他有一天去附近唱片店

[42:00.32]老闆問他想聽什麼歌呢

[42:02.24]因為他其實就想買一些音樂回來做測試

[42:05.68]他本人是一個對音樂完全不再感興趣的人

[42:08.64]他說給我來一些比較全面的有代表性的音樂

[42:12.64]然後老闆肯定就覺得他是精神病了

[42:14.88]但是還是給他找了一些這個比如說找了一張交響樂樂

[42:18.24]一張學識樂一張流行樂

[42:19.92]就是在聽覺上完全不同的一些唱片

[42:22.56]其中有一張就是這個蘇珍維加的帶有這麼一首歌的唱片叫Tom’s Diner

[42:27.04](I am sitting in the morning at the diner on the corner I am waiting at the counter for the man to pour the coffee and he fills it only halfway and before I even argue he is looking out the window at somebody coming in)

[42:47.20]這歌是一個純粹的清唱

[42:49.60]沒有伴奏聽起來非常非常簡單

[42:51.60]但這卻長的這個壓縮算法要越過的一個巨大的鴻溝

[42:56.16]因為這個時候這群德國人已經非常自信的

[42:59.04]就是認為他們已經處理好了絕大多數音樂的壓縮

[43:02.56]因為在雙忙測試中都大部分的音樂都可以取得很好的效果

[43:06.40]但他們就始終過不了Tom’s Diner這首歌的這一關

[43:10.24]就是這首歌壓出來聽大概會是這個樣子

[43:13.84](I am sitting in the morning at the diner on the corner)

[43:18.56]這首歌伴隨了他們一年多的時間

[43:20.72]Karlheinz懷疑自己可能至少聽了三千遍這首歌被壓縮的很糟糕的版本

[43:26.48]最後為了滿足這首歌他們優化了很多東西

[43:29.44]包括他的立體上相關的邏輯

[43:33.12]還有他最關鍵的綠波七祖的頻率分割點等等等等

[43:37.12]最終他們是順利的把這個歌也給壓縮成功了

[43:40.72]算是過關了

[43:41.92]這個事情過了之後很多年

[43:43.52]他有一天在一個音樂會上終於見到了蘇贊本人

[43:46.48]並且聽到了蘇贊Vega本人這首歌的現場的清唱

[43:50.64]事後回憶他說就是雖然這歌他已經聽了無數遍

[43:53.84]但是現場聽到他演唱的時候依然還是覺得很好聽

[43:56.80]最後我們還是想說回到這個成就這件事

[44:02.96]就這些低馬綠的MP3的聲音特點當然是存在的

[44:06.56]但是他們沒有辦法被懷舊

[44:08.96]這不僅僅是因為我們沒有足夠長久的聲音體驗來形成某種文化訓練

[44:15.84]實際上今天的年輕人並不需要真的聽過很多很多的詞帶

[44:19.68]很多很多的黑膠才能夠感受到那種聲音的成就

[44:23.52]那種成就是固有的

[44:26.08]或者用我本人比較警惕的一個說法就是叫是很自然的

[44:31.20]而MP3的聲音是人類進入數字世界所付出的一個代價

[44:37.60]這個代價不是對不上膠的照片

[44:40.16]或者是消了詞的詞帶

[44:42.72]它是人類針對自身感官的一種經濟治理

[44:47.84]它是一種精巧的偷工剪料

[44:51.68]而這種偷和剪恰恰是來自於人類對自身感官的把握

[44:55.52]從而進行對自己的hacking一種self hacking

[44:59.36]這個事和新舊沒有關係

[45:03.20]它是非常聰明的

[45:05.76]非常武斷的

[45:07.04]甚至有點偶然的

[45:09.60]所以我們沒有辦法對它換起任何相仇式的情緒

[45:13.20]MP3的算法讓我意識到我們今天生活於其中的這個賽博世界的大殺根基

[45:19.60]還真就不是這個零和一

[45:22.16]不是數學

[45:23.44]不是我們對這個物理世界科觀世界的把握

[45:27.28]而是我們的感官

[45:29.84]就是它最底層的算法

[45:32.40]是在面向我們耳窩裡那個細長的容毛

[45:36.24]和我們到今天也知之甚少的腦神經等等

[45:40.08]科學對生產力的解放

[45:42.64]在客觀世界裡可以是一日千里斗轉星移

[45:47.76]直到它推進到我們人際交互見面這一層

[45:51.04]它又只能回到緩慢的爬行

[45:54.16]想到這些如果你再跟我談論這個意識的上載和保存什麼什麼之類的話題我就會覺得非常的困惑

[46:03.12]就我不知道這句話裡的意識是什麼了

[46:08.24]你明白嗎就是正如我沒想像離開肉身的音樂是什麼

[46:14.40]就我沒想像純粹的音樂是什麼

[46:17.20]數字技術的發展

[46:19.76]就直到時間的盡頭它能超越我們肉身的鴻溝嗎我在想

[46:24.64]它能超越嗎

[46:26.16]如果能的話它

[46:27.44]那個時候到底是一種什麼存在在觀察和聆聽呢

[46:31.52]那個時候的我們到底是什麼呢

[46:33.84]因為我們的數字音頻早已經不是對物理世界空氣震動的一個保存或者說是

[46:40.24]這種保存和在線它在經歷一個非常精巧而武斷的無法越過的人類濾鏡

[46:46.64]今天我們建設這個賽博世界

[46:49.20]我們在幹的事就是一磚一瓦的倒轉這個客觀和感官

[46:53.04]我們再把地面和角對齊

[46:55.60]所以如果黑客帝國真的發生的話它確實應該是一個失路路的髒嘻嘻的感官帝國

[47:02.00]而賽博世界的來臨比你以為的要早

[47:05.84]1995年7月14號

[47:08.40]Karl Heinz Brandenburg和他在艾爾蘭根的研究所的同事們

[47:12.24]一起決定把他們偶性力學研發了很多年的這種音頻壓縮算法的文件擴展名

[47:18.64]根據他們這個行業標準的全稱

[47:21.20]MPAC Layer 3

[47:22.48]命名為

[47:23.76]點 MP3

[47:31.44]感謝收聽不在場

[47:32.72]你可以通過泛用型播放客戶端訂閱收聽

[47:35.28]如果你喜歡這些節目

[47:36.56]希望你可以分享給你的朋友

[47:38.88]也歡迎你為本節目捐款增加它存續下去的概率

[47:42.72]一次性捐款不低於300元的朋友

[47:44.88]請在支付寶、副研或者對話胖中留下你的電子郵箱

[47:49.36]你可能會收到我不定期的郵件

[47:51.92]捐款二維碼本期節目的個單包括所有提及的鏈接收notes以及這個電台的一切

[47:58.32]請訪問他的網站

[47:59.84]不在場.xyz

[48:04.48]我們下期再見

[48:06.00]MING PAO CANADA | MING PAO TORONTO

[48:16.00]MING PAO CANADA | MING PAO TORONTO

[48:26.00]MING PAO CANADA | MING PAO TORONTO

[48:36.00]MING PAO CANADA | MING PAO TORONTO

[48:46.00]MING PAO CANADA | MING PAO TORONTO

[48:46.00]MING PAO CANADA | MING PAO TORONTO

[48:48.00]MING PAO CANADA | MING PAO TORONTO

[48:48.00]MING PAO CANADA | MING PAO TORONTO

[48:48.00]MING PAO CANADA | MING PAO TORONTO

[48:48.00]MING PAO CANADA | MING PAO TORONTO

[48:48.00]MING PAO CANADA | MING PAO TORONTO

[48:48.00]MING PAO CANADA | MING PAO TORONTO

[48:48.00]MING PAO CANADA | MING PAO TORONTO

[48:48.00]MING PAO CANADA | MING PAO TORONTO

[48:48.00]MING PAO CANADA | MING PAO TORONTO

[48:58.00]MING PAO CANADA | MING PAO TORONTO

[49:04.00]MING PAO CANADA | MING PAO TORONTO

[49:08.00]MING PAO TORONTO

[49:10.00]MING PAO TORONTO

[49:16.00]我看你不太好看

Podcast Transcript

通过 Whisper.cpp 识别的播客文本。


2021-06-13