没有错,你预想中的纯净的人声在商业出版音频中是几乎不可能提取到的。成品的音频就好比一道已经完成的算术题,我们都知道1+2 = 3, 0 + 3 =3,1+1+1 = 3,但只给你一个3,是不可能知道它是由哪几个数计算来的。目前的技术手段,通常一种就是你用的通过对比左右声道,减去不同的部分,保留相同的部分,但商业音频中并不是所有的音乐都是立体声,人声也并不是只在中间。二种就是用音频与原版的伴奏进行波形反向抵消,但波形匹配的原版的伴奏同样很难得到。