示例:我的频率范围为44.1kHz(典型的MP3文件),我想将该范围分为n个范围(从0开始).然后我需要得到每个范围的幅度,从0到100.
到目前为止我所管理的
使用libsndfile我现在可以读取一个WAV文件的数据.
infile = sf_open(argv [1],SFM_READ,&sfinfo); float samples[sfinfo.frames]; sf_read_float(infile,samples,1);
然而,我对FFT的理解是相当有限的.但是我知道这是需要的,以获得我需要的范围的振幅.但是我该如何从这里继续前进?我发现了这个图书馆FFTW-3,这似乎是适合这个目的的.
我在这里找到一些帮助:https://stackoverflow.com/a/4371627/1141483
并在这里查看了FFTW教程:http://www.fftw.org/fftw2_doc/fftw_2.html
但是,由于我不确定FFTW的行为,我不知道从这里进步.
另一个问题,假设您使用libsndfile:如果强制读取单通道(使用立体声文件),然后读取样本.那么你实际上只会读取总文件的一半样本吗?其中一半是频道1,还是自动过滤?
感谢你的帮助.
编辑:我的代码可以在这里看到:
double blackman_harris(int n,int N){ double a0,a1,a2,a3,seg1,seg2,seg3,w_n; a0 = 0.35875; a1 = 0.48829; a2 = 0.14128; a3 = 0.01168; seg1 = a1 * (double) cos( ((double) 2 * (double) M_PI * (double) n) / ((double) N - (double) 1) ); seg2 = a2 * (double) cos( ((double) 4 * (double) M_PI * (double) n) / ((double) N - (double) 1) ); seg3 = a3 * (double) cos( ((double) 6 * (double) M_PI * (double) n) / ((double) N - (double) 1) ); w_n = a0 - seg1 + seg2 - seg3; return w_n; } int main (int argc,char * argv []) { char *infilename ; SNDFILE *infile = NULL ; FILE *outfile = NULL ; SF_INFO sfinfo ; infile = sf_open(argv [1],&sfinfo); int N = pow(2,10); fftw_complex results[N/2 +1]; double samples[N]; sf_read_double(infile,1); double normalizer; int k; for(k = 0; k < N;k++){ if(k == 0){ normalizer = blackman_harris(k,N); } else { normalizer = blackman_harris(k,N); } } normalizer = normalizer * (double) N/2; fftw_plan p = fftw_plan_dft_r2c_1d(N,results,FFTW_ESTIMATE); fftw_execute(p); int i; for(i = 0; i < N/2 +1; i++){ double value = ((double) sqrtf(creal(results[i])*creal(results[i])+cimag(results[i])*cimag(results[i]))/normalizer); printf("%f\n",value); } sf_close (infile) ; return 0 ; } /* main */
解决方法
无论如何,这有很大的优势,您可以通过采用实部和虚部的欧几里德距离(sqrtf((真实*真实)(imag * imag)))来计算大小.这为您提供了一个非标准化的距离值.然后可以使用该值为每个频带建立一个幅度.
所以我们可以订单10 FFT(2 ^ 10).输入1024个样本.您可以FFT这些样本,并返回512个虚数值和实数值(这些值的特定顺序取决于您使用的FFT算法).所以这意味着对于一个44.1Khz的音频文件,每个bin表示44100/512Hz或〜86Hz / bin.
应该脱颖而出的一件事是,如果您使用更多的样本(在处理诸如图像的多维信号时,称为时间或空间域),您将获得更好的频率表示(在所谓的频域中).然而,你为另一个牺牲一个.这只是事情的发生,你必须要忍受.
基本上,您将需要调整频率仓和时间/空间分辨率以获取所需的数据.
首先有一点命名.我之前提到的1024个时域样本称为您的窗口.一般来说,当执行这种过程时,您将需要滑动一些窗口,以获得下一个1024的FFT样本.明显的做法是取样品0→1023,然后取1024→2047等等.不幸的是没有给出最好的结果.理想情况下,您希望在某种程度上与窗口重叠,以便随着时间的推移变得更平滑.最常见的人将窗户滑动一半窗口大小.即您的第一个窗口将为0→1023第二个512→1535等等.
现在这又带来了另外一个问题.虽然这个信息提供了完美的逆FFT信号重建,但它让您遇到一些问题,即频率会在一定程度上泄漏到环绕箱中.为了解决这个问题,一些数学家(比我更智能)提出了一个window function的概念.窗口功能在频域提供了更好的频率隔离,尽管导致时域信息的丢失(即它不可能在使用窗口函数AFAIK后,完美重构信号.
现在有各种类型的窗口函数,从矩形窗口(对信号无效)到提供更好的频率隔离的各种功能(尽管有些也可能会杀死您感兴趣的周围频率).唉,没有一个大小适合所有,但我是黑曼哈里斯窗口功能的大风扇(对于频谱图).我认为它给了最好的结果!
然而,如前所述,FFT为您提供了非标准化频谱.为了使频谱正常化(在进行欧几里得距离计算之后),需要将所有值除以归一化因子(更详细的说明here).
这种规范化将为您提供0到1之间的值.因此,您可以轻松地将此值乘以100,以获得0到100的比例.
然而,这不是它结束的地方.你从中获得的光谱相当不满意.这是因为您正在使用线性尺度来查看幅度.不幸的是,人耳听到使用对数刻度.这相当引起了光谱图/光谱的看法.
为了得到这个结果,您需要将这些0值转换为1(我称之为“x”)为分贝量表.标准转换为20.0f * log10f( x ).这将为您提供一个值,其中1已转换为0,0已转换为-infinity.你的数值现在在适当的对数尺度.但它并不总是那么有帮助.
此时您需要查看原始采样位深度.在16位采样时,您将获得一个介于32767和-32768之间的值.这意味着您的dynamic range是fabsf(20.0f * log10f(1.0f / 65536.0f))或〜96.33dB.所以现在我们有这个价值.
从上面的dB计算得出我们得到的值.将此-96.33值添加到它.显然最大振幅(0)现在为96.33.现在用同样的数值来表示,你现在有一个从-infinity到1.0f的值.将下限固定为0,您现在的范围从0到1,并将其乘以100,并且您的最终0到100范围.
而且这是一个比我原来想要的更多的怪物帖子,但应该给你一个良好的基础,如何为输入信号生成一个良好的频谱/谱图.
呼吸
进一步阅读(对于已经找到原始海报的人除外)
Converting an FFT to a spectogram
编辑:除了我发现亲吻FFT更容易使用,我的代码执行一个前进fft如下:
CFFT::CFFT( unsigned int fftOrder ) : BaseFFT( fftOrder ) { mFFTSetupFwd = kiss_fftr_alloc( 1 << fftOrder,NULL,NULL ); } bool CFFT::ForwardFFT( std::complex< float >* pOut,const float* pIn,unsigned int num ) { kiss_fftr( mFFTSetupFwd,pIn,(kiss_fft_cpx*)pOut ); return true; }