失眠网 > 使用 Python 做音频处理·总章（持续更新）

使用 Python 做音频处理·总章（持续更新）

时间：2019-02-25 23:00:50

Python音频处理

1. 常用的工具和库概述wavepydublibrosaffmpegpyaudio （还有这个，先挖个坑）2. 其它常见的处理汇总

待看：

Python音频处理

Python pydub音频处理

1. 常用的工具和库

概述

wave是Python的标准模块，Python 处理音频数据等常见模块有两个：

librosa：擅长音频信号处理，内部用 numpy 存储数据，读写文件依赖 soundfile 模块（不支持mp3）pydub：底层基于ffmpeg读写文件，代码简洁，支持切割、格式转换、音量、ID3等常用功能，门槛低。（ffmpeg是一个极其强大的开源视频处理软件）

使用建议：日常用 pydub 足够应付，更强大的信号处理则需要 librosa，但有一定数学门槛，需要了解信号处理原理，掌握傅立叶变换等基本算法。

wave

wave是Python的标准模块，Python 音频处理：wave 记录了它的一些简单介绍和源码

pydub

Pydub lets you do stuff to audio in a way that isn’t stupid

pydub可以让我们处理音频文件，但是Pydub只支持原生的wav格式的文件处理。所以如果你想处理其他格式的音频，或者说你想处理媒体文件中的音频那你需要在你本地安装FFmpeg支持。

其官方文档中记录了很多简单实用的代码样例：API Documentation

pydub中的 AudioSegment() 是不可改变对象，其中包含了丰富的操作对象，比如音量的增减、音频的合并、读取音频时长、截取音频等操作。注意处理多个音频时，首先确保它们有相同的通道数、帧率、采样率、比特深等。

下面简单记录了基本所有的用法：

AudioSegment(…).from_file()，打开音频并返回一个AudioSegment 实例AudioSegment(…).export()，将 AudioSegment 写入一个文件。AudioSegment.empty()，创建一个空的（时长为0）的 AudioSegment。AudioSegment.silent()，创建一个静音音频片段AudioSegment.from_mono_audiosegments()，融合多个单通道的音频，注意每个单通道音频需要有相同的长度，直到帧计时开始。AudioSegment(…).dBFS，返回以dBFS (db relative to the maximum possible loudness)为度量的声音响度。AudioSegment(…).rms，返回以 rms 为度量的响度AudioSegment(…).channelsAudioSegment(…).sample_widthAudioSegment(…).frame_rateAudioSegment(…).frame_widthAudioSegment(…).max，返回音频中的最大振幅AudioSegment(…).max_dBFS，以 dBFS 返回音频中的最大振幅AudioSegment(…).duration_seconds，返回音频时长，单位是 ms（milliseconds）AudioSegment(…).raw_data，返回原始音频AudioSegment(…).frame_count()，返回帧数AudioSegment(…).append()，合并音频，比如combined = sound1.append(sound2)，默认crossfade=100msAudioSegment(…).overlay()，用一个音频覆盖在其上，但是多余部分会被切除。（有待深究）AudioSegment(…).apply_gain(gain)，改变 amplitude (generally, loudness) ，其中，Gain的单位是 dB。AudioSegment(…).fade()，一个更通用（更灵活）的淡化（fade）方法，可以设置参数，比如起止点或者起点和持续时长。AudioSegment(…).fade_out()，淡出AudioSegment(…).fade_in()，淡入AudioSegment(…).reverse()，生成一个反向播放的拷贝版本AudioSegment(…).set_frame_rate()，设置指定的帧率，单位是HzAudioSegment(…).set_channels()AudioSegment(…).split_to_mono()，切分声道AudioSegment(…).apply_gain_stereo()，在立体声的左右声道添加增益（gain）AudioSegment(…).pan()，设置 pan 参数，比如-1.0 (100% left) and +1.0 (100% right)AudioSegment(…).get_array_of_samples()，返回原始音频数据作为（数值）样本的数组AudioSegment(…).get_dc_offset()，返回-1.0到1.0之间的值，表示通道的直流偏移量。AudioSegment(…).remove_dc_offset()，从通道中移除直流偏移AudioSegment(…).invert_phase()，复制此音频段并反转信号的相位。

还有一些文档还未加入：

下面也记录了其它人总结的一些用法，可供参考。

# -*- coding: utf-8 -*-# @Author : FELIX# @Date : /5/18 15:13from pydub import AudioSegmentsound=AudioSegment.from_file("aaa.mp3","mp3")sound2=AudioSegment.from_file('bbb.mp3','mp3')# 把一个多声道音频分解成两个单声道# index[0]为左声道# index[1]为右声道# sounds=sound.split_to_mono()# print(sounds)# 将两个单声道合并成多声道# stereo_sound = AudioSegment.from_mono_audiosegments(sounds[0], sounds[1])# # 取得音频的分贝数# loudness = sound.dBFS# print(loudness)# # 获取音频音量大小，该值通常用来计算分贝数（dB= 20×lgX）# loudness = sound.rms# print(loudness)# # 取得音频的声道数# channel_count = sound.channels# print(channel_count)# # 取得音频文件采样宽度# bytes_per_sample = sound.sample_width# print(bytes_per_sample)## # 取得音频文件采样频率# frames_per_second = sound.frame_rate# print(frames_per_second)# #取得音频文件帧宽度# bytes_per_frame = sound.frame_width# print(bytes_per_frame)## #取得音频中的最大振幅# normalized_sound = sound.apply_gain(-sound.max_dBFS)# print(normalized_sound)# #取得音频的持续时间，同 len()# print(sound.duration_seconds)# print((len(sound) / 1000.0))# #取得音频数据# raw_audio_data = sound.raw_data# # print(raw_audio_data)# #取得音频的frame数量# number_of_frames_in_sound = sound.frame_count()# number_of_frames_in_200ms_of_sound = sound.frame_count(ms=200)# print(number_of_frames_in_sound)# print(number_of_frames_in_200ms_of_sound)# 拼接sound1与sound2，返回一个新的AudioSegment实例# cossfade：交叉渐变间隔 ms# no_crossfade1 = sound.append(sound2, crossfade=5000)# print(no_crossfade1)# no_crossfade1.export(r'cc.wav',format='wav') # 输出# 把sound2覆盖在sound1上，两个音频文件会叠加，如果sound2较长，则会被截断。# 参数：# position：覆盖起始位置（毫秒）# loop：是否循环覆盖（true/false）# times：重复覆盖次数（默认1）# gain_during_overlay：调整被覆盖音频的音量（eg，-6.0）# played_togther = sound.overlay(sound2)# # sound2_starts_after_delay = sound.overlay(sound2, position=5000)# # volume_of_sound1_reduced_during_overlay = sound.overlay(sound2, gain_during_overlay=-8)# # sound2_repeats_until_sound1_ends = sound.overlay(sound2, loop=True)# # sound2_plays_twice = sound.overlay(sound2, times=2)# played_togther.export(r'dd.wav',format='wav') # 输出#调整音量大小# louder_via_method = sound.apply_gain(+3.5) # 提高# quieter_via_method = sound.apply_gain(-5.7) # 减小#淡出# 参数：# to_gain：淡出结束时音频音量下降到的分贝数# from_gain：设置淡出前的所有音频分贝数# start：淡出的起始位置# end：淡出的结束位置# duration：淡出持续时间# fade_in_the_hard_way = sound.fade(from_gain=-120.0, start=0, duration=5000)# fade_out_the_hard_way = sound.fade(to_gain=-120.0, end=0, duration=5000)# 反向输出# sound.reverse().export(r'ee.wav',format='wav') # 输出# 调整多声道音频的左右声道音量# 如果单声道音频调用此方法，它将先被转换为多声道# stereo_balance_adjusted = sound.apply_gain_stereo(-6, +2)## #左右声道平衡，按百分比增大一边，减小另一边# # pan the sound 15% to the right# panned_right = sound.pan(+0.15)# # pan the sound 50% to the left# panned_left = sound.pan(-0.50)### # 基于DSP的渲染# # 产生一个反向信号的副本，来消除反相位波，或者降低噪音# sound.invert_phase()