失眠网 > Python音频处理——pydub

Python音频处理——pydub

时间：2019-02-03 12:03:19

相关推荐

Python音频处理——pydub

Pydub是Python音频处理库，可以对音频进行切割、合并、转换、调整音量等操作。以下是对pydub各个知识点的介绍和案例。

Pydub

1. 安装

使用pip安装即可（还需安装ffmpeg依赖，建议使用conda命令安装，则不需要配置环境）：

pip install pydub

2. 导入和读取音频文件

from pydub import AudioSegmentaudio = AudioSegment.from_file("path/to/file")

3. 播放音频

from pydub.playback import playplay(audio)

4. 音频时长

duration = audio.duration_seconds # 单位为秒

5. 音频切割

# 前10秒audio = audio[:10000]# 后10秒audio = audio[-10000:]# 从第10秒开始到第20秒结束audio = audio[10000:20000]# 从第10秒开始到结尾audio = audio[10000:]# 从开始到第10秒audio = audio[:10000]

6. 音频合并

audio1 = AudioSegment.from_file("path/to/file1")audio2 = AudioSegment.from_file("path/to/file2")audio_combined = audio1 + audio2

7. 音频转换

audio.export("path/to/new/file", format="mp3")

8. 调整音量

# 增加10分贝louder_audio = audio + 10# 减小10分贝quieter_audio = audio - 10

9. 等分分割音频

# 等分分割，按大概每三分钟进行分割for i in range(1, 1000):if 3.3 >= (audio.duration_seconds / (60 * i)) >= 2.8:number = ibreakchunks = audio[::int(audio.duration_seconds / number * 1000 + 1)] # 切割# 保存分割后的音频for i, chunk in enumerate(chunks):chunk.export("path/to/new/file{}.wav".format(title,i), format="wav")

10. 完整代码

下面是一段完整的代码，用于对音频进行前后切割，并将音频分割成合适长度的小段进行保存。

from pydub import AudioSegment# 读取音频文件audio = AudioSegment.from_file("path/to/file")# 输出视频时长print('视频时长:', audio.duration_seconds / 60)# 前后切割start = int(input('前切割n秒,不切割输入0'))*1000end = int(input('后切割n秒，不切割输入0'))*1000if start:audio = audio[start:-end]# 计算合适的分割长度for i in range(1, 1000):if 3.3 >= (audio.duration_seconds / (60 * i)) >= 2.8:number = ibreakchunks = audio[::int(audio.duration_seconds / number * 1000 + 1)] # 保存分割后的音频for i, chunk in enumerate(chunks):print('分割后的时长:', chunk.duration_seconds / 60)chunk.export("path/to/new/file{}.wav".format(i), format="wav")

以上就是pydub的主要知识点和一个完整的实例。通过pydub，我们可以方便地对音频进行处理和转换，让我们的音频处理更加高效和便捷。

另外，下面还列举了一些pydub的其他应用案例。

应用案例

1. 将音频文件转换为指定格式

from pydub import AudioSegment# 读取音频文件audio = AudioSegment.from_file("path/to/file")# 转换为mp3格式并保存audio.export("path/to/new/file.mp3", format="mp3")

2. 将多个音频文件合并为一个文件

from pydub import AudioSegment# 读取音频文件audio1 = AudioSegment.from_file("path/to/file1")audio2 = AudioSegment.from_file("path/to/file2")# 合并音频文件并保存combined_audio = audio1 + audio2combined_audio.export("path/to/new/file", format="wav")

3. 制作铃声

from pydub import AudioSegment# 读取音频文件audio = AudioSegment.from_file("path/to/file")# 切割并保存start = 10000end = 15000ringtone = audio[start:end]ringtone.export("path/to/new/file", format="mp3")

4. 调整音频音量

from pydub import AudioSegment# 读取音频文件audio = AudioSegment.from_file("path/to/file")# 增加10分贝louder_audio = audio + 10# 减小10分贝quieter_audio = audio - 10# 保存调整后的音频louder_audio.export("path/to/new/file", format="wav")quieter_audio.export("path/to/new/file", format="wav")

案例：通过识别空白音，分割音频中的歌曲

from pydub import AudioSegmentfrom pydub.silence import split_on_silence# 读取音频文件audio = AudioSegment.from_file("audio.mp3", format="mp3")# 设置分割参数min_silence_len = 700 # 最小静音长度silence_thresh =-10 # 静音阈值，越小越严格keep_silence = 600 # 保留静音长度# 计算分割数量num_segments = int(audio.duration_seconds/60/3) # 每首歌曲大概三分钟，计算歌曲数量# 分割音频文件for i in range(-10, 0):segments = split_on_silence(audio, min_silence_len=min_silence_len, silence_thresh=i, keep_silence=keep_silence)if len(segments) <= num_segments:print(f"分割成功，共分割出 {len(segments)} 段")breakelse:print(f"当前阈值为 {i}，分割出 {len(segments)} 段，继续尝试")

首先，我们使用AudioSegment.from_file()方法读取音频文件，并设置分割参数min_silence_len、silence_thresh和keep_silence分别表示最小静音长度、静音阈值和保留静音长度。其中，静音阈值越小，分割出的小段越多，但可能会出现误分割的情况；反之，静音阈值越大，分割出的小段越少，但可能会出现漏分割的情况。
然后，我们计算分割数量num_segments，即将音频文件分割成多少段。这里我们假设每首歌曲大概三分钟，计算出总共需要分割成多少段。
最后，我们使用split_on_silence()方法对音频文件进行分割，设置分割参数，并通过循环来不断调整静音阈值，直到分割出的小段数量符合预期为止。如果分割成功，则跳出循环；否则，继续尝试。
总而言之，pydub是一个非常实用的音频处理库，可以方便地进行音频处理、转换、合并等操作。同时，pydub还有丰富的应用场景，如制作铃声、调整音量等。值得注意的是，在使用pydub的过程中，需要注意音频格式的兼容性问题。

此外，还可以通过pydub对音频进行编解码、混音、重采样等操作。下面是一些常见的操作示例。

编解码、混音、重采样

1. 编解码

from pydub import AudioSegment# 读取音频文件audio = AudioSegment.from_file("path/to/file")# 编码encoded_audio = audio.set_frame_rate(16000).set_sample_width(2).set_channels(1)# 解码decoded_audio = encoded_audio.set_frame_rate(44100).set_sample_width(4).set_channels(2)

2. 混音

from pydub import AudioSegment# 读取音频文件audio1 = AudioSegment.from_file("path/to/file1")audio2 = AudioSegment.from_file("path/to/file2")# 混音mixed_audio = audio1.overlay(audio2)# 保存混音后的音频mixed_audio.export("path/to/new/file", format="wav")

3. 重采样

from pydub import AudioSegment# 读取音频文件audio =AudioSegment.from_file("path/to/file")# 重采样为44100Hzresampled_audio = audio.set_frame_rate(44100)# 保存重采样后的音频resampled_audio.export("path/to/new/file", format="wav")

通过pydub，我们可以方便地进行音频编解码、混音、重采样等操作，进一步扩展了pydub的应用场景。需要注意的是，在进行音频混音操作时，需要保证两个音频文件的采样率、采样位数和声道数相同。

最后，总结一下pydub的优点和缺点。