98 lines
2.7 KiB
YAML
98 lines
2.7 KiB
YAML
# 数据集参数
|
||
dataset_conf:
|
||
# 过滤最短的音频长度
|
||
min_duration: 0.5
|
||
# 最长的音频长度,大于这个长度会裁剪掉
|
||
max_duration: 3
|
||
# 是否裁剪静音片段
|
||
do_vad: False
|
||
# 音频的采样率
|
||
sample_rate: 16000
|
||
# 是否对音频进行音量归一化
|
||
use_dB_normalization: True
|
||
# 对音频进行音量归一化的音量分贝值
|
||
target_dB: -20
|
||
# 训练数据的数据列表路径
|
||
train_list: 'dataset/train_list.txt'
|
||
# 测试数据的数据列表路径
|
||
test_list: 'dataset/test_list.txt'
|
||
# 标签列表
|
||
label_list_path: 'dataset/label_list.txt'
|
||
# 评估的数据要特殊处理
|
||
eval_conf:
|
||
# 评估的批量大小
|
||
batch_size: 64
|
||
# 最长的音频长度
|
||
max_duration: 10
|
||
# 数据加载器参数
|
||
dataLoader:
|
||
# 训练的批量大小
|
||
batch_size: 64
|
||
# 读取数据的线程数量
|
||
num_workers: 4
|
||
# 是否丢弃最后一个样本
|
||
drop_last: True
|
||
# 数据增强参数
|
||
aug_conf:
|
||
# 是否使用语速扰动增强
|
||
speed_perturb: True
|
||
# 是否使用音量增强
|
||
volume_perturb: False
|
||
# 音量增强概率
|
||
volume_aug_prob: 0.2
|
||
# 噪声增强的噪声文件夹
|
||
noise_dir: 'dataset/noise'
|
||
# 噪声增强概率
|
||
noise_aug_prob: 0.2
|
||
# 是否使用SpecAug
|
||
use_spec_aug: True
|
||
# Spec增强参数
|
||
spec_aug_args:
|
||
# 随机频谱掩码大小
|
||
freq_mask_width: [ 0, 8 ]
|
||
# 随机时间掩码大小
|
||
time_mask_width: [ 0, 10 ]
|
||
|
||
# 数据预处理参数
|
||
preprocess_conf:
|
||
# 音频预处理方法,支持:MelSpectrogram、Spectrogram、MFCC、Fbank
|
||
feature_method: 'Fbank'
|
||
# 设置API参数,更参数查看对应API,不清楚的可以直接删除该部分,直接使用默认值
|
||
method_args:
|
||
sample_frequency: 16000
|
||
num_mel_bins: 80
|
||
|
||
optimizer_conf:
|
||
# 优化方法,支持Adam、AdamW、SGD
|
||
optimizer: 'Adam'
|
||
# 初始学习率的大小
|
||
learning_rate: 0.001
|
||
weight_decay: !!float 1e-6
|
||
# 学习率衰减函数,支持WarmupCosineSchedulerLR、CosineAnnealingLR
|
||
scheduler: 'WarmupCosineSchedulerLR'
|
||
# 学习率衰减函数参数
|
||
scheduler_args:
|
||
min_lr: !!float 1e-5
|
||
max_lr: 0.001
|
||
warmup_epoch: 5
|
||
|
||
model_conf:
|
||
# 分类大小,如果为null,自动通过标签列表获取
|
||
num_class: null
|
||
# 所使用的池化层,支持ASP、SAP、TSP、TAP
|
||
# pooling_type: 'ASP'
|
||
pooling_type: 'SAP'
|
||
|
||
train_conf:
|
||
# 是否开启自动混合精度
|
||
enable_amp: False
|
||
# 是否使用Pytorch2.0的编译器
|
||
use_compile: False
|
||
# CrossEntropyLoss类的weight参数
|
||
loss_weight: null
|
||
# 训练的轮数
|
||
max_epoch: 60
|
||
log_interval: 10
|
||
|
||
# 所使用的模型
|
||
use_model: 'TDNN' |