FFplay源码分析-read_thread - C语言音视频技术

/ 3评 / 0

本系列 以 ffmpeg4.2 源码为准,下载地址:链接:百度网盘 提取码:g3k8

FFplay 源码分析系列以一条简单的命令开始,ffplay -i a.mp4。a.mp4下载链接:百度网盘,提取码:nl0s 。


如下图所示,本文主要讲解 read_thread() 函数的内部逻辑。这个流程图是根据上面的命令ffplay -i a.mp4 画的,有些流程我省略了,因为不会执行某些代码,所以有些if判断我没画出来,为了简洁。

从上面的流程图可以看出, read_thread() 做了一些初始化赋值工作之后,打开视频文件。就会调 stream_component_open() 开启解码线程,这个函数特别重要,下面会仔细讲解。然后就会进去一个 for() 死循环,不断从文件读取 AVPacket,然调用 packet_queue_put() 把 AVPacket 插进去 PacketQueuepacket_queue_put() 也是重点函数,会仔细讲解。

read_thread 线程做的工作其实就这些,非常地简单。

重点函数:

重要知识点:

avformat_open_input() 函数里面的 options 是一个二级指针,他会改变你传进去options,改成没用到的options。然后在后面调用 av_dict_get() 判断返回的options是不是还有值,如果有就报错给出提示。

ffmpeg 很多函数都是如此设计,例如 avcodec_open2(),也是传递一个 二级指针的 options,返回值也会改成没用到的options。



下面开始讲解 stream_component_open() 的内部逻辑,流程图如下:

从流程图可以看出, stream_component_open() 做的事情就是这样,先做一些解码器相关的参数赋值,然后调 avcodec_open2() 打开解码器。然后根据音频或者视频做不同处理。视频就直接开线程 video_thread() 进行后续处理。音频就比较复杂一些,会创建 filter_graph,虽然我们的命令参数没用到 filter,但ffplay为了通用,还是会创建一个空的filter graph,暂时不仔细讲解 configure_audio_filters() 函数的实现,后面再写一篇文章结合一条带 -af 参数的ffplay命令进行讲解。现在只需要知道 解码出来的 AVFrame 会经过 in_audio_filter ,然后从 out_audio_filter 出来就行,因为是空的 filter_graph,所以AVFrame是没变化的。audio_open() 函数用来打开音频设备,其内部实现比较复杂,下面会仔细讲解。

重点函数:

audio_open() 的代码比较少,所以不画流程图,直接贴代码讲解。

if (!wanted_channel_layout || wanted_nb_channels != av_get_channel_layout_nb_channels(wanted_channel_layout)) {
        wanted_channel_layout = av_get_default_channel_layout(wanted_nb_channels);
        wanted_channel_layout &= ~AV_CH_LAYOUT_STEREO_DOWNMIX;
}

上面这段代码特别有意思,在 ffplay.c 里面经常看到这样的判断,判断 channel_layout 跟 channels 是否匹配。应该是一些兼容处理,历史遗留问题。其实我也很疑惑,写入mp4 或 flv 文件的时候,channel_layout 跟 channels字段 难道还会写错,所以需要播放的时候需要纠正一下?我现在写项目,都是照抄这种代码。

wanted_spec.format = AUDIO_S16SYS;

ffplay 只支持 AUDIO_S16SYS 播放格式,原文件如果不是这种格式,后面都会用重采样进行转换格式。

wanted_spec.samples = FFMAX(SDL_AUDIO_MIN_BUFFER_SIZE, 2 << av_log2(wanted_spec.freq / SDL_AUDIO_MAX_CALLBACKS_PER_SEC));

上面的 wanted_spec.samples 是设置 SDL 音频 call_back函数每次回调需要传递多少个 samples 给SDL。这个计算方式比较难懂,我仔细讲一下。wanted_spec.freq 是采用率,如果 freq 等于48000,就是说SDL 每秒播放 48000个sample。SDL_AUDIO_MAX_CALLBACKS_PER_SEC 代表SDL每秒回调多少callback,SDL_AUDIO_MAX_CALLBACKS_PER_SEC 在代码里设置为 30,每秒回调30次。那 (wanted_spec.freq / SDL_AUDIO_MAX_CALLBACKS_PER_SEC) 自然就等于每次回调需要传递的sample数量。那为什么还要用 av_log2() 取指数,然后又用 << 左位移取幂呢?是因为这样做可以把 samples 转换成 2的倍数。例如 48000 / 30 = 1600,1600 并不是 2的倍数,av_log2(1600) 等于 10,然后 2 << 10 等于 2048,最后 wanted_spec.samples 等 2048 ,是2的倍数。为什么要设置成 2的倍数,估计是为了对齐内存,请看SDL 的文档 https://wiki.libsdl.org/SDL_OpenAudioDevice,文档建议设置成2的倍数。

接下来是 audio_open() 里面最难懂的逻辑,请看代码。

static const int next_nb_channels[] = {0, 0, 1, 6, 2, 6, 4, 6};
static const int next_sample_rates[] = {0, 44100, 48000, 96000, 192000};
.....省略代码..
while (!(audio_dev = SDL_OpenAudioDevice(NULL, 0, &wanted_spec, &spec, SDL_AUDIO_ALLOW_FREQUENCY_CHANGE | SDL_AUDIO_ALLOW_CHANNELS_CHANGE))) {
        av_log(NULL, AV_LOG_WARNING, "SDL_OpenAudio (%d channels, %d Hz): %s\n",
               wanted_spec.channels, wanted_spec.freq, SDL_GetError());
        wanted_spec.channels = next_nb_channels[FFMIN(7, wanted_spec.channels)];
        if (!wanted_spec.channels) {//注意这句代码。
            wanted_spec.freq = next_sample_rates[next_sample_rate_idx--]; //注意这句代码。
            wanted_spec.channels = wanted_nb_channels;
            if (!wanted_spec.freq) {
                av_log(NULL, AV_LOG_ERROR,
                       "No more combinations to try, audio open failed\n");
                return -1;
            }
        }
        wanted_channel_layout = av_get_default_channel_layout(wanted_spec.channels);
}

audio_open() 在入口就定义了这么一个数组 next_nb_channels[],0,0,1,6,2,6,4,6。咋一看,不太容易看出来是干啥的。其实就像他那句报错提示说的。

"No more combinations to try, audio open failed"

next_nb_channelsnext_sample_rates 是一个 combination,组合尝试。不断用 不同的采样率,不同的声道来打开音频设备。为什么这样做?

因为有些设备,不支持播放双声道,只支持单声道。但是原文件的音频是双声道的。这种情况下 audio_open() 是如何处理的呢?这时候,next_nb_channelsnext_sample_rates 就排上用场了。

在 audio_open() 的逻辑里,会先尝试用双声道打开音频设备,但是音频设备不支持双声道,while 那里就会失败。然后请注意这句代码。

wanted_spec.channels = next_nb_channels[FFMIN(7, wanted_spec.channels)];

因为 wanted_spec.channels 等于2,所以 next_nb_channels[FFMIN(7, wanted_spec.channels)] 计算出来的结果是 1,所以从逻辑上,就会从双声道变成单声道,重新调 SDL_OpenAudioDevice() 函数尝试打开音频设备。

解析到这里,应该比较清楚 next_nb_channels[] 这个数组那堆0,0,1,6,2,6,4,6 是干什么了,没错,next_nb_channels 其实是一个map表,声道切换映射表。

为什么后面两个 是 0,是因为切换到后面的时候,已经没法再切换了,就会尝试降低采样率。请看代码

 if (!wanted_spec.channels) {//注意这句代码。
     wanted_spec.freq = next_sample_rates[next_sample_rate_idx--]; //注意这句代码。
     wanted_spec.channels = wanted_nb_channels;
    if (!wanted_spec.freq) {
      av_log(NULL, AV_LOG_ERROR,"No more combinations to try, audio open failed\n");
      return -1;
    }
}

next_sample_rate_idx 在开头就赋值为 比 want 采样率小的 index。然后声道都尝试完了,还打不开音频设备,就会尝试更小的采样率,再用新的采样率结合之前的声道都尝试一下打开音频设备。

所以说 next_nb_channelsnext_sample_rates 是一个 combination,组合尝试。


ffplay 源码分析,stream_component_open() 分析完毕。

©版权所属:知识星球:弦外之音,QQ:2338195090。

由于笔者的水平有限, 加之编写的同时还要参与开发工作,文中难免会出现一些错误或者不准确的地方,恳请读者批评指正。如果读者有任何宝贵意见,可以加我微信 Loken1。

  1. 一个内伤说道:

    、、、
    ffplay 只支持 AUDIO_S16SYS 播放格式
    、、、
    ffplay 为什么要这么限制?

    自己写demo SDL 也支持 AUDIO_F32SYS 格式的

    • loken说道:

      @一个内伤 SDL 支持的音频格式蛮多,ffplay 也不是只支持 AUDIO_S16SYS ,而是 ffplay 会把所有的输入音频都转成 AUDIO_S16SYS 格式,然后丢给 SDL。
      ffplay 强制转成 AUDIO_S16SYS 我个人估计是因为省事,一个开源项目,他支持那么多格式会很累,而且一般场景,听起来差别不大。

  2. token说道:

    SDL_AUDIO_MAX_CALLBACKS_PER_SEC 是30每秒回调次数这个30次是SDL固定的吗

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注