Android之视频编解码

= 2257

media

不吹不黑,我的多媒体基础非常之薄弱,自己也意识到这方面的知识要恶补。最近由于工作上的需求,我也在弄编解码的东西。这篇blog主要的目的就是把最近理解到的东西记录下来,主要内容包括MediaExtractor、MediaCodecs以及Android上的硬件加速。


  • MediaExtractor

为什么要从MediaExtractor开始说起呢?其实有两方面的原因,首先是它比较简单,其次它常常是视频编解码的第一个步骤。从功能上讲,MediaExtractor其实就是一个高配InputStream。它的作用就是读取音视频文件,然后按照一定的格式输出出来。废话不多说,我们先看一段使用的MediaExtractor的代码,然后结合代码分析。

 MediaExtractor extractor = new MediaExtractor();
 extractor.setDataSource(...);
 int numTracks = extractor.getTrackCount();
 for (int i = 0; i < numTracks; ++i) {
   MediaFormat format = extractor.getTrackFormat(i);
   String mime = format.getString(MediaFormat.KEY_MIME);
   if (weAreInterestedInThisTrack) {
     extractor.selectTrack(i);
   }
 }
 ByteBuffer inputBuffer = ByteBuffer.allocate(...)
 while (extractor.readSampleData(inputBuffer, ...) >= 0) {
   int trackIndex = extractor.getSampleTrackIndex();
   long presentationTimeUs = extractor.getSampleTime();
   ...
   extractor.advance();
 }

 extractor.release();
 extractor = null;

略过构造函数不看,第一个重要的方法就是setDataSource()。顾名思义,这个方法的作用就是为这个高配InputStream设置一个数据源。这个dataSource其实可能有多种,文件的url、文件fd或者其他类型。事实上,MediaExtractor同样使用在播放器中,exoplayer内部就有它的身影。但是不同的数据源的差异其实已经被MediaExtractor屏蔽了,我们只需要把它当做一个流处理即可。

getTrackCount()方法返回这个多媒体流中video轨和audio轨的总个数。selectTrack()就是选择你想要处理的track,这个方法和readSampleData()紧紧关联。举个例子,有一个视频流,你选择了两个track,在流处理的地方使用readSampleData会读到两种包。如果你只想处理其中一个,而又选择了两个Track(我也不知道你为什么要这么做^_^),你需要使用getSampleTrackIndex()判断这个包是不是你想要的。getSampleTime()也很好理解了,就是这个Sample的时间戳咯!advance()就是前进到下一帧。

感觉寥寥几段就把MediaExtractor说完了,看来的确很简单。这里讲一下,使用extractor可能遇到的两个问题:

第一种情况是,选择了两个track,但是只处理了一个track的数据。而且代码的逻辑是,遇到不感兴趣的track没有跳过去。这将导致整个pipeline跑不起来,解决的方法就是反选掉不感兴趣的track或者跳过不敢兴起的track。

另外一中情况是,选择了两个track,而且两个track的包在视频流中的分布非常不均匀。同时,代码的逻辑是两个track同步的往下走,就可能出现其中一个track的包积压特别多,最终导致程序bug。


  • MediaCodec

分析完简单的,就要分析重点了——MediaCodec。无需多言,MediaCodec的作用就是多媒体编解码。Google的文档中给了一张解释MediaCodec的图,如下所示:

media_codec

很容易看出来MediaCodec的功能——完成输入到输出的转化。从宏观逻辑来看,encoder和decoder其实是非常相似的。下面这段代码其实就没有区分encoder和decoder,然而并不影响我们的理解。

 MediaCodec codec = MediaCodec.createByCodecName(name);
 codec.configure(format, …);
 MediaFormat outputFormat = codec.getOutputFormat(); // option B
 codec.start();
 for (;;) {
   int inputBufferId = codec.dequeueInputBuffer(timeoutUs);
   if (inputBufferId >= 0) {
     ByteBuffer inputBuffer = codec.getInputBuffer(…);
     // fill inputBuffer with valid data
     …
     codec.queueInputBuffer(inputBufferId, …);
   }
   int outputBufferId = codec.dequeueOutputBuffer(…);
   if (outputBufferId >= 0) {
     ByteBuffer outputBuffer = codec.getOutputBuffer(outputBufferId);
     MediaFormat bufferFormat = codec.getOutputFormat(outputBufferId); // option A
     // bufferFormat is identical to outputFormat
     // outputBuffer is ready to be processed or rendered.
     …
     codec.releaseOutputBuffer(outputBufferId, …);
   } else if (outputBufferId == MediaCodec.INFO_OUTPUT_FORMAT_CHANGED) {
     // Subsequent data will conform to new format.
     // Can ignore if using getOutputFormat(outputBufferId)
     outputFormat = codec.getOutputFormat(); // option B
   }
 }
 codec.stop();
 codec.release();

先不管配置的话,关键的api其实就只有四个,dequeueInputBuffer、enqueueInputBuffer、dequeueOutputBuffer以及getOutputBuffer。dequeueInputBuffer的作用是把尝试寻找一个空闲的inputBuffer;enqueueInputBuffer则是把数据放到Codec的缓冲区里;dequeueOutput的作用是寻找一个处理完成的输出缓冲区;getOutputBuffer则是把处理完成的数据拿回来。

其实这些api的是顾名思义的,都不需要我一个个解释。可能有的同学会觉得,这个MediaCodec其实也不过如此嘛!其实不然,MediaCodec还是水挺深的,比如说它与Surface的关系。MediaCodec的configure函数原型是这样的——

void configure (MediaFormat format, 
                Surface surface, 
                MediaCrypto crypto, 
                int flags)

Google是比较推荐decoder使用Surface的,他们给出的解释是ByteBuffer的拷贝比价低效。此外,decoder也可以使用Surface作为输入,根据Surface的内容进行video encoding。MediaCodec的其他状态机原理,我现在还不清楚,就暂且不分析了。


  • 硬件加速的编解码

如果对GPU或者Open GL ES有所了解,其实对android的硬件加速就不难理解了。其实MediaCodec是通过Surface来实现编解码的硬件加速,Surface的构造函数是这样的:

Surface (SurfaceTexture surfaceTexture)

而SurfaceTexture本身可以为OpenGL ES提供一个贴图(texture)。而做贴图是GPU的最基本的工作了,做视频的时候甚至连建模和投影都不需要了,只要做贴图和离散化就OK。下面给出一段封装Texture的代码,是github上的。

class TextureRender {
    private static final String TAG = "TextureRender";
    private static final int FLOAT_SIZE_BYTES = 4;
    private static final int TRIANGLE_VERTICES_DATA_STRIDE_BYTES = 5 * FLOAT_SIZE_BYTES;
    private static final int TRIANGLE_VERTICES_DATA_POS_OFFSET = 0;
    private static final int TRIANGLE_VERTICES_DATA_UV_OFFSET = 3;
    private final float[] mTriangleVerticesData = {
            // X, Y, Z, U, V
            -1.0f, -1.0f, 0, 0.f, 0.f,
            1.0f, -1.0f, 0, 1.f, 0.f,
            -1.0f,  1.0f, 0, 0.f, 1.f,
            1.0f,  1.0f, 0, 1.f, 1.f,
    };
    private FloatBuffer mTriangleVertices;
    private static final String VERTEX_SHADER =
            "uniform mat4 uMVPMatrix;\n" +
                    "uniform mat4 uSTMatrix;\n" +
                    "attribute vec4 aPosition;\n" +
                    "attribute vec4 aTextureCoord;\n" +
                    "varying vec2 vTextureCoord;\n" +
                    "void main() {\n" +
                    "  gl_Position = uMVPMatrix * aPosition;\n" +
                    "  vTextureCoord = (uSTMatrix * aTextureCoord).xy;\n" +
                    "}\n";
    private static final String FRAGMENT_SHADER =
            "#extension GL_OES_EGL_image_external : require\n" +
                    "precision mediump float;\n" +      // highp here doesn't seem to matter
                    "varying vec2 vTextureCoord;\n" +
                    "uniform samplerExternalOES sTexture;\n" +
                    "void main() {\n" +
                    "  gl_FragColor = texture2D(sTexture, vTextureCoord);\n" +
                    "}\n";
    private float[] mMVPMatrix = new float[16];
    private float[] mSTMatrix = new float[16];
    private int mProgram;
    private int mTextureID = -12345;
    private int muMVPMatrixHandle;
    private int muSTMatrixHandle;
    private int maPositionHandle;
    private int maTextureHandle;
    public TextureRender() {
        mTriangleVertices = ByteBuffer.allocateDirect(
                mTriangleVerticesData.length * FLOAT_SIZE_BYTES)
                .order(ByteOrder.nativeOrder()).asFloatBuffer();
        mTriangleVertices.put(mTriangleVerticesData).position(0);
        Matrix.setIdentityM(mSTMatrix, 0);
    }
    public int getTextureId() {
        return mTextureID;
    }
    public void drawFrame(SurfaceTexture st) {
        checkGlError("onDrawFrame start");
        st.getTransformMatrix(mSTMatrix);
        GLES20.glClearColor(0.0f, 1.0f, 0.0f, 1.0f);
        GLES20.glClear(GLES20.GL_DEPTH_BUFFER_BIT | GLES20.GL_COLOR_BUFFER_BIT);
        GLES20.glUseProgram(mProgram);
        checkGlError("glUseProgram");
        GLES20.glActiveTexture(GLES20.GL_TEXTURE0);
        GLES20.glBindTexture(GLES11Ext.GL_TEXTURE_EXTERNAL_OES, mTextureID);
        mTriangleVertices.position(TRIANGLE_VERTICES_DATA_POS_OFFSET);
        GLES20.glVertexAttribPointer(maPositionHandle, 3, GLES20.GL_FLOAT, false,
                TRIANGLE_VERTICES_DATA_STRIDE_BYTES, mTriangleVertices);
        checkGlError("glVertexAttribPointer maPosition");
        GLES20.glEnableVertexAttribArray(maPositionHandle);
        checkGlError("glEnableVertexAttribArray maPositionHandle");
        mTriangleVertices.position(TRIANGLE_VERTICES_DATA_UV_OFFSET);
        GLES20.glVertexAttribPointer(maTextureHandle, 2, GLES20.GL_FLOAT, false,
                TRIANGLE_VERTICES_DATA_STRIDE_BYTES, mTriangleVertices);
        checkGlError("glVertexAttribPointer maTextureHandle");
        GLES20.glEnableVertexAttribArray(maTextureHandle);
        checkGlError("glEnableVertexAttribArray maTextureHandle");
        Matrix.setIdentityM(mMVPMatrix, 0);
        GLES20.glUniformMatrix4fv(muMVPMatrixHandle, 1, false, mMVPMatrix, 0);
        GLES20.glUniformMatrix4fv(muSTMatrixHandle, 1, false, mSTMatrix, 0);
        GLES20.glDrawArrays(GLES20.GL_TRIANGLE_STRIP, 0, 4);
        checkGlError("glDrawArrays");
        GLES20.glFinish();
    }

这段代码没有必要非常仔细的看,抓住几个关键点即可。mTriangleVerticesData,这个数组包含了模型的四个顶点,分别对应video的四个顶点。讲真,这个真的不算模型^o^!然后的顶点着色器和片段着色器也都很简单,没必要讲,因为它们真的没干啥,MVP变换矩阵也是空的。。。

那么看啥呢?其实就这个mTextureID有用,这个mTextureID可以和SurfaceTexture绑定到一起。所以整个流程就是Surface==》TextureSurface==>Open GL ES texture。如果要把Open GL的结果导出,该怎么办呢?答案就是swapBuffer()。

好吧!终于把这几部分东西梳理了下,media方面的东西还有很多要学习!加油!

 

(我的Leonard球衣今天应该能到,开心!)

仅有1条评论 发表评论

  1. xiongmaozhijin /

    感谢,学习!

发表评论