Android之视频编解码

Post Views: 2,965

不吹不黑，我的多媒体基础非常之薄弱，自己也意识到这方面的知识要恶补。最近由于工作上的需求，我也在弄编解码的东西。这篇blog主要的目的就是把最近理解到的东西记录下来，主要内容包括MediaExtractor、MediaCodecs以及Android上的硬件加速。

MediaExtractor

为什么要从MediaExtractor开始说起呢？其实有两方面的原因，首先是它比较简单，其次它常常是视频编解码的第一个步骤。从功能上讲，MediaExtractor其实就是一个高配InputStream。它的作用就是读取音视频文件，然后按照一定的格式输出出来。废话不多说，我们先看一段使用的MediaExtractor的代码，然后结合代码分析。

 MediaExtractor extractor = new MediaExtractor();
 extractor.setDataSource(...);
 int numTracks = extractor.getTrackCount();
 for (int i = 0; i < numTracks; ++i) {
   MediaFormat format = extractor.getTrackFormat(i);
   String mime = format.getString(MediaFormat.KEY_MIME);
   if (weAreInterestedInThisTrack) {
     extractor.selectTrack(i);
   }
 }
 ByteBuffer inputBuffer = ByteBuffer.allocate(...)
 while (extractor.readSampleData(inputBuffer, ...) >= 0) {
   int trackIndex = extractor.getSampleTrackIndex();
   long presentationTimeUs = extractor.getSampleTime();
   ...
   extractor.advance();
 }

 extractor.release();
 extractor = null;

略过构造函数不看，第一个重要的方法就是setDataSource()。顾名思义，这个方法的作用就是为这个高配InputStream设置一个数据源。这个dataSource其实可能有多种，文件的url、文件fd或者其他类型。事实上，MediaExtractor同样使用在播放器中，exoplayer内部就有它的身影。但是不同的数据源的差异其实已经被MediaExtractor屏蔽了，我们只需要把它当做一个流处理即可。

getTrackCount()方法返回这个多媒体流中video轨和audio轨的总个数。selectTrack()就是选择你想要处理的track，这个方法和readSampleData()紧紧关联。举个例子，有一个视频流，你选择了两个track，在流处理的地方使用readSampleData会读到两种包。如果你只想处理其中一个，而又选择了两个Track(我也不知道你为什么要这么做^_^)，你需要使用getSampleTrackIndex()判断这个包是不是你想要的。getSampleTime()也很好理解了，就是这个Sample的时间戳咯！advance()就是前进到下一帧。

感觉寥寥几段就把MediaExtractor说完了，看来的确很简单。这里讲一下，使用extractor可能遇到的两个问题：

第一种情况是，选择了两个track，但是只处理了一个track的数据。而且代码的逻辑是，遇到不感兴趣的track没有跳过去。这将导致整个pipeline跑不起来，解决的方法就是反选掉不感兴趣的track或者跳过不敢兴起的track。

另外一中情况是，选择了两个track，而且两个track的包在视频流中的分布非常不均匀。同时，代码的逻辑是两个track同步的往下走，就可能出现其中一个track的包积压特别多，最终导致程序bug。

MediaCodec

分析完简单的，就要分析重点了——MediaCodec。无需多言，MediaCodec的作用就是多媒体编解码。Google的文档中给了一张解释MediaCodec的图，如下所示：

很容易看出来MediaCodec的功能——完成输入到输出的转化。从宏观逻辑来看，encoder和decoder其实是非常相似的。下面这段代码其实就没有区分encoder和decoder，然而并不影响我们的理解。

 MediaCodec codec = MediaCodec.createByCodecName(name);
 codec.configure(format, …);
 MediaFormat outputFormat = codec.getOutputFormat(); // option B
 codec.start();
 for (;;) {
   int inputBufferId = codec.dequeueInputBuffer(timeoutUs);
   if (inputBufferId >= 0) {
     ByteBuffer inputBuffer = codec.getInputBuffer(…);
     // fill inputBuffer with valid data
     …
     codec.queueInputBuffer(inputBufferId, …);
   }
   int outputBufferId = codec.dequeueOutputBuffer(…);
   if (outputBufferId >= 0) {
     ByteBuffer outputBuffer = codec.getOutputBuffer(outputBufferId);
     MediaFormat bufferFormat = codec.getOutputFormat(outputBufferId); // option A
     // bufferFormat is identical to outputFormat
     // outputBuffer is ready to be processed or rendered.
     …
     codec.releaseOutputBuffer(outputBufferId, …);
   } else if (outputBufferId == MediaCodec.INFO_OUTPUT_FORMAT_CHANGED) {
     // Subsequent data will conform to new format.
     // Can ignore if using getOutputFormat(outputBufferId)
     outputFormat = codec.getOutputFormat(); // option B
   }
 }
 codec.stop();
 codec.release();

先不管配置的话，关键的api其实就只有四个，dequeueInputBuffer、enqueueInputBuffer、dequeueOutputBuffer以及getOutputBuffer。dequeueInputBuffer的作用是把尝试寻找一个空闲的inputBuffer；enqueueInputBuffer则是把数据放到Codec的缓冲区里；dequeueOutput的作用是寻找一个处理完成的输出缓冲区；getOutputBuffer则是把处理完成的数据拿回来。

其实这些api的是顾名思义的，都不需要我一个个解释。可能有的同学会觉得，这个MediaCodec其实也不过如此嘛！其实不然，MediaCodec还是水挺深的，比如说它与Surface的关系。MediaCodec的configure函数原型是这样的——

void configure (MediaFormat format, 
                Surface surface, 
                MediaCrypto crypto, 
                int flags)

Google是比较推荐decoder使用Surface的，他们给出的解释是ByteBuffer的拷贝比价低效。此外，decoder也可以使用Surface作为输入，根据Surface的内容进行video encoding。MediaCodec的其他状态机原理，我现在还不清楚，就暂且不分析了。

硬件加速的编解码

如果对GPU或者Open GL ES有所了解，其实对android的硬件加速就不难理解了。其实MediaCodec是通过Surface来实现编解码的硬件加速，Surface的构造函数是这样的：

Surface (SurfaceTexture surfaceTexture)

而SurfaceTexture本身可以为OpenGL ES提供一个贴图(texture)。而做贴图是GPU的最基本的工作了，做视频的时候甚至连建模和投影都不需要了，只要做贴图和离散化就OK。下面给出一段封装Texture的代码，是github上的。

class TextureRender {
    private static final String TAG = "TextureRender";
    private static final int FLOAT_SIZE_BYTES = 4;
    private static final int TRIANGLE_VERTICES_DATA_STRIDE_BYTES = 5 * FLOAT_SIZE_BYTES;
    private static final int TRIANGLE_VERTICES_DATA_POS_OFFSET = 0;
    private static final int TRIANGLE_VERTICES_DATA_UV_OFFSET = 3;
    private final float[] mTriangleVerticesData = {
            // X, Y, Z, U, V
            -1.0f, -1.0f, 0, 0.f, 0.f,
            1.0f, -1.0f, 0, 1.f, 0.f,
            -1.0f,  1.0f, 0, 0.f, 1.f,
            1.0f,  1.0f, 0, 1.f, 1.f,
    };
    private FloatBuffer mTriangleVertices;
    private static final String VERTEX_SHADER =
            "uniform mat4 uMVPMatrix;\n" +
                    "uniform mat4 uSTMatrix;\n" +
                    "attribute vec4 aPosition;\n" +
                    "attribute vec4 aTextureCoord;\n" +
                    "varying vec2 vTextureCoord;\n" +
                    "void main() {\n" +
                    "  gl_Position = uMVPMatrix * aPosition;\n" +
                    "  vTextureCoord = (uSTMatrix * aTextureCoord).xy;\n" +
                    "}\n";
    private static final String FRAGMENT_SHADER =
            "#extension GL_OES_EGL_image_external : require\n" +
                    "precision mediump float;\n" +      // highp here doesn't seem to matter
                    "varying vec2 vTextureCoord;\n" +
                    "uniform samplerExternalOES sTexture;\n" +
                    "void main() {\n" +
                    "  gl_FragColor = texture2D(sTexture, vTextureCoord);\n" +
                    "}\n";
    private float[] mMVPMatrix = new float[16];
    private float[] mSTMatrix = new float[16];
    private int mProgram;
    private int mTextureID = -12345;
    private int muMVPMatrixHandle;
    private int muSTMatrixHandle;
    private int maPositionHandle;
    private int maTextureHandle;
    public TextureRender() {
        mTriangleVertices = ByteBuffer.allocateDirect(
                mTriangleVerticesData.length * FLOAT_SIZE_BYTES)
                .order(ByteOrder.nativeOrder()).asFloatBuffer();
        mTriangleVertices.put(mTriangleVerticesData).position(0);
        Matrix.setIdentityM(mSTMatrix, 0);
    }
    public int getTextureId() {
        return mTextureID;
    }
    public void drawFrame(SurfaceTexture st) {
        checkGlError("onDrawFrame start");
        st.getTransformMatrix(mSTMatrix);
        GLES20.glClearColor(0.0f, 1.0f, 0.0f, 1.0f);
        GLES20.glClear(GLES20.GL_DEPTH_BUFFER_BIT | GLES20.GL_COLOR_BUFFER_BIT);
        GLES20.glUseProgram(mProgram);
        checkGlError("glUseProgram");
        GLES20.glActiveTexture(GLES20.GL_TEXTURE0);
        GLES20.glBindTexture(GLES11Ext.GL_TEXTURE_EXTERNAL_OES, mTextureID);
        mTriangleVertices.position(TRIANGLE_VERTICES_DATA_POS_OFFSET);
        GLES20.glVertexAttribPointer(maPositionHandle, 3, GLES20.GL_FLOAT, false,
                TRIANGLE_VERTICES_DATA_STRIDE_BYTES, mTriangleVertices);
        checkGlError("glVertexAttribPointer maPosition");
        GLES20.glEnableVertexAttribArray(maPositionHandle);
        checkGlError("glEnableVertexAttribArray maPositionHandle");
        mTriangleVertices.position(TRIANGLE_VERTICES_DATA_UV_OFFSET);
        GLES20.glVertexAttribPointer(maTextureHandle, 2, GLES20.GL_FLOAT, false,
                TRIANGLE_VERTICES_DATA_STRIDE_BYTES, mTriangleVertices);
        checkGlError("glVertexAttribPointer maTextureHandle");
        GLES20.glEnableVertexAttribArray(maTextureHandle);
        checkGlError("glEnableVertexAttribArray maTextureHandle");
        Matrix.setIdentityM(mMVPMatrix, 0);
        GLES20.glUniformMatrix4fv(muMVPMatrixHandle, 1, false, mMVPMatrix, 0);
        GLES20.glUniformMatrix4fv(muSTMatrixHandle, 1, false, mSTMatrix, 0);
        GLES20.glDrawArrays(GLES20.GL_TRIANGLE_STRIP, 0, 4);
        checkGlError("glDrawArrays");
        GLES20.glFinish();
    }

这段代码没有必要非常仔细的看，抓住几个关键点即可。mTriangleVerticesData，这个数组包含了模型的四个顶点，分别对应video的四个顶点。讲真，这个真的不算模型^o^！然后的顶点着色器和片段着色器也都很简单，没必要讲，因为它们真的没干啥，MVP变换矩阵也是空的。。。

那么看啥呢？其实就这个mTextureID有用，这个mTextureID可以和SurfaceTexture绑定到一起。所以整个流程就是Surface==》TextureSurface==>Open GL ES texture。如果要把Open GL的结果导出，该怎么办呢？答案就是swapBuffer()。

好吧！终于把这几部分东西梳理了下，media方面的东西还有很多要学习！加油！

（我的Leonard球衣今天应该能到，开心！）

Android之视频编解码

MediaExtractor

MediaCodec

硬件加速的编解码

仅有1条评论发表评论

发表评论取消回复

近期文章

最新评论

归档

分类

Follow Me

功能

Android之视频编解码

MediaExtractor

MediaCodec

硬件加速的编解码

仅有1条评论 发表评论

发表评论 取消回复

近期文章

最新评论

归档

标签

分类

Follow Me

功能

仅有1条评论发表评论

发表评论取消回复