當一個安卓開發(fā)玩抖音玩瘋了之后(一)

滴,滴滴!

暗號

本篇文章將介紹自己總結(jié)的短視頻錄制的相關(guān)內(nèi)容,主要分為三個部分:

  • 攝像頭內(nèi)容錄制
  • 音頻錄制
  • 視頻合成

先上效果圖

  • 錄制過程


    錄制過程截圖
  • 錄制結(jié)果


    錄制結(jié)果截圖

1.攝像頭內(nèi)容錄制

錄制

錄制流程大致如上圖所示。

渲染關(guān)鍵代碼

新建外部紋理

    @Override
    public void onSurfaceCreated(GL10 gl, EGLConfig config) {
        mTextureId = GLUtils.createTextureObject(GLES11Ext.GL_TEXTURE_EXTERNAL_OES);
        mSurfaceTexture = new SurfaceTexture(mTextureId);
        ...
    }

新建了外部紋理之后,傳入 Camera

mCamera.setPreviewTexture(mSurfaceTexture);
mCamera.startPreview();

GLSurfaceView 渲染時,請求 SurfaceTexture 更新,獲取最新的內(nèi)容

    @Override
    public void onDrawFrame(GL10 gl) {
        if (mFilter == null) {
            return;
        }
        float matrix[] = new float[16];
        if (mSurfaceTexture != null) {
            //請求刷新最新內(nèi)容
            mSurfaceTexture.updateTexImage();
        }
        mSurfaceTexture.getTransformMatrix(matrix);

        if (mFrameListener != null) {
            //通知MediaCodec刷新畫面
            mFrameListener.onFrameAvailable(new VideoFrameData(mFilter,
                    matrix, mSurfaceTexture.getTimestamp(), mTextureId));
        }
        mFilter.init();
        if (mOldFilter != null) {
            mOldFilter.release();
            mOldFilter = null;
        }
        mSurfaceTexture.getTransformMatrix(mMatrix);
        //繪制預(yù)覽內(nèi)容
        mFilter.draw(mTextureId, mMatrix);
    }

mFilter 中包含 OpenGL 相關(guān)的著色器程序

著色器代碼如下:

    /**
     * 默認代碼
     */
    private static final String FRAGMENT_CODE =
            "#extension GL_OES_EGL_image_external : require\n" +
                    "precision mediump float;\n" +
                    "varying vec2 vTextureCoord;\n" +
                    "uniform samplerExternalOES uTexture;\n" +
                    "void main() {\n" +
                    "    gl_FragColor = texture2D(uTexture, vTextureCoord);\n" +
                    "}\n";
    /**
     * 默認代碼
     */
    private static final String VERTEX_CODE =
            "uniform mat4 uTexMatrix;\n" +
                    "attribute vec2 aPosition;\n" +
                    "attribute vec4 aTextureCoord;\n" +
                    "varying vec2 vTextureCoord;\n" +
                    "void main() {\n" +
                    "    gl_Position = vec4(aPosition,0.0,1.0);\n" +
                    "    vTextureCoord = (uTexMatrix * aTextureCoord).xy;\n" +
                    "}\n";

外部紋理和普通紋理不同,需要在片段著色器代碼頭部聲明拓展。

#extension GL_OES_EGL_image_external : require

著色器代碼比較簡單,不包含濾鏡相關(guān)的內(nèi)容,直接使用相機的紋理繪制一個矩形。

錄制關(guān)鍵代碼

內(nèi)容錄制編碼使用 MediaCodec + MediaMuxer 的組合來實現(xiàn)。MediaCodec 在初始化時,我們可以從中獲取一個 Surface,用來往里面填充內(nèi)容。

        MediaFormat format = MediaFormat.createVideoFormat(C.VideoParams.MIME_TYPE,
                configuration.getVideoWidth(),
                configuration.getVideoHeight());
        //設(shè)置參數(shù)
        format.setInteger(MediaFormat.KEY_COLOR_FORMAT,
                MediaCodecInfo.CodecCapabilities.COLOR_FormatSurface);
        format.setInteger(MediaFormat.KEY_BIT_RATE, C.VideoParams.BIT_RATE);
        format.setInteger(MediaFormat.KEY_FRAME_RATE, C.VideoParams.SAMPLE_RATE);
        format.setInteger(MediaFormat.KEY_I_FRAME_INTERVAL, C.VideoParams.I_FRAME_INTERVAL);
        MediaCodec encoder = MediaCodec.createEncoderByType(C.VideoParams.MIME_TYPE);
        encoder.configure(format, null, null, MediaCodec.CONFIGURE_FLAG_ENCODE);
        inputSurface = encoder.createInputSurface();

獲取 inputSurface 之后,我們新建一個 EGLSurface,到這里編碼器的初始化就完成了,當有新的內(nèi)容時,通知編碼器來刷新。之前我們獲取了GLSurfaceView 的 GL 上下文,當收到新內(nèi)容通知時,我們把 GL 環(huán)境切到編碼器的線程,然后繪制,最后調(diào)用 swapBuffers 方法把繪制的內(nèi)容填充到inputSurface 中,這就是所謂的離屏渲染(聽著很高大上,后面講解短視頻后期制作時也會用到這個)。

這里不使用 EOS 紋理也是可以的,我們可以通過 Camera 的setPreviewCallback 方法監(jiān)聽相機的每一幀數(shù)據(jù),然后將 YUV 數(shù)據(jù)轉(zhuǎn)換成ARGB 數(shù)據(jù),再轉(zhuǎn)成紋理交給 OpenGL 渲染即可。

最后新建 MediaMuxer

muxer = new MediaMuxer(configuration.getFileName(),
                MediaMuxer.OutputFormat.MUXER_OUTPUT_MPEG_4);

此部分內(nèi)容參考 grafika 實現(xiàn)

微笑

視頻變速

視頻變速相對來說比較容易,在編碼之后,我們從 MediaCodec 的緩沖區(qū)中獲取本次編碼內(nèi)容的 ByteBuffer 和 BufferInfo ,前者是編碼后的內(nèi)容,后者是本次內(nèi)容的信息,包括時間戳,大小等。我們通過改變視頻的時間戳,就可以達到視頻變速的要求。比如要加快視頻的速度,那么只需要將視頻的時間戳間隔縮小一定的倍數(shù)即可。放慢操作和這個相反,只需要把時間戳間隔放大一定的倍數(shù)即可。

音頻錄制

音頻的錄制我們需要使用到 AudioRecord 這個大殺器,大致流程圖如下。

音頻流程圖

音頻錄制比較簡單,參考官方文檔即可。這里需要開啟兩條線程,因為目前使用的編碼是同步模式,如果是在一條線程里處理數(shù)據(jù),會導致麥克風的數(shù)據(jù)丟失。

關(guān)鍵代碼如下:

初始化AudioRecord
指定單聲道模式,采樣率為 44100,每個采樣點 16 比特

 int bufferSize = AudioRecord.getMinBufferSize(
                configuration.getSampleRate(), C.AudioParams.CHANNEL,
                C.AudioParams.BITS_PER_SAMPLE);
 recorder = new AudioRecord(
                MediaRecorder.AudioSource.MIC, configuration.getSampleRate(),
                C.AudioParams.CHANNEL, C.AudioParams.BITS_PER_SAMPLE, bufferSize);

初始化MediaCodec

        MediaFormat audioFormat = MediaFormat.createAudioFormat(C.AudioParams.MIME_TYPE,
                C.AudioParams.SAMPLE_RATE, C.AudioParams.CHANNEL_COUNT);
        audioFormat.setInteger(MediaFormat.KEY_AAC_PROFILE,
                MediaCodecInfo.CodecProfileLevel.AACObjectLC);
        audioFormat.setInteger(MediaFormat.KEY_CHANNEL_MASK, C.AudioParams.CHANNEL);
        audioFormat.setInteger(MediaFormat.KEY_BIT_RATE, C.AudioParams.BIT_RATE);
        audioFormat.setInteger(MediaFormat.KEY_CHANNEL_COUNT, C.AudioParams.CHANNEL_COUNT);
        audioFormat.setInteger(MediaFormat.KEY_MAX_INPUT_SIZE, 1024 * 4);
        encoder = MediaCodec.createEncoderByType(C.AudioParams.MIME_TYPE);
        encoder.configure(audioFormat, null, null, MediaCodec.CONFIGURE_FLAG_ENCODE);
        bufferInfo = new MediaCodec.BufferInfo();
        mStream = new BufferedOutputStream(new FileOutputStream(configuration.getFileName()));

音頻編碼

讀取音頻數(shù)據(jù)

 byte[] buffer = new byte[configuration.getSamplePerFrame()];
 int bytes = recorder.read(buffer, 0, buffer.length);
 if (bytes > 0) {
     encode(buffer, bytes);
 }

塞進MediaCodec緩沖區(qū)

    private void onEncode(byte[] data, int length) {
        final ByteBuffer[] inputBuffers = encoder.getInputBuffers();
        while (true) {
            final int inputBufferIndex = encoder.dequeueInputBuffer(BUFFER_TIME_OUT);
            if (inputBufferIndex >= 0) {
                final ByteBuffer inputBuffer = inputBuffers[inputBufferIndex];
                inputBuffer.clear();
                inputBuffer.position(0);
                if (data != null) {
                    inputBuffer.put(data, 0, length);
                }
                if (length <= 0) {
                    encoder.queueInputBuffer(inputBufferIndex, 0, 0,
                            getTimeUs(), MediaCodec.BUFFER_FLAG_END_OF_STREAM);
                    break;
                } else {
                    encoder.queueInputBuffer(inputBufferIndex, 0, length,
                            getTimeUs(), 0);
                }
                break;
            }
        }
    }

取出編碼后的數(shù)據(jù)并寫入文件

    private void drain() {
        bufferInfo = new MediaCodec.BufferInfo();
        ByteBuffer[] encoderOutputBuffers = encoder.getOutputBuffers();
        int encoderStatus = encoder.dequeueOutputBuffer(bufferInfo, C.BUFFER_TIME_OUT);
        while (encoderStatus >= 0) {
            ByteBuffer encodedData = encoderOutputBuffers[encoderStatus];
            int outSize = bufferInfo.size;
            encodedData.position(bufferInfo.offset);
            encodedData.limit(bufferInfo.offset + bufferInfo.size);
            byte[] data = new byte[outSize + 7];
            addADTSHeader(data, outSize + 7);
            encodedData.get(data, 7, outSize);
            try {
                mStream.write(data, 0, data.length);
            } catch (IOException e) {
                LogUtil.e(e);
            }
            if (duration >= configuration.getMaxDuration()) {
                stop();
            }
            encoder.releaseOutputBuffer(encoderStatus, false);
            encoderStatus = encoder.dequeueOutputBuffer(bufferInfo, C.BUFFER_TIME_OUT);
        }
    }

aac文件對內(nèi)容格式有要求,需要在每一幀的內(nèi)容頭部添加內(nèi)容,代碼如下:

    private void addADTSHeader(byte[] packet, int length) {
        int profile = 2; // AAC LC
        int freqIdx = 4; // 44.1KHz
        int chanCfg = 1; // CPE
        // fill in A D T S data
        packet[0] = (byte) 0xFF;
        packet[1] = (byte) 0xF9;
        packet[2] = (byte) (((profile - 1) << 6) + (freqIdx << 2) + (chanCfg >> 2));
        packet[3] = (byte) (((chanCfg & 3) << 6) + (length >> 11));
        packet[4] = (byte) ((length & 0x7FF) >> 3);
        packet[5] = (byte) (((length & 7) << 5) + 0x1F);
        packet[6] = (byte) 0xFC;
    }

音頻變速

一開始調(diào)研短視頻方案的時候,對于音頻變速這方面,想了很多個方案:

  • 音頻和視頻使用 MediaMuxer 合成,指定變速速率,在錄制結(jié)束時使用ffmpeg 進行變速
  • 視頻和音頻分開錄制,視頻實時變速錄制,音頻在錄制結(jié)束時使用 ffmpeg 變速,然后再使用 ffmpeg 合并到視頻中
  • 音頻和視頻分開錄制,音頻實時變速,視頻實時變速,錄制完成后,使用ffmpeg 合成

最終我選擇了第三個方案,前兩個方案的死因如下:

  • 效率差,ffmpeg 如果要對視頻進行變速,效率很低,一個視頻如果要放慢三倍,最久的時候要十幾秒,并且因為使用的是軟編,對 cpu 占用率比較高,會導致 UI 卡頓,
  • 音頻變速耗時比視頻變速要少,但是對用戶來說,還是可以感知的到的,所以這個方案也 pass。(主要是達不到抖音的效果)

第三個方案需要使用一個第三方庫——SoundTouch,它可以改變音頻的音調(diào)和速度。SoundTouch 由 C++ 實現(xiàn),因此我們需要用 NDK 工具把它集成到工程當中。集成的方法參照官方文檔即可。官方的例子中主要給出了處理 wav 文件的方法,接下來我介紹一下如何使用這個庫實時處理 pcm 數(shù)據(jù)(通過實時處理PCM 數(shù)據(jù),我們還可以弄個變聲功能噢)。

SoundTouch 使用

新建類—— SoundTouch

public class SoundTouch {
    private native final void setTempo(long handle, float tempo);

    private native final void setPitchSemiTones(long handle, float pitch);

    private native final void putBytes(long handle, byte[] input, int offset, int length);

    private native final int getBytes(long handle, byte[] output, int length);

    private native final static long newInstance();

    private native final void deleteInstance(long handle);

    private native final void flush(long handle);

    private long handle = 0;

    public SoundTouch() {
        handle = newInstance();
    }

    public void putBytes(byte[] input) {
        this.putBytes(handle, input, 0, input.length);
    }

    public int getBytes(byte[] output) {
        return this.getBytes(handle, output, output.length);
    }


    public void close() {
        deleteInstance(handle);
        handle = 0;
    }

    public void flush() {
        this.flush(handle);
    }

    public void setTempo(float tempo) {
        setTempo(handle, tempo);
    }


    public void setPitchSemiTones(float pitch) {
        setPitchSemiTones(handle, pitch);
    }

    static {
        System.loadLibrary("soundtouch");
    }

}

主要有四個方法

  • setTempo —— 設(shè)置音頻變速 大于1為加速,小于1為減速
  • setPitchSemiTones —— 設(shè)置音頻聲調(diào)
  • putBytes —— 將 pcm 數(shù)據(jù)添加到 SoundTouch 管道中
  • getBytes —— 從 SoundTouch 管道中取出處理過的 pcm 數(shù)據(jù)

新建對應(yīng)的 cpp 文件,關(guān)鍵代碼如下:

void Java_com_netease_soundtouch_SoundTouch_setTempo(JNIEnv *env, jobject thiz, jlong handle, jfloat tempo)
{
    SoundTouch *ptr = (SoundTouch *)handle;
    ptr->setTempo(tempo);
}
void Java_com_netease_soundtouch_SoundTouch_setPitchSemiTones(JNIEnv *env, jobject thiz, jlong handle, jfloat pitch)
{
    SoundTouch *ptr = (SoundTouch *)handle;
    ptr->setPitchSemiTones(pitch);
}
void Java_com_netease_soundtouch_SoundTouch_putBytes(JNIEnv *env, jobject thiz, jlong handle, jbyteArray input, jint offset, jint length)
{
    SoundTouch *soundTouch = (SoundTouch *)handle;
    jbyte *data;
    data = env->GetByteArrayElements(input, JNI_FALSE);
    soundTouch->putSamples((SAMPLETYPE *)data, length/2);
    env->ReleaseByteArrayElements(input, data, 0);
}
jint Java_com_netease_soundtouch_SoundTouch_getBytes(JNIEnv *env, jobject thiz, jlong handle, jbyteArray output, jint length)
{
    int receiveSamples = 0;
    int maxReceiveSamples = length/2;
    SoundTouch *soundTouch = (SoundTouch *)handle;
    jbyte *data;
    data = env->GetByteArrayElements(output, JNI_FALSE);
    receiveSamples = soundTouch->receiveSamples((SAMPLETYPE *)data,
                                                maxReceiveSamples);
    env->ReleaseByteArrayElements(output, data, 0);
    return receiveSamples;
}

處理 pcm 數(shù)據(jù)

    //在將pcm導入MediaCodec之前,先由SoundTouch處理一遍
    private void encode(final byte[] data, final int length) {
        encodeHandler.post(new Runnable() {
            @Override
            public void run() {
                if (soundTouch != null) {
                    soundTouch.putBytes(data);
                    while (true) {
                        //如果是用MediaMuxer來生成音頻,我們每次只能寫入一幀數(shù)據(jù),那么這里緩沖區(qū)就不能用4096,只能用1024
                        byte[] modified = new byte[4096];
                        int count = soundTouch.getBytes(modified);
                        if (count > 0) {
                            onEncode(modified, count * 2);
                            drain();
                        } else {
                            break;
                        }
                    }
                } else {
                    onEncode(data, length);
                    drain();
                }
            }
        });
    }

音頻和視頻合成

錄制完視頻和音頻之后,我們需要將音頻和視頻進行合成,這一步直接使用FFMPEG 工具即可,命令行如下:

ffmpeg -y -i audioFile -ss 0 -t duration -i videoFile -acodec copy -vcodec copy output

其中,audioFile 為我們的 aac 文件的路徑,videoFile 為 mp4 文件的路徑,output 為最終生成的 mp4 文件的路徑,duration 為音頻文件的長度,使用MediaExtractor 獲取即可。

ffmpeg 不會自動幫我們創(chuàng)建文件,在合成之前,需要先創(chuàng)建output文件

執(zhí)行完這個命令后,音頻和視頻就合成完畢了,15秒的視頻,合成一次大概只需要100ms左右。我們只需要在每小段視頻錄制完畢時合成一次即可,對用戶來說沒什么影響。視頻的碼率越高,合成所需要的時間越久。

視頻合成

多段視頻拼接使用 ffmpeg 即可,無需重新解碼,我們在點擊 app 中的下一步按鈕時進行視頻的拼接。關(guān)鍵代碼如下:

    public static VideoCommand mergeVideo(List<String> videos, String output) {
        String appDir = StorageUtil.getExternalStoragePath() + File.separator;
        String fileName = "ffmpeg_concat.txt";
        FileUtils.writeTxtToFile(videos, appDir, fileName);
        VideoCommand cmd = new VideoCommand();
        cmd.append("ffmpeg").append("-y").append("-f").append("concat").append("-safe")
                .append("0").append("-i").append(appDir + fileName)
                .append("-c").append("copy").append(output);
        return cmd;
    }

命令行為:

ffmpeg -y -f concat -safe 0 -i concatFile -c copy output

其中,concatFile 是一個 txt 文件,內(nèi)容為我們要拼接的文件的路徑列表,output 為最終輸出的 mp4 文件。

總結(jié)

整個短視頻的錄制方案大概就是如此,關(guān)于視頻錄制方面,因為沒有具體線上項目實踐過,所以可能會存在機型不兼容的情況,大家如果有更好的方案,歡迎在評論區(qū)提出來噢,一起探討下。有些地方講解不對或者覺得不清楚的,歡迎大家在評論區(qū)指出。后面會發(fā)關(guān)于短視頻后期處理的文章,敬請關(guān)注!

滴,滴滴!

參考資料

1.MediaCodec - Android Developer
2.AudioRecord - Android Developer
3.SoundTouch Audio Processing Library
4.FFMPEG —— A complete, cross-platform solution to record, convert and stream audio and video.
5.Google-Grafika
6.MP4音視頻同步原理

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容