iOS實現(xiàn)直播詳解

直播流媒體介紹

直播,音樂播放demo
https://github.com/AndreHu88/iOS_Live
視頻流傳輸使用的是RTMP協(xié)議(類似于socket,基于TCP)
RTMP是Real Time Messaging Protocol(實時消息傳輸協(xié)議)的首字母縮寫。該協(xié)議基于TCP

流媒體開發(fā):網(wǎng)絡層(socket或st)負責傳輸,協(xié)議層(rtmp或hls)負責網(wǎng)絡打包,封裝層(flv、ts)負責編解碼數(shù)據(jù)的封裝,編碼層(h.264和aac)負責圖像,音頻壓縮。
用于對象,視頻,音頻的傳輸.這個協(xié)議建立在TCP協(xié)議或者輪詢HTTP協(xié)議之上.

HLS:由Apple公司定義的用于實時流傳輸?shù)膮f(xié)議,HLS基于HTTP協(xié)議實現(xiàn),傳輸內(nèi)容包括兩部分,一是M3U8描述文件,二是TS媒體文件??蓪崿F(xiàn)流媒體的直播和點播,主要應用在iOS系統(tǒng)
HLS與RTMP對比:HLS主要是延時比較大,RTMP主要優(yōu)勢在于延時低

下圖是直播的完整圖解


image

播放網(wǎng)絡視頻需要以下幾步(依賴FFmpeg框架)

  • 將數(shù)據(jù)解協(xié)議
  • 解封裝
  • 解碼音視頻
  • 音視頻同步

播放本地視頻不需要解協(xié)議,直接解封裝

  • 解協(xié)議
    解協(xié)議就是將流媒體協(xié)議上的數(shù)據(jù)解析為相應的封裝格式數(shù)據(jù),流媒體一般是RTMP協(xié)議傳輸,這些協(xié)議在傳輸音視頻數(shù)據(jù)的同時也可以傳輸一些指令數(shù)據(jù)(播放,停止,暫停,網(wǎng)絡狀態(tài)的描述) ,解協(xié)議會去掉信令數(shù)據(jù),只保留音視頻數(shù)據(jù)。采用RTMP協(xié)議通過解協(xié)議后,輸入FLV的流

    FFMpeg會根據(jù)相關協(xié)議的特性,本機與服務器建立連接,獲取流數(shù)據(jù)

  • 解封裝

    將封裝的視頻數(shù)據(jù)分離成音頻和視頻編碼數(shù)據(jù),常見的封裝的格式有MP4,MKV, RMVB, FLV, AVI等。它的作用就是將已壓縮的視頻數(shù)據(jù)和音頻數(shù)據(jù)按照一定的格式放在一起。FLV格式經(jīng)過解封裝后,可以得到H.264的視頻編碼數(shù)據(jù)和aac的音頻編碼數(shù)據(jù),一般稱為“packet”

  • 解碼音視頻

    解碼就是將音視頻壓縮編碼數(shù)據(jù)解碼成非壓縮的音視頻的原始數(shù)據(jù),解碼是最復雜最重要的一個環(huán)節(jié),通過解碼壓縮的視頻數(shù)據(jù)被輸出成非壓縮的顏色數(shù)據(jù)。目前常用的音頻編碼方式是aac,mp3,視頻編碼格式是H.264,H.265。分析源數(shù)據(jù)的音視頻信息,分別設置對應的音頻解碼器,視頻編碼器。對packet分別進行解碼后,音頻解碼獲得的數(shù)據(jù)是PCM(Pulse Code Modulation,脈沖編碼調(diào)制)采樣數(shù)據(jù),一般稱為“sample”。視頻解碼獲得的數(shù)據(jù)是一幅YUV或RGB圖像數(shù)據(jù),一般稱為“picture”

  • 音視頻同步

    音視頻解碼是兩個獨立的線程,獲取到的音視頻是分開的。理想情況下,音視頻按照自己的固有頻率渲染輸出能達到音視頻同步的效果,但是在現(xiàn)實中,斷網(wǎng)、弱網(wǎng)、丟幀、緩沖、音視頻不同的解碼耗時等情況都會妨礙實現(xiàn)同步,很難達到預期效果。 通過音視頻同步調(diào)整后,將同步解碼出來的音頻,視頻數(shù)據(jù),同步給顯卡和聲卡播放出來。

VideoToolbox.framework(硬編碼)

videoToolbox是蘋果的一個硬解碼的框架,提供實現(xiàn)壓縮,解壓縮服務,并存儲在緩沖區(qū)corevideo像素柵格圖像格式之中。這些服務以會話對象的形式提供(壓縮、解壓,和像素傳輸),應用程序不需要直接訪問硬件編碼器和解碼器相關內(nèi)容,硬件編解碼這塊的質(zhì)量有一定保證,可以優(yōu)先使用硬編解碼,和軟解碼FFmpeg可以互補

編碼H.264

1.初始化VideoToolbox

- (void)setupVideoToolbox{
    
    dispatch_sync(_encodeQueue, ^{
        
        [self setupFileHandle];
        
        int width = 720, height = 1280;
        OSStatus status = VTCompressionSessionCreate(NULL, width, height, kCMVideoCodecType_H264, NULL, NULL, NULL, encodingComplectionCallback, (__bridge void *)(self), &_encodingSession);
        DLog(@"status code is %d",(int)status);
        if (status != 0) {
            DLog(@"create H264 session error");
            return ;
        }
        
        //設置實時編碼,避免延遲
        VTSessionSetProperty(_encodingSession, kVTCompressionPropertyKey_RealTime, kCFBooleanTrue);
        VTSessionSetProperty(_encodingSession, kVTCompressionPropertyKey_ProfileLevel, kVTProfileLevel_H264_Baseline_AutoLevel);
        
        //設置關鍵幀間隔()關鍵字間隔越小越清晰,數(shù)值越大壓縮率越高
        int frameInterval = 1;
        CFNumberRef frameIntervalRef = CFNumberCreate(kCFAllocatorDefault, kCFNumberIntType, &frameInterval);
        VTSessionSetProperty(_encodingSession, kVTCompressionPropertyKey_MaxKeyFrameInterval, frameIntervalRef);
        
        //設置期望幀率
        int fps = 30;
        CFNumberRef fpsRef = CFNumberCreate(kCFAllocatorDefault, kCFNumberIntType, &fps);
        VTSessionSetProperty(_encodingSession, kVTCompressionPropertyKey_ExpectedFrameRate, fpsRef);
        
        //設置碼率,均值,單位是byte
        int bitRate = width * height * 3 * 4 * 8;
        CFNumberRef bitRateRef = CFNumberCreate(kCFAllocatorDefault, kCFNumberSInt32Type, &bitRate);
        VTSessionSetProperty(_encodingSession, kVTCompressionPropertyKey_AverageBitRate, bitRateRef);
        
        //設置碼率上限,單位是bps,如果不設置默認會以很低的碼率編碼,導致編碼出來的視頻很模糊
        int bitRateMax = width * height * 3 * 4;
        CFNumberRef bitRateMaxRef = CFNumberCreate(kCFAllocatorDefault, kCFNumberSInt32Type, &bitRateMax);
        VTSessionSetProperty(_encodingSession, kVTCompressionPropertyKey_DataRateLimits, bitRateMaxRef);
        
        //準備編碼
        VTCompressionSessionPrepareToEncodeFrames(_encodingSession);
        
    });
}

- (void)setupFileHandle{
    
    //創(chuàng)建文件,初始化fileHandle;
    NSString *file = [[NSSearchPathForDirectoriesInDomains(NSDocumentDirectory, NSUserDomainMask, YES) lastObject] stringByAppendingPathComponent:@"test.h264"];
    [[NSFileManager defaultManager] removeItemAtPath:file error:nil];
    [[NSFileManager defaultManager] createFileAtPath:file contents:nil attributes:nil];
    _fileHandle = [NSFileHandle fileHandleForWritingAtPath:file];
}

2.sampleBuffer回調(diào)處理

- (void)videoEncodeWithSampleBuffer:(CMSampleBufferRef)sampleBuffer{
    
    dispatch_sync(_encodeQueue, ^{
        
        // CVPixelBufferRef 編碼前圖像數(shù)據(jù)結(jié)構(gòu)
        // 利用給定的接口函數(shù)CMSampleBufferGetImageBuffer從中提取出CVPixelBufferRef
        CVImageBufferRef imageBuffer = (CVImageBufferRef)CMSampleBufferGetImageBuffer(sampleBuffer);
        // 幀時間 如果不設置導致時間軸過長
        CMTime presentationTimeStamp = CMTimeMake(_frameID++, 1000);
        //flags 0 表示同步解碼
        VTEncodeInfoFlags flags;
        OSStatus status = VTCompressionSessionEncodeFrame(_encodingSession, imageBuffer, presentationTimeStamp, kCMTimeInvalid, NULL, NULL, &flags);
        DLog(@"status code is %d",(int)status);
        if (status == noErr) {
            DLog(@"H264 VTCompressionSessionEncodeFrame success");
        }
        else{
            DLog(@"H264: VTCompressionSessionEncodeFrame failed with %d", (int)status);
            if (!_encodingSession) return;
            VTCompressionSessionInvalidate(_encodingSession);
            //釋放資源
            CFRelease(_encodingSession);
            _encodingSession = NULL;
        }
    });
    
}

3.對VideoToolbox的編碼回調(diào)

//每壓縮一次都異步的調(diào)用此方法
void encodingComplectionCallback(void * CM_NULLABLE outputCallbackRefCon,
                               void * CM_NULLABLE sourceFrameRefCon,
                               OSStatus status,
                               VTEncodeInfoFlags infoFlags,
                               CM_NULLABLE CMSampleBufferRef sampleBuffer ){

}
音視頻同步詳解

音視頻采集的數(shù)據(jù)分別來自于麥克風與攝像頭,而攝像頭與麥克風其實是兩個獨立的硬件,而音視頻同步的原理是相信攝像頭與麥克風采集數(shù)據(jù)是實時的,并在采集到數(shù)據(jù)時給他們一個時間戳來標明數(shù)據(jù)所屬的時間,而編碼封裝模塊只要不改動音視頻時間的相對關系就能保證音頻與視頻在時間上的對應。如此封裝好數(shù)據(jù)之后,播放端就能夠根據(jù)音視頻的時間戳來播放對應的音視頻,從實現(xiàn)音視頻同步的效果

時間戳參考標準
  • 取格林威治時間做為對比標準,即音視頻時間戳都為采集時間點相對于格林威治標準時間的時間差
  • 取系統(tǒng)開機時間做為對比標準,即音視頻時間戳都是采集時間點相對于手機開機時間的時間差。目前iOS上AVCaptureSession這套API就是參考這個時間標準給的時間戳
  • 其它時間戳標準
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容