tensorflow Data api初探

tf.Data

作用:根據(jù)簡單的可重用的片段構(gòu)建復雜的輸入管道

介紹一下倆個主要的抽象類:

1. Dataset: 一系列元素, 每個元素包含一個或者多個Tensor對象,這些對象稱之為組件,每個組件都有一個tf.DType, tf.TensorShape

2. Iterator:從數(shù)據(jù)集中提取元素的主要方法。

? ? Iterator.get_next()會在執(zhí)行的時候生成下一個元素

? ? 迭代器類型如下:

? ? ? ? 單次

? ? ? ? 可初始化

? ? ? ? 可重新初始化

? ? ? ? 可饋送

基本機制

啟動輸入管道步驟:

? ? 1. 定義來源,?

? ? ? ? ? ? 如果 要從內(nèi)存中構(gòu)建Dataset,則可以使用tf.data.Dataset.from_tensors()或者tf.data.Dataset.from_tensor_slices()。

? ? ? ? ? ? 如果輸入數(shù)據(jù)是在磁盤上并且以TFRecord格式存儲在磁盤上的話,使用tf.data.TFRecordDataset。

? ? 2. 轉(zhuǎn)換為新的Dataset

? ? ? ? ? ? 單元素轉(zhuǎn)換map

? ? ? ? ? ? 多元素轉(zhuǎn)換batch

? ? 3. 定義迭代器對象消費Dataset

讀取輸入數(shù)據(jù)

1. NumPy數(shù)組

? ? 如果輸入數(shù)據(jù)都在內(nèi)存中

? ? 1.1 可以簡單地將他們轉(zhuǎn)成Tensor, 并使用Dataset.from_tensor_slices()

? ? 會將數(shù)據(jù)作為tf.constant()存在圖中,適合小數(shù)據(jù)集

? ? 內(nèi)存浪費

? ? 1.2 根據(jù)tf.placeholder()張量定義Dataset, 并在數(shù)據(jù)集初始化Iterator時饋送NumPy數(shù)組????

? ? code:

2. TFRecord數(shù)據(jù)

tf.data.TFRecordDataset

3. 文本數(shù)據(jù)

tf.data.TextLineDataset()

4. CSV數(shù)據(jù)

tf.contrib.data.CsvDataset

使用Dataset.map()預(yù)處理數(shù)據(jù)

許多輸入管道都從TFRecord格式文件中提取tf.train.Example協(xié)議緩沖區(qū)消息

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容