tf.Data
作用:根據(jù)簡單的可重用的片段構(gòu)建復雜的輸入管道
介紹一下倆個主要的抽象類:
1. Dataset: 一系列元素, 每個元素包含一個或者多個Tensor對象,這些對象稱之為組件,每個組件都有一個tf.DType, tf.TensorShape
2. Iterator:從數(shù)據(jù)集中提取元素的主要方法。
? ? Iterator.get_next()會在執(zhí)行的時候生成下一個元素
? ? 迭代器類型如下:
? ? ? ? 單次
? ? ? ? 可初始化
? ? ? ? 可重新初始化
? ? ? ? 可饋送
基本機制
啟動輸入管道步驟:
? ? 1. 定義來源,?
? ? ? ? ? ? 如果 要從內(nèi)存中構(gòu)建Dataset,則可以使用tf.data.Dataset.from_tensors()或者tf.data.Dataset.from_tensor_slices()。
? ? ? ? ? ? 如果輸入數(shù)據(jù)是在磁盤上并且以TFRecord格式存儲在磁盤上的話,使用tf.data.TFRecordDataset。
? ? 2. 轉(zhuǎn)換為新的Dataset
? ? ? ? ? ? 單元素轉(zhuǎn)換map
? ? ? ? ? ? 多元素轉(zhuǎn)換batch
? ? 3. 定義迭代器對象消費Dataset
讀取輸入數(shù)據(jù)
1. NumPy數(shù)組
? ? 如果輸入數(shù)據(jù)都在內(nèi)存中
? ? 1.1 可以簡單地將他們轉(zhuǎn)成Tensor, 并使用Dataset.from_tensor_slices()
? ? 會將數(shù)據(jù)作為tf.constant()存在圖中,適合小數(shù)據(jù)集
? ? 內(nèi)存浪費
? ? 1.2 根據(jù)tf.placeholder()張量定義Dataset, 并在數(shù)據(jù)集初始化Iterator時饋送NumPy數(shù)組????
? ? code:

2. TFRecord數(shù)據(jù)
tf.data.TFRecordDataset
3. 文本數(shù)據(jù)
tf.data.TextLineDataset()
4. CSV數(shù)據(jù)
tf.contrib.data.CsvDataset
使用Dataset.map()預(yù)處理數(shù)據(jù)
許多輸入管道都從TFRecord格式文件中提取tf.train.Example協(xié)議緩沖區(qū)消息