AutoEncoder 自動編碼器來建構生成模型

AutoEncoder 自動編碼器來建構生成模型

對於像是把一個數字變成一個影像的作法,通常是透過生成模型來達成, AutoEncoder 自動編碼器則是深度學習中常見最簡易的生成模型。

AutoEncoder 的運作原理

AutoEncoder 是透過一個 Encoder 編碼器與一個 Decoder 解碼器的組合來實作生成模型的機制。

編碼的過程有點像是將資料濃縮、擷取,降維到較小維度的空間,而解碼則是相反的過程,類似於將較小維度空間的資料重建、還原、升維到原始維度的空間。

在 AI 的領域中,這種濃縮的資訊通常以 z 來表示, z 所存在的空間稱為潛在空間。

AutoEncoder 的架構圖

AutoEncoder 模型在訓練好之後,只需要將 Encoder 移走,透過給予 Decoder 解碼器隨機潛在空間的值,就可以生成所需要的影像。

換句話說,在 AutoEncoder (AE) 架構中,通常最後在使用的部分都是已經訓練完成的 Decoder 解碼器 。

[閱讀全文…]

AutoKeras 的模型搜尋行為

AutoKeras 之所以方便使用而且將 AI 的模型訓練降低門檻到幾乎人人都可以上手,主要就是在於自動化的進行模型搜尋,透過自動化的方式去尋找、找出最合適的演算法跟模型來訓練 AI。 而這也就是 AutoKeras 的命名來源,取代原本需要透過資料工程師手動的調教、訓練模型。

AutoKeras 是如何進行模型的搜尋行為的 ?

[閱讀全文…]

AutoKeras 可接受的輸入資料格式

AutoKeras 模型一般可以接受輸入下面四種類型的資料

Numpy 陣列 (ndarray)

Numpy、scikit-Learn、Tensorflow 等 Python 套件都採用的陣列,只要電腦的記憶體可以容納得下你的資料,儲存成 ndarray 是最便利的選擇。

Pandas 的 Series/ DataFrame 物件

Pandas 也是常用的資料套件,可以用來載入 CSV、Excel 資料表,其中內建的 DataFrame 可以直接輸入給 AutoKeras 模型不需要額外轉換成 Numpy 物件。

TensorFlow Core 資料集

可以直接透過TensorFlow Core 中的預設 Module資料集下載資料並直接傳給 AutoKeras 圖形分類器訓練,這種形式的資料集相對比較少,但所有的資料集都已經預處理好了,很適合學習使用。

預設資料集列表
import numpy as np
import tensorflow as tf
import matplotlib.pyplot as plt
import autokeras as ak

from tensorflow.keras.datasets import mnist
from tensorflow.keras.models import load_model

(x_train, y_train) , (x_test, y_test) = mnist.load_data()

print(x_train.shape)
# 建立圖形分類器
clf = ak.ImageClassifier(max_trials = 1)

# 開始訓練圖形分類器
clf.fit(x_train, y_train, epochs = 10)

# 使用測試集評估模型的預測效果, 會回傳預測的準確率
clf.evaluate( x_test, y_test )
可以利用機器的 GPU 加速訓練的速度

TensorFlow 資料集

有許多公開的資料集可以用來學習以及練習,這個有點類似 Python 生成器,能以串流形式從硬碟檔案或分散式檔案系統傳入資料,因此很適合用在深度學習與大型的資料集。

TensorFlow DataSets 官方內建資料集列表

基本上大型的資料集,比較建議先將資料轉換成 TensorFlow Dataset,也就是將自己的資料寫成 TensorFlow 資料集的格式,官方的文件有詳細的作法,可以參考

將資料轉換成 TensorFlow 資料集有幾個好處 :

  • 可以非同步預處理與建立資料佇列。
  • 提供 GPU 記憶體資料預載,所以在GPU處理完前一批資料後,可以直接使用下一批。
  • 可以從多種不同的資料源載入資料 ex. CSV 、Numpy、文字檔、資料夾等

使用前請先記得安裝 package

使用 TensorFlow Datasets 的下載方式與上面的稍微有些不同,下面是參考的範例程式碼

import numpy as np
import tensorflow as tf
import matplotlib.pyplot as plt

import tensorflow_datasets as tfds
import autokeras as ak

mnist_train, mnist_test = tfds.load('mnist', split=["train","test"], as_supervised=True)

ak0 = ak.ImageClassifier(num_classes=10, max_trials=1)
ak0.fit(mnist_train, epochs=10)

# 使用測試集評估模型的預測效果, 會回傳預測的準確率
ak0.evaluate( mnist_test )

神經網路模型的資料預處理

如果要使用 AutoKeras 這個深度學習的框架,對於資料集的預處理是非常重要的。現有的許多資料集為了學習方便,在下載時往往已經有人幫你預處理完畢,讓學習的過程中不用再去處理瑣碎繁瑣的預處理,整理下面幾種常見的資料預處理方法。

為什麼資料正規化 Normalization 會讓模型的表現較好 ?

[閱讀全文…]