Tensorflow2 如何保存模型参数，实现断点续训，提高模型训练效率？-- Tensorflow自学笔记15

发布于：2024-09-18 ⋅ 阅读:(105) ⋅ 点赞:(0)

为了提高模型训练效率，有时需要对数据集进行多次训练，为了提高模型训练效率及准确率，tensorflow可以实现断点续训，在第一次训练时保存参数和模型，第二次训练就可以在第一次参数和模型的基础上继续训练，从而提高训练效率。

一、保存模型

借助 tensorflow 给出的回调函数，直接保存参数和网络

tf.keras.callbacks.ModelCheckpoint(

        filepath=路径文件名, 
        save_weights_only=True, 
        monitor='val_loss', # val_loss or loss 
        save_best_only=True)

history = model.fit(x_train, y_train, batch_size=32, epochs=5, 
validation_data=(x_test, y_test), validation_freq=1, callbacks=[cp_callback])

注:monitor 配合 save_best_only 可以保存最优模型，包括:训练损失最小模型、测试损失最小模型、训练准确率最高模型、测试准确率最高模型等。

二、读取模型

load_weights(路径文件名)

checkpoint_save_path = "./checkpoint/mnist.ckpt"
if os.path.exists(checkpoint_save_path + '.index'):
    print('-------------load the model-----------------')
    model.load_weights(checkpoint_save_path)

三、设置回调

cp_callback = tf.keras.callbacks.ModelCheckpoint(filepath=checkpoint_save_path,
              save_weights_only=True,#是否只保留模型参数
              save_best_only=True) #是否只保留最优模型

history = model.fit(x_train, y_train, batch_size=32, epochs=5, validation_data=(x_test, y_test), validation_freq=1,
        callbacks=[cp_callback])

四、完整代码

参见：https://download.csdn.net/download/pisceshsu/89723387