import matplotlib.pyplot as plt
from maxwent import regression_1d, plot_regression_1d

x_train, y_train, x_ood, y_ood = regression_1d()
ax = plot_regression_1d(x_train, y_train, x_ood, y_ood)
ax.legend(); plt.show()

import tensorflow as tf

base_net = tf.keras.Sequential()
base_net.add(tf.keras.layers.Input(shape=(1,)))
base_net.add(tf.keras.layers.Dense(100))
base_net.add(tf.keras.layers.ReLU())
base_net.add(tf.keras.layers.Dense(100))
base_net.add(tf.keras.layers.ReLU())
base_net.add(tf.keras.layers.Dense(1))
base_net.summary()

Model: "sequential_2"

┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━┓
┃ Layer (type)                    ┃ Output Shape           ┃       Param # ┃
┡━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━━┩
│ dense_6 (Dense)                 │ (None, 100)            │           200 │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ re_lu_4 (ReLU)                  │ (None, 100)            │             0 │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ dense_7 (Dense)                 │ (None, 100)            │        10,100 │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ re_lu_5 (ReLU)                  │ (None, 100)            │             0 │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ dense_8 (Dense)                 │ (None, 1)              │           101 │
└─────────────────────────────────┴────────────────────────┴───────────────┘

 Total params: 10,401 (40.63 KB)

 Trainable params: 10,401 (40.63 KB)

 Non-trainable params: 0 (0.00 B)

base_net.compile(optimizer=tf.keras.optimizers.Adam(0.001), loss="mse")
base_net.fit(x_train, y_train, epochs=2500, verbose=0);

y_pred = base_net.predict(x_ood, verbose=0).ravel()

ax = plot_regression_1d(x_train, y_train, x_ood, y_ood)
ax.plot(x_ood, y_pred, c="purple", zorder=-1, label="Network Predictions")
ax.legend(); plt.show()

deep_ens = []

for _ in range(5):
    net = tf.keras.models.clone_model(base_net)
    net.compile(optimizer=tf.keras.optimizers.Adam(0.001), loss="mse")
    net.fit(x_train, y_train, epochs=2500, verbose=0);
    deep_ens.append(net)

ax = plot_regression_1d(x_train, y_train, x_ood, y_ood)
for i in range(5):
    y_pred = net.predict(x_ood, batch_size=1000, verbose=0)
    ax.plot(x_ood, y_pred[i], c="purple", zorder=-1,
            label="Network Predictions" if i==0 else None)
ax.legend(); plt.show()

from maxwent import set_maxwent_model

stoch_net = set_maxwent_model(base_net)
stoch_net.summary()

Model: "sequential"

┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━┓
┃ Layer (type)                    ┃ Output Shape           ┃       Param # ┃
┡━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━━┩
│ dense_mwe (DenseMaxWEnt)        │ (None, 100)            │           401 │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ re_lu_mwe (ReLU)                │ (None, 100)            │             0 │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ dense_1_mwe (DenseMaxWEnt)      │ (None, 100)            │        30,200 │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ re_lu_1_mwe (ReLU)              │ (None, 100)            │             0 │
├─────────────────────────────────┼────────────────────────┼───────────────┤
│ dense_2_mwe (DenseMaxWEnt)      │ (None, 1)              │        10,202 │
└─────────────────────────────────┴────────────────────────┴───────────────┘

 Total params: 40,803 (159.39 KB)

 Trainable params: 10,401 (40.63 KB)

 Non-trainable params: 30,402 (118.76 KB)

from maxwent import MaxWEnt

mwe = MaxWEnt(stoch_net, lambda_=1.)

mwe.compile(optimizer=tf.keras.optimizers.Adam(0.001), loss="mse")
mwe.fit(x_train, y_train, epochs=2500, verbose=0);

n_sample = 50

y_preds = [
    mwe.predict(x_ood, batch_size=32, seed=123+i)
    for i in range(n_sample)
]

ax = plot_regression_1d(x_train, y_train, x_ood, y_ood)
for i in range(n_sample):
    ax.plot(x_ood, y_preds[i], c="purple", zorder=-1,
            label="Network predictions" if i==0 else None)
ax.legend(ncol=3); plt.show()

n_sample = 50

y_preds = [
    mwe.predict(x_ood, batch_size=1000, clip=1.)  # The clip argument is here !
    for _ in range(n_sample)
]

ax = plot_regression_1d(x_train, y_train, x_ood, y_ood)
for i in range(n_sample):
    ax.plot(x_ood, y_preds[i], c="purple", zorder=-1,
            label="Network predictions" if i==0 else None)
ax.legend(ncol=3); plt.show()

y_pred_mean = mwe.predict_mean(x_ood, batch_size=1000, clip=0., n_sample=1).ravel()
y_pred_std = mwe.predict_std(x_ood, batch_size=1000, clip=None, n_sample=50).ravel()

ax = plot_regression_1d(x_train, y_train, x_ood, y_ood)
ax.plot(x_ood.ravel(), y_pred_mean, c="C0", label='Mean prediction')
ax.fill_between(x_ood.ravel(),
                y_pred_mean - 2 * y_pred_std,
                y_pred_mean + 2 * y_pred_std, color='C0', alpha=0.2,
                label='Confidence Interval')
ax.legend(ncol=2); plt.show()

stoch_net = set_maxwent_model(base_net)
mwe = MaxWEnt(stoch_net, lambda_=1.)

mwe.fit_svd(x_train)

mwe.compile(optimizer=tf.keras.optimizers.Adam(0.001), loss="mse")
mwe.fit(x_train, y_train, epochs=2500, verbose=0);

n_sample = 50

y_preds = [
    mwe.predict(x_ood, batch_size=1000)
    for _ in range(n_sample)
]

ax = plot_regression_1d(x_train, y_train, x_ood, y_ood)
for i in range(n_sample):
    ax.plot(x_ood, y_preds[i], c="purple", zorder=-1,
            label="Network predictions" if i==0 else None)
ax.legend(ncol=3); plt.show()

y_pred_mean = mwe.predict_mean(x_ood, batch_size=1000, clip=0., n_sample=1).ravel()
y_pred_std = mwe.predict_std(x_ood, batch_size=1000, clip=None, n_sample=50).ravel()

ax = plot_regression_1d(x_train, y_train, x_ood, y_ood)
ax.plot(x_ood.ravel(), y_pred_mean, c="C0", label='Mean prediction')
ax.fill_between(x_ood.ravel(),
                y_pred_mean - 2 * y_pred_std,
                y_pred_mean + 2 * y_pred_std, color='C0', alpha=0.2,
                label='Confidence Interval')
ax.legend(ncol=2); plt.show()

Table of Contents

1D Regression Example

Setup

Base Network

Deep Ensemble

Maximum Weight Entropy

Stochasticity

Objective Function

Training

Inference

Clipping

Uncertainty Quantification

SVD Parameterization