生成対立ネット

コンテンツ

我々は、生成モデルを推定するための新しいフレームワークを提案しています。このフレームワークでは、データ分布を捉える生成モデルG𝐺Gと、トレーニングデータから来た確率を推定する識別モデルD𝐷Dの2つのモデルを同時に訓練します。G𝐺Gの訓練手順は、D𝐷Dが間違いを comit する確率を最大化することです。このフレームワークは、ミニマックス2人ゲームに対応しています。任意の関数G𝐺GとD𝐷Dの空間では、G𝐺Gがトレーニングデータ分布を回復し、D𝐷Dが1212\frac{1}{2}である一意の解が存在します。G𝐺GとD𝐷Dが多層パーセプトロンによって定義される場合、システム全体をバックプロパゲーションで訓練することができます。トレーニングやサンプルの生成中にマルコフ連鎖や展開された近似推論ネットワークは必要ありません。実験により、生成されたサンプルの質的および量的評価を通じて、このフレームワークの潜在能力が示されています。

深層学習の約束は、確率分布を表現する豊かで階層的なモデルを発見することであり、これらのモデルは人工知能アプリケーションで遭遇するデータの種類に関する確率分布を表現します。これらのデータには、自然画像、音声波形(音声を含む)、自然言語コーパスの記号などが含まれます。これまでのところ、深層学習における最も顕著な成功は、通常、高次元で豊かな感覚入力をクラスラベルにマッピングする識別モデルに関わっています。これらの顕著な成功は、主にバックプロパゲーションおよびドロップアウトアルゴリズムに基づいており、特によく振る舞う勾配を持つ分段線形ユニットを使用しています。深層生成モデルは、最尤推定や関連戦略で発生する多くの難解な確率計算を近似する難しさ、および生成コンテキストで分段線形ユニットの利点を活用する難しさのため、あまり影響を与えていません。私たちは、これらの困難を回避する新しい生成モデル推定手順を提案しています。

提案された敵対的ネットワークの枠組みでは、生成モデルは敵対者と対戦します: モデル分布からのサンプルかデータ分布からのサンプルかを判別することを学習する識別モデルです。生成モデルは、偽の通貨を製造し、検出されずに使用しようとする偽札製造者のチームに類似して考えることができます。一方、識別モデルは、偽札を検出しようとする警察に類似しています。このゲームの中での競争は、両チームが手法を改善するように駆り立て、偽物が本物と区別がつかないまで進化させます。

このフレームワークは、さまざまな種類のモデルや最適化アルゴリズムに特化したトレーニングアルゴリズムを生成することができます。本記事では、生成モデルがランダムノイズを多層パーセプトロンを通してサンプル生成する特別なケースを探求し、識別モデルもまた多層パーセプトロンであるとします。この特別なケースを敵対的ネットと呼びます。この場合、非常に成功したバックプロパゲーションとドロップアウトアルゴリズムのみを使用して両方のモデルをトレーニングし、生成モデルからのサンプリングには前方伝播のみを使用できます。近似推論やマルコフ連鎖は必要ありません。

潜在変数を持つ有向グラフィカルモデルの代替として、潜在変数を持つ無向グラフィカルモデルがあります。これには、restricted Boltzmann machines (RBMs) 27、deep Boltzmann machines (DBMs) 26などの多くの派生形が含まれます。このようなモデル内の相互作用は、ランダム変数のすべての状態に対するグローバルな総和/積分によって正規化された非正規化ポテンシャル関数の積として表現されます。この量(分配関数)およびその勾配は、最も単純なインスタンスを除いて、すべての場合において扱いにくいですが、Markov chain Monte Carlo (MCMC)法によって推定することができます。MCMCに依存する学習アルゴリズムにとって、混合は重要な問題を引き起こします 3, 5

Deep belief networks (DBNs) [16] are hybrid models containing a single undirected layer and several directed layers. While a fast approximate layer-wise training criterion exists, DBNs incur the computational difficulties associated with both undirected and directed models.

代替基準として、スコアマッチング[18]やノイズ対比推定(NCE)[13]など、対数尤度を近似または境界付けない他の基準も提案されています。これらは、学習された確率密度が正規化定数まで解析的に指定されていることを要求します。多くの興味深い生成モデル(DBNやDBMなど)では、多層の潜在変数が存在するため、トラクタブルな非正規化確率密度を導出することさえ困難です。デノイジングオートエンコーダー[30]やコントラクティブオートエンコーダーなどの一部のモデルは、RBMに適用されるスコアマッチングに非常に類似した学習規則を持っています。NCEでは、この作業と同様に、識別的なトレーニング基準が用いられて、生成モデルを適合させます。ただし、別個の識別モデルを適合させるのではなく、生成モデル自体が生成されたデータを固定されたノイズ分布からサンプルと区別するために使用されます。NCEは固定されたノイズ分布を使用するため、モデルが観測変数の一部の小さなサブセットに対してほぼ正しい分布を学習した後、学習が急激に遅くなります。

最後に、一部の手法は確率分布を明示的に定義することなく、代わりに生成機械を訓練して所望の分布からサンプルを抽出する方法もあります。このアプローチの利点は、このような機械が逆伝播によって訓練されるように設計できることです。この分野での主要な最近の研究には、一般化されたデノイジングオートエンコーダーを拡張した生成的確率ネットワーク(GSN)フレームワーク[5]が含まれます。両者はパラメータ化されたマルコフ連鎖を定義するものと見なすことができます。つまり、生成的マルコフ連鎖の1ステップを実行する機械のパラメータを学習します。GSNに比べて、敵対的ネットワークフレームワークはサンプリングにマルコフ連鎖を必要としません。敵対的ネットワークは生成中にフィードバックループを必要としないため、ピースワイズリニアユニットをより効果的に活用できます。これにより、逆伝播の性能が向上しますが、フィードバックループで使用するとアクティベーションが無制限になる問題があります。逆伝播によって生成機械を訓練するより最近の例には、自己符号化変分ベイズ[20]や確率的逆伝播[24]に関する最近の研究が含まれます。

敵対的モデリングフレームワークは、モデルがどちらも多層パーセプトロンの場合に最も直接適用されます。ジェネレータの分布pg_{g}(データ𝐱\bm{x}上)を学習するために、入力ノイズ変数p_{\bm{z}}(\bm{z})に事前分布を定義し、次にデータ空間へのマッピングをG(\bm{z};θ_{g})で表します。ここで、Gはパラメータθ_{g}を持つ多層パーセプトロンによって表される微分可能な関数です。また、単一のスカラーを出力する第二の多層パーセプトロンD(\bm{x};θ_{d})を定義します。D(\bm{x})は、𝐱がデータから来た確率を表し、pg_{g}ではないことを示します。Dを訓練して、トレーニング例とGからのサンプルの両方に正しいラベルを割り当てる確率を最大化します。同時に、Gを訓練して、log(1-D(G(\bm{z})))を最小化します。

別の言葉で言えば、D𝐷D と G𝐺G は、次の二人用の最小最大ゲームを価値関数 V​(G,D)𝑉𝐺𝐷V(G,D) で行います:

minG⁡maxD⁡V​(D,G)=𝔼𝒙∼pdata​(𝒙)​[log⁡D​(𝒙)]+𝔼𝒛∼p𝒛​(𝒛)​[log⁡(1−D​(G​(𝒛)))].subscript𝐺subscript𝐷𝑉𝐷𝐺subscript𝔼similar-to𝒙subscript𝑝data𝒙delimited-[]𝐷𝒙subscript𝔼similar-to𝒛subscript𝑝𝒛𝒛delimited-[]1𝐷𝐺𝒛\min_{G}\max_{D}V(D,G)=\mathbb{E}_{\bm{x}\sim p_{\text{data}}(\bm{x})}[\log D(\bm{x})]+\mathbb{E}_{\bm{z}\sim p_{\bm{z}}(\bm{z})}[\log(1-D(G(\bm{z})))].

(1)

次のセクションでは、敵対的ネットの理論的分析を提示し、訓練基準がG𝐺GとD𝐷Dに十分な容量が与えられた場合、つまり非パラメトリック限界でデータ生成分布を回復することができることを実質的に示しています。アプローチのより形式的で教育的な説明については、図1を参照してください。実際には、反復的で数値的なアプローチを使用してゲームを実装する必要があります。訓練の内側ループでD𝐷Dを最適化することは計算上制約があり、有限のデータセットでは過学習につながります。代わりに、k𝑘kステップのD𝐷Dの最適化と1ステップのG𝐺Gの最適化を交互に行います。これにより、G𝐺Gが十分にゆっくり変化する限り、D𝐷Dは最適解に近い状態を維持します。この戦略は、学習の内側ループの一部としてマルコフ連鎖の燃え込みを回避するために、SML/PCD  ef{31}、 ef{29}のトレーニングが次の学習ステップに向けてマルコフ連鎖からサンプルを維持する方法に類似しています。手順は、アルゴリズム1で形式的に示されています。

実際には、方程式1は、G𝐺Gがうまく学習するための十分な勾配を提供しない可能性があります。学習の初期段階では、G𝐺Gが精度が低いとき、D𝐷Dは、トレーニングデータと明らかに異なるため、高い信頼度でサンプルを拒否することができます。この場合、log⁡(1−D​(G​(𝒛)))1𝐷𝐺𝒛\log(1-D(G(\bm{z}))) が飽和します。log⁡(1−D​(G​(𝒛)))1𝐷𝐺𝒛\log(1-D(G(\bm{z}))) を最小化するようにG𝐺Gを訓練する代わりに、log⁡D​(G​(𝒛))𝐷𝐺𝒛\log D(G(\bm{z})) を最大化するようにG𝐺Gを訓練することができます。この目的関数は、G𝐺GとD𝐷Dのダイナミクスの同じ定常点をもたらしますが、学習の初期段階でははるかに強力な勾配を提供します。

Refer to caption

Refer to caption

Refer to caption

Refer to caption

'(a)'

'(b)'

(c)

'(d)'

Figure 1: 生成的対立ネットは、同時に識別分布(D𝐷D、青、破線)を更新して、データ生成分布(黒、点線) p𝒙subscript𝑝𝒙p_{\bm{x}} と生成分布 pgsubscript𝑝𝑔p_{g} (G) (緑、実線) のサンプルを識別するように訓練されます。下の水平線は、この場合一様にサンプリングされる𝒛\bm{z}のドメインです。上の水平線は𝒙\bm{x}のドメインの一部です。上向きの矢印は、マッピング 𝒙=G(𝒛)\bm{x}=G(\bm{z}) が変換されたサンプルに生成分布 pgsubscript𝑝𝑔p_{g} を課す方法を示しています。G𝐺G は、pgsubscript𝑝𝑔p_{g} の密度が高い領域で収縮し、密度が低い領域で拡張します。(a) 収束付近の対立ペアを考えてみましょう: pgsubscript𝑝𝑔p_{g} は pdatasubscript𝑝datap_{\text{data}} に類似し、D𝐷D は部分的に正確な分類器です。(b) アルゴリズムの内側のループでは、D𝐷D はデータからサンプルを識別するように訓練され、D∗(𝒙)=\frac{p_{\text{data}}(\bm{x})}{p_{\text{data}}(\bm{x})+p_{g}(\bm{x})} に収束します。(c) G𝐺G が更新された後、D𝐷D の勾配は G(𝒛) がデータとして分類される可能性が高い領域に流れるように誘導します。(d) トレーニングの数ステップ後、G𝐺G と D𝐷D が十分な容量を持っている場合、pg=pdatasubscript𝑝𝑔subscript𝑝datap_{g}=p_{\text{data}} という点に到達し、両者とも改善できなくなります。識別器は、2つの分布を区別することができず、つまり D(𝒙)=\frac{1}{2}

Algorithm 1 Minibatch stochastic gradient descent training of generative adversarial nets. The number of steps to apply to the discriminator, k, is a hyperparameter. We used k=1, the least expensive option, in our experiments.

  トレーニングイテレーションの回数が増えるたびに

        ∙∙\bullet ノイズ事前分布 pg​(𝒛)subscript𝑝𝑔𝒛p_{g}(\bm{z})からのm個のノイズサンプル {𝒛(1),…,𝒛(m)}superscript𝒛1…superscript𝒛𝑚{\bm{z}^{(1)},\dots,\bm{z}^{(m)}}のサンプルミニバッチ。

        ∙∙\bullet データ生成分布 pdata​(𝒙)subscript𝑝data𝒙p_{\text{data}}(\bm{x)} からの m 例のサンプルミニバッチ {𝒙(1),…,𝒙(m)}superscript𝒙1…superscript𝒙𝑚{\bm{x}^{(1)},\dots,\bm{x}^{(m)}}。

        ∙∙\bullet 識別器を更新し、その確率的勾配を昇順にします:

∇θd1m∑i=1m[log⁡D​(𝒙(i))+log⁡(1−D​(G​(𝒛(i))))].subscript∇subscript𝜃𝑑1𝑚superscriptsubscript𝑖1𝑚delimited-[𝐷superscript𝒙𝑖1𝐷𝐺superscript𝒛𝑖]\nabla_{\theta_{d}}\frac{1}{m}\sum_{i=1}^{m}\left[\log D\left(\bm{x}^{(i)}\right)+\log\left(1-D\left(G\left(\bm{z}^{(i)}\right)\right)\right]}

     ∙∙\bullet ノイズ事前分布 pg​(𝒛)subscript𝑝𝑔𝒛p_{g}(\bm{z})からのm個のノイズサンプル {𝒛(1),…,𝒛(m)}superscript𝒛1…superscript𝒛𝑚{\bm{z}^{(1)},\dots,\bm{z}^{(m)}}のサンプルミニバッチを取得します。

     ∙∙\bullet 発生器を更新し、その確率的勾配を降下させます:

∇θg1m​∑i=1mlog⁡(1−D​(G​(𝒛(i)))).subscript∇subscript𝜃𝑔1𝑚superscriptsubscript𝑖1𝑚1𝐷𝐺superscript𝒛𝑖\nabla_{\theta_{g}}\frac{1}{m}\sum_{i=1}^{m}\log\left(1-D\left(G\left(\bm{z}^{(i)}\right)\right)\right).

  end forThe gradient-based updates can use any standard gradient-based learning rule. We used momentum in our experiments.

The generator G𝐺G implicitly defines a probability distribution pgsubscript𝑝𝑔p_{g} as the distribution of the samples G​(𝒛)𝐺𝒛G(\bm{z}) obtained when 𝒛∼p𝒛similar-to𝒛subscript𝑝𝒛\bm{z}\sim p_{\bm{z}}. Therefore, we would like Algorithm #1 to converge to a good estimator of pdatasubscript𝑝datap_{\text{data}}, if given enough capacity and training time. The results of this section are done in a non-parametric setting, e.g. we represent a model with infinite capacity by studying convergence in the space of probability density functions.

セクション4.1で、このミニマックスゲームがpg=p_{\text{data}}のためのグローバル最適解を持つことを示します。次に、セクション4.2で、アルゴリズム1がEq 1を最適化し、したがって望ましい結果を得ることを示します。

まず、与えられた生成器G𝐺に対する最適な識別器D𝐷Dを考慮します。

For G𝐺G fixed, the optimal discriminator D𝐷D is

DG∗​(𝒙)=pdata​(𝒙)pdata​(𝒙)+pg​(𝒙)subscriptsuperscript𝐷𝐺𝒙subscript𝑝data𝒙subscript𝑝data𝒙subscript𝑝𝑔𝒙D^{*} ext{_G}(\bm{x})=\frac{p_{\text{data}}(\bm{x})}{p_{\text{data}}(\bm{x})+p_{g}(\bm{x})}

(2)

識別器Dのトレーニング基準は、任意の生成器Gに対して、数量V(G,D)を最大化することです

V​(G,D)=𝑉𝐺𝐷absent\displaystyle V(G,D)=

∫𝒙pdata​(𝒙)​log⁡(D​(𝒙))​𝑑x+∫zp𝒛​(𝒛)​log⁡(1−D​(g​(𝒛)))​𝑑zsubscript𝒙subscript𝑝data𝒙𝐷𝒙differential-d𝑥subscript𝑧subscript𝑝𝒛𝒛1𝐷𝑔𝒛differential-d𝑧

ext{\displaystyle}

∫𝒙pdata​(𝒙)​log⁡(D​(𝒙))+pg​(𝒙)​log⁡(1−D​(𝒙))​d​xsubscript𝒙subscript𝑝data𝒙𝐷𝒙subscript𝑔𝒙1𝐷𝒙𝑑𝑥\displaystyle\intm{x}p\text{data}(\bm{x})\log(D(\bm{x}))+p\text{g}(\bm{x})\log(1-D(\bm{x}))dx

(3)

For any (a,b)∈ℝ2∖{0,0}, the function y→a​log⁡(y)+b​log⁡(1−y) achieves its maximum in \[0,1\] at \frac{a}{a+b}. The discriminator does not need to be defined outside of Supp(pdata)∪Supp(pg), concluding the proof. ∎

Note that the training objective for D𝐷D can be interpreted as maximizing the log-likelihood for estimating the conditional probability P​(Y=y|𝒙)𝑃𝑌conditional𝑦𝒙P(Y=y|\bm{x}), where Y𝑌Y indicates whether 𝒙𝒙\bm{x} comes from pdatasubscript𝑝datap_{\text{data}} (with y=1𝑦1y=1) or from pgsubscript𝑝𝑔p_{g} (with y=0𝑦0y=0). The minimax game in Eq. 1 can now be reformulated as:

C​(G)=𝐶𝐺absent\displaystyle C(G)=

maxD⁡V​(G,D)subscript𝐷𝑉𝐺𝐷\displaystyle\max ext{D}V(G,D)

ext{\displaystyle}

𝔼𝒙∼pdata​[log⁡DG∗​(𝒙)]+𝔼𝒛∼p𝒛​[log⁡(1−DG∗​(G​(𝒛)))]subscript𝔼similar-to𝒙subscript𝑝datadelimited-[]subscriptsuperscript𝐷𝐺𝒙subscript𝔼similar-to𝒛subscript𝑝𝒛delimited-[]1subscriptsuperscript𝐷𝐺𝐺𝒛\displaystyle\mathbb{E}_{\bm{x}\sim p_{\text{data}}}[\log D^{*}_{G}(\bm{x})]+\mathbb{E}_{\bm{z}\sim p_{\bm{z}}}[\log(1-D^{*}_{G}(G(\bm{z})))]

(4)

ext{\displaystyle}

𝔼𝒙∼pdata​[log⁡DG∗​(𝒙)]+𝔼𝒙∼pg​[log⁡(1−DG∗​(𝒙))]subscript𝔼similar-to𝒙subscript𝑝datadelimited-[]subscriptsuperscript𝐷𝐺𝒙subscript𝔼similar-to𝒙subscript𝑝𝑔delimited-[]1subscriptsuperscript𝐷𝐺𝒙\displaystyle\mathbb{E}_{\bm{x}\sim p_{\text{data}}}[\log D^{*}_{G}(\bm{x})]+\mathbb{E}_{\bm{x}\sim p_{g}}[\log(1-D^{*}_{G}(\bm{x}))]

ext{\displaystyle}

𝔼𝒙∼pdata​[log⁡pdata​(𝒙)Pdata​(𝒙)+pg​(𝒙)]+𝔼𝒙∼pg​[log⁡pg​(𝒙)pdata​(𝒙)+pg​(𝒙)]subscript𝔼similar-to𝒙subscript𝑝datadelimited-[]subscript𝑝data𝒙subscript𝑃data𝒙subscript𝑝𝑔𝒙subscript𝔼similar-to𝒙subscript𝑝𝑔delimited-[]subscript𝑝𝑔𝒙subscript𝑝data𝒙subscript𝑝𝑔𝒙\displaystyle\mathbb{E}_{\bm{x}\sim p_{\text{data}}}\left[\log\frac{p_{\text{data}}(\bm{x})}{P_{\text{data}}(\bm{x})+p_{g}(\bm{x})}\right]+\mathbb{E}_{\bm{x}\sim p_{g}}\left[\log\frac{p_{g}(\bm{x})}{p_{\text{data}}(\bm{x})+p_{g}(\bm{x})}\right]

仮想トレーニング基準C(G)のグローバル最小値は、pg≠pdataの場合にのみ達成されます。その時点で、C(G)は値-\log 4を達成します。

For pg=pdatasubscript𝑝𝑔subscript𝑝datap_{g}=p_{\text{data}}, DG∗​(𝒙)=12subscriptsuperscript𝐷𝐺𝒙12D^{}_{G}(\bm{x})=\frac{1}{2}, (consider Eq. 2). Hence, by inspecting Eq. 4.1 at DG∗​(𝒙)=12subscriptsuperscript𝐷𝐺𝒙12D^{}{G}(\bm{x})=\frac{1}{2}, we find C​(G)=log⁡12+log⁡12=−log⁡4𝐶𝐺12124C(G)=\log\frac{1}{2}+\log\frac{1}{2}=-\log 4. To see that this is the best possible value of C​(G)𝐶𝐺C(G), reached only for pg=pdatasubscript𝑝𝑔subscript𝑝datap{g}=p_{\text{data}}, observe that

(\mathbb{E}{\bm{x}\sim p{\text{data}}}\left[-\log 2\right]+\mathbb{E}{\bm{x}\sim p{g}}\left[-\log 2\right]=-\log 4)

そして、これをC(G)=V(D_{G}^{*},G)から引いた結果は:

C(G)=-\log(4)+KL\left(p ext{data}\left|\frac{p ext{data}+p_g}{2}\right.\right)+KL\left(p_g\left|\frac{p ext{data}+p_g}{2}\right.\right)

(5)

where KL is the Kullback–Leibler divergence. We recognize in the previous expression the Jensen–Shannon divergence between the model’s distribution and the data generating process:

C​(G)=-\log⁡(4)+2⋅J​S​D​(pdata∥pg)𝐶𝐺4⋅2𝐽𝑆𝐷conditionalsubscript𝑝datasubscript𝑝𝑔C(G)=-\log(4)+2\cdot JSD\left(p ext{data}\left|p ext{g}\right.\right)

(6)

2つの分布間のJensen-Shannonダイバージェンスは常に非負であり、等しい場合にのみゼロであることを考慮すると、C∗=-\log(4)はC(G)のグローバル最小値であり、唯一の解はpg=p_{\text{data}}、つまり生成モデルがデータ生成プロセスを完璧に複製することを示しています。∎

もしG𝐺GとD𝐷Dが十分な容量を持っている場合、かつAlgorithm 1の各ステップで、ディスクリミネータがG𝐺Gを与えられた状態で最適解に到達することが許可され、pgsubscript𝑝𝑔p_{g}が基準を改善するように更新される。

(\mathbb{E}{\bm{x}\sim p{\text{data}}}[\log D^{*}{G}(\bm{x})]+\mathbb{E}{\bm{x}\sim p_{g}}[\log(1-D^{*}_{G}(\bm{x}))])

then pgsubscript𝑝𝑔p_{g} converges to pdatasubscript𝑝datap_{\text{data}}

Consider V​(G,D)=U​(pg,D)𝑉𝐺𝐷𝑈subscript𝑝𝑔𝐷V(G,D)=U(p_{g},D) as a function of pgsubscript𝑝𝑔p_{g} as done in the above criterion. Note that U​(pg,D)𝑈subscript𝑝𝑔𝐷U(p_{g},D) is convex in pgsubscript𝑝𝑔p_{g}. The subderivatives of a supremum of convex functions include the derivative of the function at the point where the maximum is attained. In other words, if f​(x)=supα∈𝒜fα​(x)𝑓𝑥subscriptsupremum𝛼𝒜subscript𝑓𝛼𝑥f(x)=\sup_{\alpha\in\cal{A}}f\{\alpha}(x) and fα​(x)subscript𝑓𝛼𝑥f\{\alpha}(x) is convex in x𝑥x for every α𝛼\alpha, then ∂fβ​(x)∈∂fsubscript𝑓𝛽𝑥𝑓\partial f\{\beta}(x)\in\partial f if β=arg​supα∈𝒜fα​(x)𝛽subscriptsupremum𝛼𝒜subscript𝑓𝛼𝑥\beta=\arg\sup\{\alpha\in\cal{A}}f\{\alpha}(x). This is equivalent to computing a gradient descent update for pgsubscript𝑝𝑔p_{g} at the optimal D𝐷D given the corresponding G𝐺G. supDU​(pg,D)subscriptsupremum𝐷𝑈subscript𝑝𝑔𝐷\sup\{D}U(p\_{g},D) is convex in pgsubscript𝑝𝑔p_{g} with a unique global optima as proven in Thm 1, therefore with sufficiently small updates of pgsubscript𝑝𝑔p_{g}, pgsubscript𝑝𝑔p_{g} converges to pxsubscript𝑝𝑥p_{x}, concluding the proof. ∎

実際には、敵対的ネットは、関数G(𝒛;θg)を介して限られたファミリーのpgサブスクリプトg分布を表し、pgサブスクリプトg自体ではなくθgを最適化します。 Gを定義するために多層パーセプトロンを使用すると、パラメータ空間に複数の臨界点が導入されます。 ただし、実践での多層パーセプトロンの優れた性能は、理論的な保証がないにもかかわらず、それらを使用する合理的なモデルであることを示唆しています。

We trained adversarial nets an a range of datasets including MNIST[23], the Toronto Face Database (TFD) [28], and CIFAR-10 [21]. The generator nets used a mixture of rectifier linear activations [19, 9] and sigmoid activations, while the discriminator net used maxout [10] activations. Dropout [17] was applied in training the discriminator net. While our theoretical framework permits the use of dropout and other noise at intermediate layers of the generator, we used noise as the input to only the bottommost layer of the generator network.

We estimate probability of the test set data under pgsubscript𝑝𝑔p_{g} by fitting a Gaussian Parzen window to the samples generated with G𝐺G and reporting the log-likelihood under this distribution. The σ𝜎\sigma parameter of the Gaussians was obtained by cross validation on the validation set. This procedure was introduced in Breuleux et al. [8] and used for various generative models for which the exact likelihood is not tractable [25, 3, 5]. Results are reported in Table 1. This method of estimating the likelihood has somewhat high variance and does not perform well in high dimensional spaces but it is the best method available to our knowledge. Advances in generative models that can sample but not estimate likelihood directly motivate further research into how to evaluate such models.

Table 1: Parzen window-based log-likelihood estimates. The reported numbers on MNIST are the mean log-likelihood of samples on test set, with the standard error of the mean computed across examples. On TFD, we computed the standard error across folds of the dataset, with a different σ𝜎\sigma chosen using the validation set of each fold. On TFD, σ𝜎\sigma was cross validated on each fold and mean log-likelihood on each fold were computed. For MNIST we compare against other models of the real-valued (rather than binary) version of dataset.

Figures 23では、トレーニング後に生成器ネットから描かれたサンプルを示しています。これらのサンプルが既存の方法によって生成されたサンプルよりも優れていると主張するわけではありませんが、少なくとも文献中のより優れた生成モデルと競争力があると考えており、敵対的なフレームワークの潜在能力を示しています。

Refer to caption

Refer to caption

a)

b)

Refer to caption

Refer to caption

c)

d)

図2: モデルからのサンプルの可視化。右端の列は、モデルが訓練セットを記憶していないことを示すために、隣接するサンプルの最も近い訓練例を示しています。サンプルは公平なランダムな選択であり、手選びではありません。他の多くの深層生成モデルの視覚化とは異なり、これらの画像はモデル分布からの実際のサンプルを示しており、隠れたユニットのサンプルを与えられた条件付き平均ではありません。さらに、これらのサンプルは相関していないため、サンプリングプロセスはマルコフ連鎖の混合に依存していません。a) MNIST b) TFD c) CIFAR-10(全結合モデル) d) CIFAR-10(畳み込みディスクリミネータと「逆畳み込み」ジェネレータ)

Refer to caption

Refer to caption

Figure 3: フルモデルの𝒛𝒛\bm{z}空間の座標を線形補間して得られた数字。

Table 2: 生成モデリングにおける課題:深層生成モデリングの異なるアプローチが遭遇する困難の要約、モデルに関与する主要な操作ごとに。

この新しいフレームワークは、以前のモデリングフレームワークと比較して利点と欠点を持っています。欠点は主に、pg(𝒙)サブスクリプト𝑝𝑔𝒙p_{g}(\bm{x})の明示的な表現がないこと、およびトレーニング中にD𝐷DがG𝐺Gとよく同期しなければならないことです(特に、G𝐺Gを更新せずにトレーニングしすぎないように注意する必要があります。これは、G𝐺Gが𝐳𝐳\mathbf{z}の多くの値を同じ𝐱𝐱\mathbf{x}の値に収束させ、pdatasubscript𝑝datap_{\text{data}}をモデル化するために十分な多様性を持たせるためです)、まるでボルツマンマシンの負の連鎖が学習ステップ間で最新の状態を保持する必要があるのと同様です。利点は、マルコフ連鎖が必要ないこと、勾配を取得するためにバックプロップのみが使用されること、学習中に推論が必要ないこと、およびさまざまな関数をモデルに組み込むことができることです。表2は、生成的対立ネットワークと他の生成モデリングアプローチとの比較をまとめています。

前述の利点は主に計算上のものです。敵対的モデルは、生成器ネットワークがデータ例と直接更新されず、判別器を通じて流れる勾配のみでいくつかの統計的利点を得ることもあります。つまり、入力の構成要素が生成器のパラメータに直接コピーされないということです。敵対的ネットワークのもう1つの利点は、非常に鋭い、さらには劣化した分布を表現できることです。一方、マルコフ連鎖に基づく手法では、連鎖がモード間を移動できるように、分布がある程度ぼやけている必要があります。

このフレームワークは多くの直接的な拡張を許容します:

条件付き生成モデル p​(𝒙∣𝒄)𝑝conditional𝒙𝒄p(\bm{x}\mid\bm{c}) は、G𝐺G と D𝐷D の両方に入力として 𝒄𝒄\bm{c} を追加することで得られます。
すべての条件付き確率p(𝒙S∣𝒙S̸)𝑝conditionalsubscript𝒒𝑆subscript𝒒italic-S̸p(\bm{x}

_{S}\mid\bm{x} _{\not S})を、𝒙𝒙\bm{x}のインデックスの部分集合S𝑆Sに対して、パラメータを共有する一連の条件付きモデルで近似的にモデル化することができます。基本的に、敵対的ネットを使用して、確率的な拡張を実装することができます。これは、決定論的MP-DBMの拡張です [11]。

半教師あり学習: 判別器または推論ネットワークからの特徴は、限られたラベル付きデータが利用可能な場合に、分類器の性能を向上させる可能性があります。
効率改善:トレーニングは、G𝐺GとD𝐷Dをよりよく調整する方法を考案するか、トレーニング中に𝐳𝐳\mathbf{z}をサンプリングするためのより良い分布を決定することで大幅に加速させることができます。

この論文は、敵対的モデリングフレームワークの有効性を実証し、これらの研究方向が有用である可能性を示唆しています。

Patrice Marcotte、Olivier Delalleau、Kyunghyun Cho、Guillaume Alain、Jason Yosinskiへの有益な議論に感謝します。Yann DauphinはParzen window評価コードを共有してくれました。Pylearn2の開発者、特にこのプロジェクトに特化したTheano機能を急いで提供してくれたFrédéric Bastienに感謝します。LaTeXのタイプセットにおけるサポートを提供してくれたArnaud Bergeronにも感謝します。資金提供をしてくれたCIFAR、Canada Research Chairs、計算リソースを提供してくれたCompute Canada、Calcul Québecにも感謝します。Ian Goodfellowは2013年のGoogle Fellowship in Deep Learningのサポートを受けています。最後に、Les Trois Brasseursに創造性を刺激してくれたことに感謝します。

Generated on Fri Mar 8 00:21:12 2024 by LaTeXMLMascot Sammy

要約する
提案された新しいフレームワークは、生成モデルGと識別モデルDを同時に訓練する対立過程を通じて生成モデルを推定するものである。Gはデータ分布を捉え、Dはサンプルが訓練データから来た確率を推定する。Gの訓練手順は、Dが間違いを com する確率を最大化することにある。このフレームワークはミニマックス二人ゲームに対応し、Gが訓練データ分布を回復し、Dが常に1/2となる一意の解が存在する。バックプロパゲーションを用いてシステム全体を訓練でき、マルコフ連鎖や近似推論ネットワークは不要。実験では、生成されたサンプルの定性的および定量的評価を通じてフレームワークの潜在能力を示している。