十の並列した脳

何でも勉強する,毎週月木曜に投稿予定

論文Abstract100本ノック#16

前回↓

 

ryosuke-okubo.hatenablog.com

 

 

 

76~85は最適化の手法について扱う。

 

76 AdaGrad(2011)

f:id:ryosuke_okubo:20191026190313p:plain

原文:

Adaptive Subgradient Methods for Online Learning and Stochastic Optimization

 

Abstract:

We present a new family of subgradient methods that dynamically incorporate knowledge of the geometry of the data observed in earlier iterations to perform more informative gradient-based learning.

語彙:

subgradient methods

iterations

訳:

より有益な勾配ベースの学習を実行するために,我々は以前の反復で観測されたデータのジオメトリの知識を動的に組み込む新しい部分勾配法のファミリーを提示する。

 

Metaphorically, the adaptation allows us to find needles in haystacks in the form of very predictive but rarely seen features.

語彙:

haystacks

訳:

比喩的には,適応によって非常に予測的ではあるがめったに見られない特徴の形で干し草の山の中から針を見つけることができる。

 

Our paradigm stems from recent advances in stochastic optimization and online learning which employ proximal functions to control the gradient steps of the algorithm.

語彙:

stems from

proximal functions

訳:

我々のパラダイムは,アルゴリズムの勾配ステップを制御するためにproximal functionsを使用する確率的最適化とオンライン学習の最近の進歩に由来している。

 

We describe and analyze an apparatus for adaptively modifying the proximal function, which significantly simplifies setting a learning rate and results in regret guarantees that are provably as good as the best proximal function that can be chosen in hindsight.

語彙:

apparatus

modifying

in hindsight

訳:

学習率の設定を大幅に簡素化し,後から選択できる最良のproximal functionと同じくらい良いregret guaranteesをもたらす,proximal functionを適応的に更新するための装置を説明および分析する。

 

We give several efficient algorithms for empirical risk minimization problems with common and important regularization functions and domain constraints.

訳:

我々は一般的かつ重要な正則化関数とドメイン制約を伴う経験的リスク最小化問題のためのいくつかの効率的なアルゴリズムを提供する。

 

We experimentally study our theoretical analysis and show that adaptive subgradient methods outperform state-of-the-art, yet non-adaptive, subgradient algorithms.

訳:

理論的な分析を実験的に研究し,適応型の部分勾配法が,最先端しかし非適応型の部分勾配アルゴリズムよりも優れていることを示す。

 

77 Adam(2014)

f:id:ryosuke_okubo:20191026190341p:plain

原文:

Adam: A Method for Stochastic Optimization

 

Abstract:

We introduce Adam, an algorithm for first-order gradient-based optimization of stochastic objective functions, based on adaptive estimates of lower-order moments.

語彙:

first-order

lower-order

訳:

我々は低次モーメントの適応推定に基づいた,確率的目的関数の1次勾配ベースの最適化アルゴリズムであるAdamを紹介する。

 

The method is straightforward to implement, is computationally efficient, has little memory requirements, is invariant to diagonal rescaling of the gradients, and is well suited for problems that are large in terms of data and/or parameters.

語彙:

straightforward

diagonal

and/or

訳:

この方法は実装が簡単で,計算効率が高く,メモリ要件がほとんどなく,勾配の対角線の再スケーリングに不変であり,データおよびまたはパラメーターの点で大きな問題に適している。

 

The method is also appropriate for non-stationary objectives and problems with very noisy and/or sparse gradients.

語彙:

non-stationary

訳:

この方法は非常にノイズの多い,またはスパースな勾配のある非定常の目的や問題にも適している。

 

The hyper-parameters have intuitive interpretations and typically require little tuning.

語彙:

interpretations

訳:

ハイパーパラメーターには直感的な解釈があり,通常はほとんど調整する必要がない。

 

Some connections to related algorithms, on which Adam was inspired, are discussed.

訳:

Adamが触発されたいくつかの関連アルゴリズムへの接続について説明する。

 

We also analyze the theoretical convergence properties of the algorithm and provide a regret bound on the convergence rate that is comparable to the best known results under the online convex optimization framework.

語彙:

convergence properties

regret

訳:

また,我々はアルゴリズムの理論的な収束性を分析し,オンライン凸最適化フレームワークの下で最もよく知られている結果に匹敵する収束率にregretの限界を提供する。

 

Empirical results demonstrate that Adam works well in practice and compares favorably to other stochastic optimization methods.

訳:

経験的な結果は,Adamが実際にうまく機能し,他の確率的最適化手法と比較して有利であることを示している。

 

Finally, we discuss AdaMax, a variant of Adam based on the infinity norm.

訳:

最後に,無限ノルムに基づいたAdamのバリアントであるAdaMaxについて説明する。

 

78 RMSpropGraves(2013)

原文:

Generating Sequences With Recurrent Neural Networks

 

Abstract:

This paper shows how Long Short-term Memory recurrent neural networks can be used to generate complex sequences with long-range structure, simply by predicting one data point at a time.

語彙:

long-range

訳:

本論文では一度に1つのデータポイントを予測するだけで,LSTM RNNを使用して長距離構造の複雑なシーケンスを生成する方法を示す。

 

The approach is demonstrated for text (where the data are discrete) and online handwriting (where the data are real-valued).

訳:

このアプローチはテキスト(データが離散的である場合)およびオンライン手書き(データが実数値である場合)について実証されている。

 

It is then extended to handwriting synthesis by allowing the network to condition its predictions on a text sequence.

訳:

次に,ネットワークがテキストシーケンスで予測を調整できるようにすることで手書き合成に拡張される。

 

The resulting system is able to generate highly realistic cursive handwriting in a wide variety of styles.

語彙:

cursive

訳:

結果として得られるシステムは,非常にリアルな筆記体をさまざまなスタイルで生成できる。

 

79 Nadam(2016)

f:id:ryosuke_okubo:20191026190406p:plain

原文:

INCORPORATING NESTEROV MOMENTUM INTO ADAM

 

Abstract:

This work aims to improve upon the recently proposed and rapidly popularized optimization algorithm Adam (Kingma & Ba, 2014).

訳:

この作業は,最近提案され急速に普及した最適化アルゴリズムAdam(Kingma & Ba, 2014)を改善することを目的としている。

 

Adam has two main components—a momentum component and an adaptive learning rate component.

訳:

Adamには2つの主要なコンポーネントがあるーそれは、運動量コンポーネントと適応学習率コンポーネントである。

 

However, regular momentum can be shown conceptually and empirically to be inferior to a similar algorithm known as Nesterov’s accelerated gradient (NAG).

語彙:

inferior

Nesterov’s accelerated gradient

訳:

ただし,規則的な運動量はNesterovの加速勾配法(NAG)として知られる同様のアルゴリズムよりも劣っていることが概念的にも経験的にもを示されうる。

 

We show how to modify Adam’s momentum component to take advantage of insights from NAG, and then we present preliminary evidence suggesting that making this substitution improves the speed of convergence and the quality of the learned models.

訳:

我々はNAGからの洞察を活用するためにAdamの運動量コンポーネントを変更する方法を示し,この置換を行うことで収束速度と学習モデルの品質が向上することを示唆する予備的な証拠を提示する。

 

80 Eve(2016)

f:id:ryosuke_okubo:20191026190432p:plain

原文:

Eve: A Gradient Based Optimization Method with Locally and Globally Adaptive Learning Rates

 

Abstract:

Adaptive gradient methods for stochastic optimization adjust the learning rate for each parameter locally.

訳:

確率的最適化のための適応勾配法は各パラメーターの学習率を局所的に調整する。

 

However, there is also a global learning rate which must be tuned in order to get the best performance.

語彙:

in order to

訳:

ただし,グローバルな学習率もあり,それは最高のパフォーマンスを得るために調整する必要がある。

 

In this paper, we present a new algorithm that adapts the learning rate locally for each parameter separately, and also globally for all parameters together.

訳:

本論文では,各パラメータに対して学習率をローカルに個別に適応させ,またすべてのパラメータを一緒にグローバルに適応させる新しいアルゴリズムを提示する。

 

Specifically, we modify Adam, a popular method for training deep learning models, with a coefficient that captures properties of the objective function.

訳:

具体的には,深層学習モデルを学習する一般的な方法であるAdamを,目的関数のプロパティをキャプチャする係数で変更する。

 

Empirically, we show that our method, which we call Eve, outperforms Adam and other popular methods in training deep neural networks, like convolutional neural networks for image classification, and recurrent neural networks for language tasks.

訳:

経験的に,Eveと呼ばれる我々の方法が,画像分類のためのCNNや言語タスクのためのRNNのようなDNNの学習において,Adamや他の一般的な方法よりも優れていることを示す。

 

次回↓

 

ryosuke-okubo.hatenablog.com