sdpython
diff --git a/‎README.rst
+1-1 b/‎README.rst
+1-1
diff --git a/‎_doc/sphinxdoc/source/c_ml/rn.rst
+10-9 b/‎_doc/sphinxdoc/source/c_ml/rn.rst
+10-9
diff --git a/‎_doc/sphinxdoc/source/c_ml/rn_1_def.txt renamed to ‎_doc/sphinxdoc/source/c_ml/rn_1_def.rst b/‎_doc/sphinxdoc/source/c_ml/rn_1_def.txt renamed to ‎_doc/sphinxdoc/source/c_ml/rn_1_def.rst
diff --git a/‎_doc/sphinxdoc/source/c_ml/rn_2_reg.txt renamed to ‎_doc/sphinxdoc/source/c_ml/rn_2_reg.rst b/‎_doc/sphinxdoc/source/c_ml/rn_2_reg.txt renamed to ‎_doc/sphinxdoc/source/c_ml/rn_2_reg.rst
diff --git a/‎_doc/sphinxdoc/source/c_ml/rn_3_clas.txt renamed to ‎_doc/sphinxdoc/source/c_ml/rn_3_clas.rst b/‎_doc/sphinxdoc/source/c_ml/rn_3_clas.txt renamed to ‎_doc/sphinxdoc/source/c_ml/rn_3_clas.rst
diff --git a/‎_doc/sphinxdoc/source/c_ml/rn_4_reg2.txt renamed to ‎_doc/sphinxdoc/source/c_ml/rn_4_densite.rst
+1-1 b/‎_doc/sphinxdoc/source/c_ml/rn_4_reg2.txt renamed to ‎_doc/sphinxdoc/source/c_ml/rn_4_densite.rst
+1-1
diff --git a/‎_doc/sphinxdoc/source/c_ml/rn_5_newton.rst
+190 b/‎_doc/sphinxdoc/source/c_ml/rn_5_newton.rst
+190
diff --git a/‎_doc/sphinxdoc/source/c_ml/rn_biblio.txt renamed to ‎_doc/sphinxdoc/source/c_ml/rn_biblio.rst
+12 b/‎_doc/sphinxdoc/source/c_ml/rn_biblio.txt renamed to ‎_doc/sphinxdoc/source/c_ml/rn_biblio.rst
+12
diff --git a/‎_doc/sphinxdoc/source/conf.py
+4-2 b/‎_doc/sphinxdoc/source/conf.py
+4-2
diff --git a/‎_doc/sphinxdoc/source/index.rst
+12-8 b/‎_doc/sphinxdoc/source/index.rst
+12-8
diff --git a/‎_doc/sphinxdoc/source/phdoc_static/my-styles.css
+1-1 b/‎_doc/sphinxdoc/source/phdoc_static/my-styles.css
+1-1
diff --git a/‎_todo/clas_supervise/clas_super_biblio.tex
+50 b/‎_todo/clas_supervise/clas_super_biblio.tex
+50
@@ -40,7 +40,7 @@ README
 
 .. image:: https://badge.waffle.io/sdpython/mlstatpy.png?label=ready&title=Ready
     :alt: Waffle
-    :target: https://waffle.io/mlstatpy/pymyinstall    
+    :target: https://waffle.io/mlstatpy/mlstatpy    
 
 
 
 
@@ -13,18 +13,19 @@ l'`analyse en composantes principales <https://fr.wikipedia.org/wiki/Analyse_en_
 ou :ref:`ACP <nn-ACP>`
 sans oublier les méthodes d'estimation des paramètres qui les composent, 
 à savoir optimisations du premier et second ordre 
-(:ref:`nn-rn_optim_premier_ordre`) et :ref`nn-rn_optim_second_ordre`
+(:ref:`rn_optim_premier_ordre`) et :ref`rn_optim_second_ordre`
 ainsi qu'une méthode permettant de supprimer des coefficients inutiles 
-:ref`nn-selection_connexion`.
+:ref`selection_connexion`.
 
-.. contents:: .
-    :depth: 2
+.. toctree::
+    :maxdepth: 2
 
-.. include:: rn_1_def.txt
-.. include:: rn_2_reg.txt
-.. include:: rn_3_clas.txt
-.. include:: rn_4_reg2.txt
-.. include:: rn_biblio.txt
+    rn_1_def
+    rn_2_reg
+    rn_3_clas
+    rn_4_densite
+    rn_5_newton
+    rn_biblio
 
 
 
 
@@ -385,7 +385,7 @@ compacts connexes par arcs et disjoints
 
 
 
-**Démontration du théorème de :ref:`densité des réseaux de neurones <theoreme_densite>`**
+**Démontration du théorème de** :ref:`densité des réseaux de neurones <theoreme_densite>`
 
 *Partie 1*
 
 
@@ -0,0 +1,190 @@
+
+
+
+
+Méthode d'optimisation de Newton
+================================
+
+Lorsqu'un problème d'optimisation n'est pas soluble de manière déterministe, 
+il existe des algorithmes permettant de trouver une solution approchée 
+à condition toutefois que la fonction à maximiser ou minimiser soit dérivable, 
+ce qui est le cas des réseaux de neurones. Plusieurs variantes seront proposées 
+regroupées sous le terme de descente de gradient.
+
+
+
+Algorithme et convergence
++++++++++++++++++++++++++
+
+
+Soit :math:`g : \R \dans \R` une fonction dérivable dont il faut trouver 
+:math:`\overset{*}{x} = \underset{x \in \R}{\arg \min} \; g\pa{x}`, 
+le schéma suivant illustre la méthode de descente de gradient 
+dans le cas où :math:`g \pa{x} = x^2`.
+
+
+.. image:: rnimg/rn_courbe.png
+
+
+On note :math:`x_{t}` l'abscisse à l'itération :math:`t`.
+On note :math:`\dfrac{\partial g\left(  x_{t}\right)  }{\partial x}` le
+gradient de :math:`g\left(  x\right)  =x^{2}`.
+L'abscisse à l'itération :math:`t+1` sera 
+:math:`x_{t+1}=x_{t}-\varepsilon_{t}\left[  \dfrac{\partial g\left(  x_{t}\right)}{\partial x}\right]`.
+:math:`\varepsilon_{t}` est le pas de gradient à l'itération :math:`t`.
+
+On suppose maintenant que :math:`g` est une fonction dérivable 
+:math:`g : \R^q \dans \R` dont il faut trouver le minimum, le théorème suivant démontre 
+la convergence de l'algorithme de descente de gradient à condition 
+que certaines hypothèses soient vérifiées. Une généralisation de ce théorème est présentée dans
+[Driancourt1996]_.
+
+
+.. mathdef::
+    :title: convergence de la méthode de Newton [Bottou1991]_
+    :tag: Théorème
+    :lid: theoreme_convergence
+
+
+    Soit une fonction continue :math:`g : W \in \R^M \dans \R`
+    de classe :math:`C^{1}`.    
+    On suppose les hypothèses suivantes vérifiées :
+    
+    * **H1** : :math:`\underset{W\in \R^q}{\arg\min} \; 
+      g\left(  W\right) =\left\{  W^{\ast}\right\}` 
+      est un singleton
+    * **H2** : :math:`\forall\varepsilon>0, \; \underset{\left|  W-W^{\ast}\right|
+      >\varepsilon}{\inf}\left[  \left(  W-W^{\ast}\right)  ^{\prime}.\nabla
+      g\left(  W\right)  \right]  >0`
+    * **H3** : :math:`\exists\left(  A,B\right)  \in \R^2` tels que :math:`\forall W\in\R^p,\; \left\|
+      \nabla g\left( W\right) \right\| ^{2}\leqslant A^{2}+B^{2}\left\|  W-W^{\ast}\right\|  ^{2}`
+    * **H4** : la suite :math:`\left(  \varepsilon_{t}\right)_{t\geqslant0}` vérifie,
+      :math:`\forall t>0, \; \varepsilon_{t}\in \R_{+}^{\ast}`
+      et :math:`\sum_{t\geqslant 0}\varepsilon_{t}=+\infty`, 
+      :math:`\sum_{t\geqslant 0}\varepsilon_{t}^{2}<+\infty`
+    
+    Alors la suite :math:`\left(  W_{t}\right)  _{t\geqslant 0}` construite de la manière suivante 
+    :math:`W_{0} \in \R^M`, :math:`\forall t\geqslant0` : 
+    :math:`W_{t+1}=W_{t}-\varepsilon_{t}\,\nabla g\left(  W_{t}\right)`            
+    vérifie :math:`\lim_{ t \dans+\infty}W_{t}=W^{\ast}`.
+
+
+
+L'hypothèse **H1** implique que le minimum de la fonction :math:`g` 
+est unique et l'hypothèse **H2** implique que le demi-espace défini par 
+l'opposé du gradient contienne toujours le minimum de la fonction :math:`g`. 
+L'hypothèse **H3** est vérifiée pour une fonction sigmoïde, elle l'est donc aussi pour toute somme finie
+de fonctions sigmoïdes que sont les réseaux de neurones à une couche cachée.
+
+
+
+**Démonstration du théorème**
+
+*Partie 1*
+
+
+Soit la suite :math:`u_{t}=\ln\left(  1+\varepsilon_{t}^{2}x^{2}\right)` 
+avec :math:`x\in\R`, comme :math:`\sum_{t\geqslant 0} \varepsilon_{t}^{2} < +\infty, \; 
+u_{t}\thicksim\varepsilon_{t}^{2}x^{2}`, on a :math:`\sum_{t\geqslant 0} u_{t} < +\infty`.
+
+Par conséquent, si :math:`v_{t}=e^{u_{t}}` alors :math:`\prod_{t=1}^T v_{t}\overset{T \rightarrow \infty}{\longrightarrow}D \in \R`.
+
+*Partie 2*
+
+On pose :math:`h_{t}=\left\|  W_{t}-W^{\ast}\right\|  ^{2}`.
+Donc :
+
+.. math::
+    :nowrap:
+    :label: equation_convergence_un
+
+    \begin{eqnarray}
+    h_{t+1} -h_{t} &=&\left\|  W_{t}-\varepsilon_{t}\,\nabla g\left( W_{t}\right) -W^{\ast }\right\|
+    			  ^{2}-\left\|W_{t}-W^{\ast}\right\| ^{2}
+    \end{eqnarray}
+
+Par conséquent :
+
+.. math::
+
+    h_{t+1}-h_{t}=-2\varepsilon_{t}\underset{>0} {\underbrace{\left(  W_{t}-W^{\ast}\right) 
+     ^{\prime}\,\nabla g\left( W_{t}\right)
+    }}+\varepsilon_{t}^{2}\,\left\|  \,\nabla C\left( W_{t}\right) \right\|  
+    ^{2}\leqslant\varepsilon_{t}^{2}\,\left\|  \,\nabla g\left( W_{t}\right)
+    \right\|  ^{2}\leqslant\varepsilon_{t}^{2}\,\left(  A^{2}  +B^{2}h_{t}\right)
+    
+D'où :
+
+.. math::
+
+    h_{t+1}-h_{t}\left(  1+\varepsilon_{t}^{2}B^{2}\right) \leqslant\varepsilon_{t}^{2}\,A^{2}
+    
+On pose :math:`\pi_{t}= \prod_{k=1}^t \left(  1+\varepsilon_{k}^{2}B^{2}\right)  ^{-1}` 
+alors en multipliant des deux côtés par :math:`\pi_{t+1}`, on obtient :
+
+.. math::
+
+    \begin{array}{rcl}
+    \pi_{t+1}h_{t+1}-\pi_{t}h_{t} &\leqslant& \varepsilon_{t}^{2}\,A^{2}\pi_{t+1}\\
+    \text{d'où }\pi_{q+1}h_{q+1}-\pi_{p}h_{p} &\leqslant&
+                    \sum_{t=p}^q \varepsilon_{t}^{2}\,A^{2}\pi_{t+1} \leqslant
+    \sum_{t=p}^{q} \varepsilon_{t}^{2} \, A^{2}\Pi  \leqslant \sum_{t=p}^{q} \varepsilon_{t}^{2}\,A^{2}\Pi
+    			 \underset{t \longrightarrow
+    \infty}{\longrightarrow} 0
+    \end{array}
+
+Comme la série :math:`\sum_t \pa{\pi_{t+1}h_{t+1}-\pi_{t}h_{t}}` vérifie le critère de Cauchy, elle est convergente. Par conséquent :
+    
+.. math::
+
+    \underset{q\rightarrow\infty}{\lim}\pi_{q+1}h_{q+1}=0=\underset{q\rightarrow \infty}{\lim}\Pi h_{q+1}
+    
+D'où :math:`\underset{q\rightarrow\infty}{\lim}h_{q}=0`.
+
+*Partie 3*
+
+
+La série :math:`\sum_t\pa{h_{t+1}-h_{t}}` est convergente car :math:`\Pi h_t \sim \pi_t h_t`.
+:math:`\sum_{t\geqslant0}\varepsilon_{t}^{2}\,\left\| \,\nabla g\left( W_{t}\right) \right\|  ^{2}` 
+l'est aussi (d'après **H3**).
+
+D'après :eq:`equation_convergence_un`, 
+la série :math:`\sum_{t\geqslant 0}\varepsilon_{t}\left( W_{t}-W^{\ast }\right) ^{\prime} \,
+\nabla g\left( W_{t}\right)` est donc convergente. 
+Or d'après les hypothèses **H2**, **H4**, elle ne peut l'être que si :
+    
+.. math::
+    :nowrap:
+
+    \begin{eqnarray}
+    \underset{t\rightarrow\infty}{\lim}W_{t}&=&W^{\ast}
+    \end{eqnarray}
+
+
+
+Si ce théorème prouve la convergence 
+de la méthode de Newton, il ne précise pas à quelle vitesse cette convergence 
+s'effectue et celle-ci peut parfois être très lente. Plusieurs variantes 
+ont été développées regroupées sous le terme de méthodes de quasi-Newton dans le but 
+d'améliorer la vitesse de convergence (voir :ref:`rn_section_train_rn`).
+
+Ce théorème peut être étendu dans le cas où la fonction :math:`g` 
+n'a plus un seul minimum global mais plusieurs minima locaux ([Bottou1991]_), 
+dans ce cas, la suite :math:`\pa{W_{t}}` converge vers un mimimum local. 
+Dans le cas des réseaux de neurones, la fonction à optimiser est :
+
+.. math::
+    :nowrap:
+    :label: equation_fonction_erreur_g
+    
+    \begin{eqnarray}
+    G\pa{W}   &=&   \sum_{i=1}^{N} e\pa {Y_{i}, \widehat{Y_{i}^W}} \\
+                      &=&   \sum_{i=1}^{N} e\pa {Y_{i}, f \pa{W,X_{i}}}
+    \end{eqnarray}
+
+Dès que les fonctions de transfert ne sont pas linéaires,
+il existe une multitude de minima locaux, ce nombre croissant avec celui des coefficients.
+
+
+
+
@@ -1,12 +1,24 @@
 
 
+Bibliographie
+=============
+
+.. [Bottou1991] Une approche théorique de l'apprentissage connexionniste, Application à la reconnaissance de la parole,
+   Léon Bottou,
+   *Thèse de l'Université de Paris Sud, Centre d'Orsay*.
+
 .. [Bishop1995] Neural networks for pattern recognition (1995),
    C. M. Bishop, *Oxford University Press*
    
 .. [Cybenko1989] Approximation by superpositions of a sigmoidal function (1989),
    G. Cybenko, *Mathematics of Controls, Signals, and Systems*, 
    p 303-314
 
+.. [Driancourt1996] Optimisation par descente de gradient stochastique de systèmes modulaires 
+   combinant réseaux de neurones et programmation dynamique, 
+   Application à la reconnaissance de la parole (1996), X. Driancourt,
+   *Thèse de l'Université de Paris Sud, Centre d'Orsay*.
+   
 .. [LeCun1985] Une procédure d'apprentissage pour réseaux à seuil asymétrique (1985),
    Yann Le Cun, *Cognita*, p 599-604
 
 
@@ -20,10 +20,11 @@
             "pyquickhelper",
             "src")))
 
+local_template = os.path.join(os.path.abspath(os.path.dirname(__file__)), "phdoc_templates")
+
 from pyquickhelper.helpgen.default_conf import set_sphinx_variables
 set_sphinx_variables(__file__, "mlstatpy", "Xavier Dupré", 2016,
-                     sphtheme.__name__, [
-                         sphtheme.get_html_theme_path()], locals(),
+                     sphtheme.__name__, [sphtheme.get_html_theme_path()], locals(),
                      extlinks=dict(
                          issue=('https://github.com/sdpython/mlstatpy/issues/%s', 'issue')),
                      title="Machine Learning, Statistiques et Programmation", book=True)
@@ -52,6 +53,7 @@
             \\newcommand{\\loi}[0]{{\\cal L}}
             \\newcommand{\\vecteurno}[2]{#1,\\dots,#2}
             \\newcommand{\\norm}[1]{\\left\\Vert#1\\right\\Vert}
+            \\newcommand{\\dans}[0]{\\rightarrow}
             """
 
 imgmath_latex_preamble += custom_preamble
 
@@ -37,16 +37,12 @@ Xavier Dupré
     :target: https://ci.appveyor.com/project/sdpython/mlstatpy
     :alt: Build Status Windows
 
-.. image:: https://badge.fury.io/py/project_name.svg
-    :target: http://badge.fury.io/py/project_name    
+.. image:: https://badge.fury.io/py/mlstatpy.svg
+    :target: http://badge.fury.io/py/mlstatpy    
 
-.. image:: http://img.shields.io/pypi/dm/project_name.png
+.. image:: http://img.shields.io/pypi/dm/mlstatpy.png
     :alt: PYPI Package
-    :target: https://pypi.python.org/pypi/project_name
-
-.. image:: http://img.shields.io/github/issues/sdpython/mlstatpy.png
-    :alt: GitHub Issues
-    :target: https://github.com/sdpython/mlstatpy/issues
+    :target: https://pypi.python.org/pypi/mlstatpy
 
 .. image:: https://img.shields.io/badge/license-MIT-blue.svg
     :alt: MIT License
@@ -65,7 +61,15 @@ Xavier Dupré
 
 .. image:: https://codecov.io/github/sdpython/mlstatpy/coverage.svg?branch=master
     :target: https://codecov.io/github/sdpython/mlstatpy?branch=master
+
+.. image:: http://img.shields.io/github/issues/sdpython/mlstatpy.png
+    :alt: GitHub Issues
+    :target: https://github.com/sdpython/mlstatpy/issues
 
+.. image:: https://badge.waffle.io/sdpython/mlstatpy.png?label=ready&title=Ready
+    :alt: Waffle
+    :target: https://waffle.io/sdpython/mlstatpy
+
 
 **Links:** `github <https://github.com/sdpython/mlstatpy/>`_,
 `documentation <http://www.xavierdupre.fr/app/mlstatpy/helpsphinx/index.html>`_,
 
@@ -14,4 +14,4 @@
 	margin-bottom: 5px;
 	margin-top: 5px;
 	font-size: 14;
-}
+}
@@ -0,0 +1,50 @@
+% insère une entrée dans la bibliographie
+%		1 - identifiant
+%		2 - année
+%		3 - auteurs
+%		4 - titre
+%		5 - revue
+%		6 - volume
+%		7 - page début
+%		8 - page fin
+
+\bibitemstyle{Chang1974} {1974} {C. L. Chang}
+{Finding prototypes for nearest neighbor classifiers}
+{IEEE Transactions on Computer}{23(11)}{1179}{1184}
+
+\bibitemstyle{Hart1968} {1968} {P. E. Hart}
+{The Condensed nearest neighbor rule}
+{IEEE Transactions on Information Theory}{14}{515}{516}
+
+\bibitemstyle{Bezdek2001} {2001} {J.C. Bezdek, L.I. Kuncheva}
+{Nearest prototype classifier designs: An experimental study}
+{International Journal of Intelligent Systems}{16(12)}{1445}{1473}
+
+\bibitemstyle{Frasconi1997} {1997} {P. Frasconi, M. Gori, G. Soda}
+{Links between LVQ and Backpropagation}
+{Pattern Recognition Letters}{18}{303}{310}
+
+\bibitemstyle{Kim2003} {2003} {Sang-Woon Kim, B.J. Oommen}
+{Enhancing prototype reduction schemes with LVQ3-type}
+{Pattern Recognition}{36}{1083}{1093}
+
+\bibitemstyle{Kohonen1982} {1982} {T. Kohonen}
+{Self-organized formation of topologically correct feature maps}
+{Biol. Cybernet.}{43}{59}{69}
+
+\bibitemstyle{Kohonen1995} {1995} {T. Kohonen}
+{Self-organizing Map}
+{Springer, Berlin}{}{0}{}
+
+\bibitemstyle{Linde1980} {1980} {Y. Linde, A. Buzo, R. M. Gray}
+{An algorithm for vector quantizer design}
+{IEEE Transactions on Commun.}{28}{84}{95}
+
+\bibitemstyle{Vakil2003} {2003} {Mohhamad-Taghi Vakil-Baghmisheh, Nikola Pavesic}
+{Premature clustering phenomenon and new training algorithms for LVQ}
+{Pattern Recognition}{36}{1901}{1912}
+
+\bibitemstyle{Vapnik1998} {1998} {V. N. Vapnik}
+{Statistical Learning Theory}
+{Wiley, New York}{}{0}{}
+
Original file line number	Diff line number	Diff line change
`@@ -385,7 +385,7 @@ compacts connexes par arcs et disjoints`
`385`	`385`
`386`	`386`
`387`	`387`
`388`		-Démontration du théorème de :ref:`densité des réseaux de neurones <theoreme_densite>`
	`388`	+Démontration du théorème de :ref:`densité des réseaux de neurones <theoreme_densite>`
`389`	`389`
`390`	`390`	`Partie 1`
`391`	`391`