Commits

Anonymous committed 91deeca

ajout analyse des résultats, fix erreurs diverses

Comments (0)

Files changed (18)

 *.nav
 *.out
 *.snm
+*.dvi
 lib

slides/images/lda/README.md

+This directory will contain output images of the process.

slides/images/lda/dopage.png

Added
New image

slides/images/lda/homo.png

Added
New image

slides/images/lda/informatique.png

Added
New image

slides/images/lda/mixture.png

Old
Old image
New
New image

slides/images/lda/musique.png

Added
New image

slides/images/lda/musique_groupe.png

Added
New image

slides/images/nmf/armee.png

Added
New image

slides/images/nmf/dopage.png

Added
New image

slides/images/nmf/guerre.png

Added
New image

slides/images/nmf/homo.png

Added
New image

slides/images/nmf/mixture.png

Old
Old image
New
New image

slides/images/nmf/musique_groupe.png

Added
New image

slides/images/nmf/peinture.png

Added
New image

slides/images/nmf/sport_saison.png

Added
New image

slides/images/nmf/train.png

Added
New image

slides/slides.tex

 \section{Corpus}
 
 \begin{frame}{Corpus}
-TODO
+Articles \emph{Wikipédia} en anglais :
+\begin{itemize}
+    \item $530$ documents~;
+    \item $16810$ termes (après pré-traitement)~;
+    \item extraction de $50$ thématiques~;
+    \item on garde $10$ mots par thématique.
+\end{itemize}
 \end{frame}
 
 
 
 
 \begin{frame}{Pré-traitement}
+Basé sur l'annotation \textsc{Systran} :
 \begin{itemize}
     \item Lemme~;
     \item sélection de la catégorie :
         \item nom (propre, commun)~;
         \item adjectif
     \end{itemize}
-    \item élimination des stop-words.
+    \item élimination des \emph{stop-words}.
 \end{itemize}
 \end{frame}
 
 Interprétation\footnote{\textsc{Hoffman}, Probabilistic Latent Semantic Indexing.
 In \emph{International Computer Science Institute} (1999)} :
 \begin{description}
-	\item[mixture] $U = \mathcal{P}(d_i~|~z_k)_{i, k}$
-	\item[topics] $V = \mathcal{P}(w_j~|~z_k)_{j,k}$
+	\item[mixture] thématiques associées à chaque document \\
+	$U = \mathcal{P}(d_i~|~z_k)_{i, k}$
+	\medskip
+	\item[topics] mots associés à chaque thématique \\
+	$V = \mathcal{P}(w_j~|~z_k)_{j,k}$
+	\medskip
 	\item[proportions] $\Sigma = \mathcal{P}(z_k)$
 \end{description}
 \end{frame}
 \begin{frame}{Latent Semantic Indexing}
 \begin{itemize}
     \item utile pour \emph{classification}, \emph{indexation}, \emph{réduction de dimension}
-    $$ [car, truck, flower] \rightarrow [1.3452 * car + 0.2828 * truck, flower] $$
+    $$ [car, truck, flower] \rightarrow [1.3 \times car + 0.3 \times truck, flower] $$
     \item difficile à interpréter :
-    $$ [car, bottle, flower] \rightarrow [1.3452 * car + 0.2828 * bottle, flower] $$
-    \item ne préserve pas les propriétés des données\footnote{positivité des coefficients}~;
+    $$ [car, bottle, flower] \rightarrow [1.3 \times car + 0.3 \times bottle, flower] $$
+    \item ne préserve pas les propriétés des données
+    \footnote{positivité des coefficients, interprétation physique}~;
     \item méthode trop générale pour extraire des thématiques.
 \end{itemize}
 \end{frame}
 % Resultats
 \section{Résultats}
 
-\begin{frame}{Thématiques}
+
+
+% Dopage
+\begin{frame}{Dopage}
   \begin{figure}
     \begin{tabular}{cc}
       \textsc{LDA} & \textsc{NMF} \\
       \hline               \\
-      \textcolor{blue}{center} & Ankara \\
-      Ankara & city \\
-      city & turkish \\
-      turkish & \textcolor{blue}{angora} \\
-      angora & roman \\
+      \textcolor{blue}{anabolic} & \textcolor{blue}{anabolic} \\
+      \textcolor{blue}{athlete} & antidoping \\
+      conservatee & \textcolor{blue}{athlete} \\
+      conservatorship & \textcolor{blue}{drug} \\
+      de & olympic \\
+      \textcolor{blue}{drug} & race \\
+      performance & \textcolor{blue}{sport} \\
+      \textcolor{blue}{sport} & \textcolor{blue}{steroid} \\
+      \textcolor{blue}{steroid} & substance \\
+      u.s & use
     \end{tabular}
+    \caption{Thématique dopage}
   \end{figure}
+\end{frame}
+
+\begin{frame}{LDA : dopage}
+\begin{figure}
+\includegraphics[width=\textwidth]{images/lda/dopage}
+\caption{Thématique \emph{dopage} avec \textsc{lda}}
+\end{figure}
+\end{frame}
+
+\begin{frame}{NMF : dopage}
+\begin{figure}
+\includegraphics[width=\textwidth]{images/nmf/dopage}
+\caption{Thématique \emph{dopage} avec \textsc{nmf}}
+\end{figure}
+\end{frame}
+
+
+% Musique groupe
+\begin{frame}{Musique}
   \begin{figure}
     \begin{tabular}{cc}
       \textsc{LDA} & \textsc{NMF} \\
       \hline               \\
-      tank & tank \\
-      system & system \\
-      \textcolor{blue}{asian} & type \\
-      type & \textcolor{blue}{al-Khalid} \\
-      chinese & chinese \\
+      Coles & David \\
+      Sadie & Hodges \\
+      \textcolor{blue}{album} & \textcolor{blue}{album} \\
+      artist & award \\
+      \textcolor{blue}{band} & \textcolor{blue}{band} \\
+      \textcolor{blue}{best} & \textcolor{blue}{best} \\
+      music & evanescance \\
+      release & pop \\
+      \textcolor{blue}{song} & \textcolor{blue}{song} \\
+      Sharma & -
     \end{tabular}
+    \caption{Thématique musique}
   \end{figure}
 \end{frame}
 
-\begin{frame}{Thématiques NMF}
+\begin{frame}{LDA : musique}
+\begin{figure}
+\includegraphics[width=\textwidth]{images/lda/musique_groupe}
+\caption{Thématique \emph{musique} avec \textsc{lda}}
+\end{figure}
+\end{frame}
+
+\begin{frame}{NMF : musique}
+\begin{figure}
+\includegraphics[width=\textwidth]{images/nmf/musique_groupe}
+\caption{Thématique \emph{musique} avec \textsc{nmf}}
+\end{figure}
+\end{frame}
+
+% Homosexualité
+\begin{frame}{Homosexualité}
   \begin{figure}
-    \begin{tabular}{ccc}
-      \textsc{NMF} & &     \\
+    \begin{tabular}{cc}
+      \textsc{LDA} & \textsc{NMF} \\
       \hline               \\
-      \textcolor{blue}{oil} & \textcolor{blue}{campaign} & electric \\
-      \textcolor{blue}{sand} & \textcolor{blue}{public} & acting \\
-      \textcolor{blue}{athabasca} & \textcolor{blue}{wetland} & \textcolor{blue}{locomotive} \\
-      \textcolor{blue}{bitumen} & \textcolor{blue}{awf} & president \\
-      \textcolor{blue}{production} & \textcolor{blue}{louisiana} & \textcolor{blue}{railway} \\
-      \textcolor{blue}{water} & \textcolor{blue}{hurricane} & steam \\
-      \textcolor{blue}{project} & \textcolor{blue}{america} & mallet \\
-      \textcolor{blue}{crude} & \textcolor{blue}{award} & electrical \\
-      \textcolor{blue}{energy} & \textcolor{blue}{state} & wheel \\
-      \textcolor{blue}{river} & organization & 1043 \\
+      \textcolor{blue}{charter} & Canada\\
+      \textcolor{blue}{discrimination} & \textcolor{blue}{charter}\\
+      gay & \textcolor{blue}{discrimination}\\
+      \textcolor{blue}{lgbt} & human\\
+      \textcolor{blue}{marriage} & \textcolor{blue}{lgbt}\\
+      \textcolor{blue}{orientation} & \textcolor{blue}{marriage}\\
+      \textcolor{blue}{right} & \textcolor{blue}{orientation}\\
+      section & \textcolor{blue}{right}\\
+      \textcolor{blue}{sex} & \textcolor{blue}{sex}\\
+      \textcolor{blue}{sexual} & \textcolor{blue}{sexual}\\
     \end{tabular}
-
+    \caption{Thématique homosexualité}
   \end{figure}
 \end{frame}
 
+\begin{frame}{LDA : homosexualité}
+\begin{figure}
+\includegraphics[width=\textwidth]{images/lda/homo}
+\caption{Thématique \emph{homosexualité} avec \textsc{lda}}
+\end{figure}
+\end{frame}
+
+\begin{frame}{NMF : homosexualité}
+\begin{figure}
+\includegraphics[width=\textwidth]{images/nmf/homo}
+\caption{Thématique \emph{homosexualité} avec \textsc{nmf}}
+\end{figure}
+\end{frame}
+
 
 \begin{frame}{Mixture LDA}
 \begin{figure}
 \includegraphics[width=\textwidth]{images/lda/mixture}
+\caption{Répartition des thématiques dans les documents avec \textsc{lda}. Chaque ligne est un document, thématique en abscisse, coefficient en ordonnée}
 \end{figure}
 \end{frame}
 
 \begin{frame}{Mixture NMF}
 \begin{figure}
 \includegraphics[width=\textwidth]{images/nmf/mixture}
+\caption{Répartition des thématiques dans les documents avec \textsc{nmf}. Chaque ligne est un document, thématique en abscisse, coefficient en ordonnée}
 \end{figure}
 \end{frame}
 
+\begin{frame}{Mesures}
+\begin{itemize}
+    \item $3.2$ Go de mémoire vive~;
+    \item $15$ minutes pour les 3 méthodes~;
+    \item perplexité :
+    \begin{description}
+        \item[LDA] $535.56$
+        \item[NMF] $534.32$
+        \item[LSA] $531.94$
+    \end{description}
+\end{itemize}
+\end{frame}
+
 % Pistes d'amelioration
 % - Nombre de thematiques dans un corpus
 % - Online LDA
 
 \section{Analyse des résultats}
 
-\begin{frame}{Analyse de NMF}
-  \begin{block}{Performance}
-    \begin{itemize}
-      \item La rapidité dépend beaucoup de l'implémentation~:
-        \begin{itemize}
-          \item Python~: très rapide,
-          \item Julia~: moins rapide, mais toujours plus que LDA~;
-        \end{itemize}
-    \end{itemize}
-  \end{block}
-  \begin{block}{Évaluation de la méthode}
-    Score de perplexité de~: 59.
-  \end{block}
+
+\begin{frame}{Améliorations LSA}
+\begin{itemize}
+    \item Algorithme plus performance~;
+    \item calcul de seulement $k$ valeurs singulières~;
+    \item réduction de l'empreinte mémoire.
+\end{itemize}
 \end{frame}
 
-\begin{frame}{Analyse des résultats de LDA}
-  \begin{block}{Performance}
+\begin{frame}{Améliorations NMF}
+Améliorations possibles :
+\begin{itemize}
+    \item Algorithme plus performance~;
+    \item réduction de l'erreur d'approximation.
+\end{itemize}
+\end{frame}
+
+
+\begin{frame}{Améliorations LDA (performances)}
+
     \begin{itemize}
-      \item Peut-être changer l'EM par un échantillonage type Gibbs
-        Sampling~;
+      \item Remplacer l'\textsc{em} par plus performant~;
       \item possibilité d'ajouter du multi-threading~;
-      \item passage de l'EM globale de mode Batch à On-line.
+      \item passage de l'\textsc{em} globale de mode Batch à On-line.
     \end{itemize}
-  \end{block}
-  \begin{block}{Évaluation de la méthode}
-    Score de perplexité de~: 64.
-  \end{block}
+
 \end{frame}
 
-\begin{frame}{Anayse des résultats de LDA}
-  \begin{block}{Modèle}
+\begin{frame}{Améliorations LDA (modèle)}
+
     \begin{itemize}
-      \item LDA n'établit pas de corrélations entre les
-        thématiques~:
+      \item Pas de corrélations entre les thématiques~:
         \begin{itemize}
           \item implémentation de CTM (Correlated Topic Modeling),
           \item implémentation de TPA (The Pachinko Allocation)~;
         \end{itemize}
-      \item toujours dépendant du paramètre fixé $K$ (nombre de thématique à
+      \item Paramètre fixé $K$ (nombre de thématiques à
         chercher)~:
         \begin{itemize}
           \item implémentation de HDP (Hierarchical Dirichlet Process),
           \item implémentation de HPP (Hierarchical Pachinko Process).
         \end{itemize}
     \end{itemize}
-  \end{block}
+
 \end{frame}
 
-\section{Améliorations futures}
 
 
 \subsection{Nombre de clusters}