Commits

remusao committed ae89b16

ajout pre-traitement et post-traitement

  • Participants
  • Parent commits f926569

Comments (0)

Files changed (1)

File slides/slides.tex

 \usepackage{pgf,pgfarrows,pgfnodes,pgfautomata,pgfheaps,pgfshade}
 \usepackage{verbatim}
 \usepackage{subcaption}
+\usepackage{color}
 
 \setbeamertemplate{footline}[frame number]
 
 
 
 \title{Extraction de thématiques}
-\subtitle{Projet de fin d'études a \textsc{epita}}
+\subtitle{Projet de fin d'études à EPITA}
 \author{Rémi Berson \\ Vincent Latrouite \\ Fabrice Rougeau \\ Juliette Tisseyre \\ Olivier Querné}
 \date{}
 
 % Corpus
 \section{Corpus}
 
+\begin{frame}{Corpus}
+TODO
+\end{frame}
+
+
 % Pre-traitement
-\section{Pre-traitement}
+\section{Pré-traitement}
 
 
 \begin{frame}{Pré-traitement}
 
 \begin{frame}{Term Document Matrix}
 \begin{itemize}
-    \item \textit{Count} (modèles génératifs)~;
-    \item \textit{tf\_idf} (autres méthodes).
+    \item $D$ documents~;
+    \item $V$ termes uniques~;
+    \item Corpus $\in \mathcal{M}_{D, V}(\mathbb{R})$
+\end{itemize}
+
+$$ A_{d,v} =
+ \begin{pmatrix}
+  a_{1,1} & a_{1,2} & \cdots & a_{1,V} \\
+  a_{2,1} & a_{2,2} & \cdots & a_{2,V} \\
+  \vdots  & \vdots  & \ddots & \vdots  \\
+  a_{D,1} & a_{D,2} & \cdots & a_{D,V}
+ \end{pmatrix}$$
+ 
+ $(a_{d, v})$ : coefficient associé au terme $v$ du document $d$ 
+\end{frame}
+
+
+\begin{frame}{Coefficients}
+
+\begin{itemize}
+    \item Nombre d'occurrences du mot \textit{(count)}~;
+    \item fréquence du mot dans le document \textit{(frequency)}~;
+    \item \emph{term-frequency inverse-document-frequency} \textit{(tf-idf)}
+    $$\text{tf-idf}_{i, j} = \text{tf}_{i, j} \times
+    \text{log}\left(\frac{D}{\text{occurence}_i}\right)$$
+    \begin{itemize}
+        \item mots très présents dans le corpus
+        \textcolor{red}{\textbf{-- --}}
+        \item mots peu présents dans le corpus
+        \textcolor{green}{\textbf{++}}
+    \end{itemize}
 \end{itemize}
 \end{frame}
 
 \section{Extraction de thématiques}
 
 
+\begin{frame}{Méthodes}
+\begin{block}{Model reduction}
+\begin{itemize}
+    \item Latent Semantic Indexing \textit{(LSI)}
+    \item Non-negative Matrix Factorization \textit{(NMF)}
+\end{itemize}
+\end{block}
+
+\begin{block}{Generative model}
+\begin{itemize}
+    \item Latent Dirichlet Allocation \textit{(LDA)}
+\end{itemize}
+\end{block}
+
+\end{frame}
+
 
 \begin{frame}{Latent Semantic Indexing}
 \begin{itemize}
 \section{Post-traitement}
 
 \begin{frame}{Post-traitement}
+Résultat de l'extraction :
+\begin{description}
+    \item[Mixture] $\gamma \in \mathcal{M}_{D, K}(\mathbb{R})$ \\
+    $$\gamma_{d, k} = \mathcal{P}(\text{Topic}_k ~|~ \text{Document}_d)$$
+    \item[Thématiques] $\beta \in \mathcal{M}_{K, V}(\mathbb{R})$ \\
+    $$\beta_{k, v} = \mathcal{P}(\text{Word}_v ~|~ \text{Topic}_k)$$
+\end{description}
+\end{frame}
+
 
+\begin{frame}{Lissage des thématiques}
+Lissage \textit{idf} sur les thématiques :
+$$\text{term-score}_{k, v} = \hat{\beta}_{k, v} \times \text{log}\left(
+\frac{\hat{\beta}_{k, v}}{\left(\prod_{j=1}^{K} \hat{\beta}_{j, v}\right)^{\frac{1}{K}}}
+\right)$$
 \end{frame}
 
+\begin{frame}{Lissage des thématiques}
+Le terme $\prod_{j=1}^{K} \hat{\beta}_{j, v}$ pose problème :
+\begin{description}
+    \item[problème] précision d'un \textit{float} (produit de probabilités)
+    \item[solution 1] utiliser \textit{float} à précision arbitraire (lent)~;
+    \item[solution 2] développer pour transformer en somme
+\end{description}
+$$\text{term-score}_{k, v} = \hat{\beta}_{k, v} \times \left(
+\text{log}\left(\hat{\beta}_{k, v}\right)
+- \frac{\sum_{j=1}^{K}\text{log}\left(\hat{\beta}_{j, v}\right)}{K}
+\right)$$
+\end{frame}
+
+
 % Resultats
 \section{Résultats}