Commits

Amirouche Boubekki committed d77f803

commit de 00:13

  • Participants
  • Parent commits 6b223de

Comments (0)

Files changed (7)

_static/folderondemand.dia

Binary file added.

_static/libepartnersad.dia

Binary file added.

_static/libepartnersad.eps

Binary file added.

_static/libepartnersad.png

Added
New image

bibliographie.rst

+Bibliographie
+
+ 1. **** 
+    ` <>`_
+ 1. **Latent Dirichlet allocation** 
+    `http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation <http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation>`_
+ 2. **What papers have shown that for machine learning, data set size is more important than the model being trained?** 
+    `http://www.quora.com/Machine-Learning/What-papers-have-shown-that-for-machine-learning-data-set-size-is-more-important-than-the-model-being-trained <http://www.quora.com/Machine-Learning/What-papers-have-shown-that-for-machine-learning-data-set-size-is-more-important-than-the-model-being-trained>`_
+ 3. **Lessons learned developing a practical large scale machine learning system**
+    `http://googleresearch.blogspot.com/2010/04/lessons-learned-developing-practical.html <http://googleresearch.blogspot.com/2010/04/lessons-learned-developing-practical.html>_`
+ 4. **Article d'orange**
+    
+ 5. **Enrichir un tweet avec wikipedia**
+ 
     cockpit
     cobra
     conclusion
+    bibliographie
     glossaire
 et technique. Je devais penser à de nouvelles fonctionnalité et proposer des moyens
 de les implementer.
 
-La fonction que j'ai conçu est le mur dynamique personnalisé. Cette fonction
-est inspiré de «La Une» de facebook, la fonction recommandation de twittos par 
-twitter, et la recommandation «Amazon». L'idée est de faire donner
-une note a chaque tweet que reçoit un utilisateur en fonction de ses preférences, 
-actions passés et environnement 
-twitter et faire remonter de cette façon les tweets qui auront le plus de chance 
-d'être interessant. Il faut aussi pouvoir reproduire l'experience pas uniquement
-sur les flux entrant mais aussi sur les autres flux du type hashtag. 
+La proposition est de reproduire le mur personnalisé de facebook et regrouper les
+tweets par thème comme le fait Google News. 
 
 La premiere étape a été de dressé un état de l'art dans le domaine de la recommandation
 de contenu. Je me suis rendu compte que le domaine de recherche à l'origine de ce 
 type d'algorithme provenait le plus souvent de l'intelligence artificiel et plus 
-particulierement le domaine des machines apprenantes. C'est pourquoi j'ai continuer 
-mes lectures dans ce domaine. Les machines apprenantes utilisent différentes types 
-d'algorithmes parfois basés sur des probabilités/statistiques parfois sur de l'algèbre. 
-
-Pour finir il y a une partie des algorithmes qui utilisent de l'information sémantique
-tiré d'un traitement automatique de la langue. Une partie des algorithmes visent 
-explicitement à representer des graphes dans de le plan ou l'espace.
+particulierement le domaine des machines apprenantes ou algorithme d'aide à la decision. 
+J'ai continuer mes lectures dans ce domaine. Les machines apprenantes 
+utilisent différentes types d'algorithmes parfois basés sur des statistiques 
+parfois sur des mathématiques discrêtes. Il y a une partie des algorithmes qui 
+utilisent de l'information sémantique tiré d'un traitement automatique de la 
+langue. La categorisation est aussi un problème qui peut-être resolu à l'aide 
+d'une machine apprenante.
 
 A partir de ses connaissances j'ai developpé un programme cible qui doit permettre
 d'implementer la recommandation de contenu en minimisant l'effet de demarrage à
 froid dans le cadre d'une implementation dans Rook. Ce sous projet est nommé noosphere
 je le presente dans les parties suivantes.
 
-Fonctionnement
---------------
+Ce chapitre est partagé en trois parties, dans un premier temps je decrit la base
+de connaissance et son support, ensuite les différentes methodes qui permettrait 
+de faire de la recommandation sur cette base de donnée, pour finir par une conclusion 
+sur le travail fait.
 
-En entrée du systeme nous avons les tweets de l'utilisateur ainsi que tout l'environnement
-à savoir les intéractions avec le tweet:
 
+Base de connaissances
+---------------------
+
+Les messages sur twitter ne font que 140 caractère, difficille dans ce cas de realiser 
+une analyse semantique ou même statistique à l'aide d'un algorithme tel que LDA [1].
+
+Un système apprenant a besoin d'information, certains algorithme fonctionnent
+mieux avec un grand nombre de donnée [2] et les algorithmes pour résoudre des
+problèmes avec de très nombreuses données existent [3].
+
+Nous desirons donc maximiser la quantité d'information que nous capturons de l'environnement
+social twitter de l'utilisateur ainsi que de son intéraction avec l'application.
+
+En entrée du systeme, nous avons l'environnement social, les tweets (ainsi que les hashtag) et 
+toutes les intéractions avec les tweet:
+
+  - personnes suivits
+  - personnes suivants
+  - tweet dont hashtags
   - retweet(s) et les personne(s) qui retweete(nt)
   - réponse(s) et les personne(s) qui reponde(nt)
   - lu ou non
   - heure du tweet
+  - mise en favoris
 
-Ceci forme le contexte du tweet. Chaque tweet est un graphe entre les mots du tweet
-et des arretes vers les interactions qu'il a avec d'autres personnes et 
-d'autres tweet.
+Ceci ne résoud pas le problème de l'analyse sémantique des tweets. En effet avoir
+un grand nombre de donnée est une chose pouvoir les corellers en est une autre. 
+Pour nous aider dans se travail nous allons augmenter notre base
+de connaissance issue du web certaines facilement exploitable tel que wikipedia à travers
+`dbpedia <http://dbpedia.org/About>`_ autres données issues de site web spécialisé,
+tel que les forums.
+L'idée est de permettre d'enrichir le tweet avec des documents que l'on sait similaires
+à l'aide d'une recherche full-text [5].
 
-A partir de ce graphe nous réalisons des calculs de "proximité" initial. C'est
-en ce sens que l'algorithme n'ai pas rellement à demarage à froid. Le graphe est
-ensuite augmenté par les intéractions que l'utilisateur a avec les tweets que lui
-fait remonter l'algorithme.
-
-En entrée l'algorithme, peut se servir d'un point ou d'un sous-graphe, on nomme le
-sous-graphe d'entrée le graphe communicant. Pour le calcule en sortie l'information 
-complete du graphe peut être utilisé mais peut se restreindre à une sous-partie 
-du graphe pour donner ses reponses, on appelle ce sous-graphe la cible. Lors du 
-calcul vis à vis d'une cible qui n'ai pas le graphe au complet, le calcul est dit 
-locale. 
-
-Si A est le sous-graphe communicant, et B le sous-graphe cible. Ce type de calcul 
-permet de faire des requetes sur un objet A et retourner un objet B et vis-versa. 
-Et ceci car A et B sont tous les deux sous-graphe du même graphe. Le calcul de 
-recommdation User-To-User et Item-To-Item décrit dans le document sur le système 
-de recommandation de Amazon est possible, ainsi que la recommandation User-To-Item 
-et Item-To-User.
-
-Le système doit pouvoir categoriser les tweets et construire des flux de tweets ordonnées 
-pour une catégorie donnée. Une généralistation de cette fonction est l'utilisation
-d'un langage de description des flux destinés à être écrits et lu par des informaticiens
-ou des nerds. La description de ses flux va nous permettre de créer des configurations
-de flux très populaire tout en nous laissant
-la possibilité de faire des optimisations de code. C'est une façon de recuperer des flux
-interessant pour l'utilisateur que l'on ne trouverai pas aussi facilement avec un 
-algorithme automatique. 
-
-Les tweets doivent pouvoir être noté dés leur arrivée dans la base de connaissances.
 
 Architecture
 ------------