Timeline:2012.05

From Maisqual Private Wiki

Jump to: navigation, search

This is the timeline milestone of May, 2012. Mainly notes from the meeting we had with Philippe at the INRIA Lille.


[edit] Notes

Dans les systèmes séquentiels, il y a un état, et des actions à partir de cet état. Il faut tout d'abord identifier une liste de choses mesurables.

  • Identifier ce qui est actionnable (actions).
  • Identifier ce qui ne l'est pas (états).

Il est important de généraliser autant que possible :

  • un ensemble de règles, des mesures de base, etc.
  • un ensemble défini d'outils.

Prendre les données accessibles -- ne pas attendre une éternité des données qui ne seront jamais accessibles.

A voir :

Pour le data mining sur le texte : identifier des mots-clefs à rechercher. Faire un tableau avec :

  • Evénement
  • Méthode de récupération
  • Efficacité de la matéhode (précision / recall)


[edit] Analyse linguistique

Avec Mlle Keller. Peut être appliquée aux mails, commits, commentaires dans le source.

Pour analyser du texte, il faut :

  • preprocessing (text categorisation / filtering) : majuscules / minuscules, poncftuation, stemming (porter), lemmatisation, stoplists.
  • identifier les mots et leur fréquence x1,..,xn D = ['mot':df] où df est le document performance : nombre de documents dans lesquels le mot apparaît.
  • xi = 0,..,tf.Idf où tf est le term frequency et Idf est l(inverse doc frequency. le vecteur a la taille du dictionnaire.
  • Utiliser ensuite un séparateur à vaste marge (SVM) qui par la suite va trier les mails automatiquement. cf. Sebastiani (text categorisation), svmlight.


[edit] What is going on

Personal tools