Le module re (expressions régulières) est un moyen simple et rapide pour extraire des informations précises d'une chaine.
Remarque : en bon français Regulars Expressions se traduit par Expressions Rationnelles
Sommaire
Compilation d'une regex
import re re.compile(EXPRESSION, DRAPEAUX)
Les drapeaux sont optionnelles
Les fonctions du module re
match
Recherche une expression qui matche seulement si elle en debut de chaine
search
Recherche une expression qui matche dans toute la chaine
findall
La fonction findall vous donnera toutes les chaînes de caractères qui correspondent à votre expression régulière.
split
La fonction split permet de decouper une chaine de caractere en fonction d'une regex
sub
La fonction sub permet de remplacer ce qui match l'expression reguliere
subn
Idem mais effectue n remplacements
Exemple de regex
Extraire les liens HTML
import re, urllib htmlSource = urllib.urlopen("http://sebsauvage.net/index.html").read() listeDeLiens= re.findall('<a href="(.*?)">',htmlSource) for lien in listeDeLiens: print lien
Outils
Kodos vous permet de déboguer vos expressions régulières et de générer du code Python. * http://kodos.sourceforge.net/