Commits

Anonymous committed f0db229

pontuacao agora é trocada por espaco, impede que palavras diferentes sejam agrupadas indevidamente

Comments (0)

Files changed (1)

 def clean_text(txt):
     pergunta = re.sub('#\w+',' ', txt)
     pergunta = re.sub('@\w+',' ', pergunta)
-    pergunta = re.sub('\n','', pergunta)
-    pergunta = re.sub('\s\s','', pergunta)
+    
     pergunta = pergunta.replace('comofas',' ')
     s=string.find(pergunta,'http://')
     if s != -1:
     for a, b in replacements:
         pergunta = pergunta.replace(a, b)
     for punct in string.punctuation:
-        pergunta = pergunta.replace(punct, '')
+        pergunta = pergunta.replace(punct, ' ')
+    
+    pergunta = re.sub('\n','', pergunta)
+    pergunta = re.sub('\s\s','', pergunta)
 
     pergunta = string.joinfields(pergunta.split(), ' OR ')