HTTPS SSH

README

English version

Este es el código fuente de muse_ar, un sistema que genera resumenes automáticos de noticias en castellano.

¿Qué hay en este repositorio?

Este repositorio incluye dos proyectos relacionados:

  • Una implementación para el idioma castellano del sistema MUSE para resumen automático de texto, basado en el trabajo de Last y Litvak (2010)
  • Un bot para Reddit que genera los resúmenes

¿Cómo hago correr el bot?

Modo de uso: reddit_bot.py [-u URL] [-s subreddit]

Al correr el bot sin argumentos, el bot revisa todos los comentarios del subreddit por defecto (/r/bottest) en busca de un comentario que lo dispare.

  • -u URL genera un resumen para la URL especificada, e imprime el resultado por pantalla.
  • -s subreddit hace un recorrido por los posts del subreddit seleccionado, y postea un resumen para la nota del artículo principal cuando encuentra un llamado al bot en un comentario.

¿Cómo puedo hacer funcionar el código en mi propia PC?

El código está escrito en Python, y cada rama del proyecto tiene sus propias dependencias. Para usar el sistema muse, se requieren las siguientes dependencias:

  • NLTK, Natural Language Toolkit. Para instalar puntuación y stopwords en castellano, correr nltk.download() en una terminal y descargar los paquetes stopwords y punkt
  • NumPy, librería científica para Python
  • Para re-entrenar el sistema, se necesita Pyevolve, un framework para algoritmos genéticos, y Pathos, un fork de la librería multiprocessing.

Para utilizar el bot de Reddit, se necesita

El bot en su versión actual necesita también una cuenta válida de desarrollador en Reddit, y un token para Embedly.

¡Tengo muchas preguntas!

Pueden contactarme por mail vía redditv@7c0h.com, en Reddit con un mensaje a /u/friedrichstr, o por Bitbucket con un mensaje a villalbamartin.

Créditos

La detección de oraciones utiliza un clon de la librería splitta, desarrollada por Dan Gillick.