===== Scrapy =====
Artículo original de https://gabrielperales.wordpress.com/2014/09/01/web-scraping-con-scrapy/
En este pequeño tutorial vamos a extraer datos de una página de anuncios clasificados, de cada item o artículo nos interesará solo tres cosas, el nombre, la descripción y el precio.
==== Instalación y configuración ====
Primero instalamos python
sudo apt-get install python-pip python-dev libxml2-dev libxslt1-dev
Seguidamente vamos a crear un entorno virtual con virtualenv de python para nuestro proyecto:
virtualenv venv
Esto creará una carpeta venv donde contendrá un entorno virtual para python y donde instalaremos Scrapy. Ahora activamos el entorno virtual con el siguiente comando:
source venv/bin/activate
Una vez activado el entorno virtual instalamos Scrapy con pip install scrapy
pip install scrapy
Hay que tener instalada la librería libxml2 y libxslt para que no de error
Una vez instalado vamos a crear nuestra primera araña.
utilizaremos la plantilla crawl, que es igual que la araña basic pero esta nos permite seguir enlaces.
Para generar una araña usando esta plantilla debemos escribir en la consola scrapy genspider -t crawl. En nuestro caso a la araña la llamaremos segundamano y el dominio será el de la segundamano.es
scrapy genspider -t crawl segundamano segundamano.es
Al ejecutar el comando se genera dentro un fichero segundamano.py dentro del **directorio del proyecto/spiders**
├── tutorial
│ ├── __init__.py
│ ├── items.py
│ ├── pipelines.py
│ ├── settings.py
│ └── spiders
│ ├── __init__.py
│ └── segundamano.py
└── scrapy.cfg
==== Referencias ====
* http://teclp.com/2015/03/install-scrapy-on-ubuntu-using-python-pip/