===== Scrapy =====

Artículo original de https://gabrielperales.wordpress.com/2014/09/01/web-scraping-con-scrapy/

En este pequeño tutorial vamos a extraer datos de una página de anuncios clasificados, de cada item o artículo nos interesará solo tres cosas, el nombre, la descripción y el precio. 

==== Instalación y configuración ====
Primero instalamos python 
<code>
sudo apt-get install python-pip python-dev libxml2-dev libxslt1-dev</code>

Seguidamente vamos a crear un entorno virtual con virtualenv de python para nuestro proyecto:
<code>
virtualenv venv</code>

Esto creará una carpeta venv donde contendrá un entorno virtual para python y donde instalaremos Scrapy. Ahora activamos el entorno virtual con el siguiente comando:
<code>source venv/bin/activate </code>

Una vez activado el entorno virtual instalamos Scrapy con pip install scrapy
<code>pip install scrapy </code>

<note> Hay que tener instalada la librería libxml2 y libxslt para que no de error </note>

Una vez instalado vamos a crear nuestra primera araña.

<note>utilizaremos la plantilla crawl, que es igual que la araña basic pero esta nos permite seguir enlaces. </note>

Para generar una araña usando esta plantilla debemos escribir en la consola scrapy genspider -t crawl. En nuestro caso a la araña la llamaremos segundamano y el dominio será el de la segundamano.es
<code>scrapy genspider -t crawl segundamano segundamano.es </code>

Al ejecutar el comando se genera dentro un fichero segundamano.py dentro del **directorio del proyecto/spiders**
<code>
├── tutorial
│   ├── __init__.py
│   ├── items.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders
│       ├── __init__.py
│       └── segundamano.py
└── scrapy.cfg
</code>
==== Referencias ====
  * http://teclp.com/2015/03/install-scrapy-on-ubuntu-using-python-pip/