meta data de esta página
Scrapy
Artículo original de https://gabrielperales.wordpress.com/2014/09/01/web-scraping-con-scrapy/
En este pequeño tutorial vamos a extraer datos de una página de anuncios clasificados, de cada item o artículo nos interesará solo tres cosas, el nombre, la descripción y el precio.
Instalación y configuración
Primero instalamos python
sudo apt-get install python-pip python-dev libxml2-dev libxslt1-dev
Seguidamente vamos a crear un entorno virtual con virtualenv de python para nuestro proyecto:
virtualenv venv
Esto creará una carpeta venv donde contendrá un entorno virtual para python y donde instalaremos Scrapy. Ahora activamos el entorno virtual con el siguiente comando:
source venv/bin/activate
Una vez activado el entorno virtual instalamos Scrapy con pip install scrapy
pip install scrapy
Una vez instalado vamos a crear nuestra primera araña.
Para generar una araña usando esta plantilla debemos escribir en la consola scrapy genspider -t crawl. En nuestro caso a la araña la llamaremos segundamano y el dominio será el de la segundamano.es
scrapy genspider -t crawl segundamano segundamano.es
Al ejecutar el comando se genera dentro un fichero segundamano.py dentro del directorio del proyecto/spiders
├── tutorial │ ├── __init__.py │ ├── items.py │ ├── pipelines.py │ ├── settings.py │ └── spiders │ ├── __init__.py │ └── segundamano.py └── scrapy.cfg