Una de las funciones más interesantes y útiles de Screaming Frog es la extracción de contenido. Gracias a esta opción podemos extraer información específica de páginas webs que nos resultaría más complicada de obtener. Por ejemplo, podemos usarla para extraer los precios, las descripciones de productos o cualquier otro elemento que nos interese.
¿Quieres aprender a realizar extracciones de datos con esta función de Screaming Frog? En este artículo desgranamos las diferentes formas de hacerlo.
Antes de entrar en detalle sobre cómo se realiza, debes saber que esta función permite extraer información usando selectores CSS, XPath o REGEX. Es muy útil para obtener datos que no están incluidos en los campos estándar del rastreo que vienen por defecto en la herramienta de Screaming Frog.
Con una extracción personalizada en Screaming Frog, puedes acceder a datos específicos que te ayudarán a entender mejor la estructura y el contenido de un sitio web.
No te preocupes si no estás familiarizado con estos lenguajes porque aunque no los conozcas, existe una forma de extraer sin necesidad de ser un experto en CSS, XPath o REGEX. ¡Sigue leyendo para aprender los tipos de extracción personalizada y cómo realizarlos!
Tipos de extracción personalizada en Screaming Frog
Tal y como hemos comentado, existen tres tipos de extracción: selectores CSS, XPath y Regex (expresiones regulares). Cada método se ajusta a un tipo específico de estructura HTML y contenido de página, lo cual permite obtener una visión detallada del sitio.
- Selectores CSS. Los selectores CSS son útiles para extraer elementos que tienen un diseño específico dentro de la estructura HTML de la página. Con CSS, puedes seleccionar elementos con clases, IDs o atributos específicos para extraer datos.
- XPath. XPath es una técnica avanzada de selección que permite navegar de forma precisa en estructuras XML o HTML. A diferencia de CSS, XPath ofrece más flexibilidad para extraer información de nodos específicos dentro del documento HTML, por lo que es especialmente útil para sitios con estructuras de datos complejas.
- Regex. Esta opción te permite configurar patrones de expresiones regulares para extraer datos específicos del código fuente de las páginas.
Ninguna opción es mejor que otra, sólo tienes que elegir el tipo que mejor se adapte a la página, al dato que quieres extraer y con la que más cómodo/a te sientas.
El paso a paso para configurar extracciones personalizadas en Screaming Frog
- Abre Screaming Frog y selecciona Configuración del Rastreo.
- Dentro del apartado de Personalizado, selecciona Extracción personalizada
- Selecciona el botón Añadir y nos aparecerá ya el primer selector a configurar.
- Nombra tus datos extraídos. Donde aparece “Extractor 1”, escribe el nombre del dato que vas a extraer para facilitar la lectura en los informes.
- En el siguiente es seleccionar el tipo de extracción que vas a realizar (CSS, XPath o Regex).
Ahora veremos en detalle cómo se configura cada uno de los selectores disponibles.
Extracción personalizada con XPath
Imagina que queremos extraer la descripción de todos los productos de una web.
Deberás averiguar cuál es el XPath de la descripción del producto. Puedes usar bien una extensión o usar la herramienta de Inspeccionar (Ctrl + Shift + I) de la siguiente manera:
- Selecciona el elemento que nos interesa extraer con la herramienta seleccionada en la imagen siguiente:
Simplemente haz click en el elemento que nos interesa extraer.
2. Una vez lo tengas seleccionado, te marcará el código del elemento en la herramienta tal que así:
3. Hacemos click derecho sobre el elemento seleccionado y copiamos XPath.
4. Pegamos en Screaming Frog el XPath copiado
5. Ahora debemos seleccionar qué vamos a extraer: texto, HTML interno, elemento HTML o valor de función. En nuestro caso, nos interesaría extraer el texto.
6. Configuramos el resto del rastreo.
7. Una vez esté terminado, tendremos las descripciones extraídas en una columna con el nombre que le hemos puesto en la parte de extracción personalizada.
Extracción personalizada con CSS
Pongamos como ejemplo que queremos extraer los productos que están sin existencias. Primero deberás detectar cómo identificar un producto sin stock. En nuestro ejemplo, aparece la etiqueta de “SIN EXISTENCIAS”.
Una vez localizado, el proceso es similar a la primera extracción que hemos realizado. Localizamos la ruta CSS con Inspeccionar al igual que el tipo anterior y en vez de Copiar XPath, copiamos el selector.
En Screaming Frog pega el selector, termina de configurar tu rastreo y ya tendrás los productos que tienen la etiqueta de “SIN EXISTENCIAS”.