Screen Scraping con Java

05/Abr/2016 Java Deja un comentario

El concepto de screen scrapping es el de obtener la información de una web y manipularla como si fuese un usuario, pero de forma automática por una máquina. En este artículo vamos a ver cómo podemos hacer screen scrapping con Java.

Lo primero que deberemos de conocer es que nos vamos a apoyar en la librería Jaunt para poder hacer el screen scrapping con Java.

Jaunt lo primero define una clase UserAgent que es la que simula el agente de usuario o navegador. Así que lo primero será crear dicha clase.

  1. UserAgent userAgent = new UserAgent();

Lo siguiente será indicarle la página que quiere cargar. Así que vamos a cargar a nuestra página hermana Manual Web. Para ello nos apoyamos en el método .visit().

  1. userAgent.visit("http://manualweb.net");

Es importante saber que una vez cargada la página tendremos toda la información relativa a ella en el objeto.

  1. userAgent.doc

Si queremos volcar el resultado de hacer el screen scraping con Java deberemos de utilizar el método .innerHTML() y así podremos presentarlo por pantalla.

  1. System.out.println(userAgent.doc.innerHTML());

Es importante saber que durante la ejecución de los métodos de Jaunt se puede producir la excepción ResponseException, así que deberemos integrarlo todo dentro de un bloque try-catch.

  1. try {
  2. UserAgent userAgent = new UserAgent();
  3. userAgent.visit("http://manualweb.net");
  4. System.out.println(userAgent.doc.innerHTML());
  5. } catch (ResponseException re) {
  6. re.printStackTrace();
  7. }

Y ya habremos conseguido realizar nuestro screen scraping con Java.

Vídeos sobre Java


¿Algo que nos quieras comentar?

Déjanos tu comentario, no te preocupes que tu email no será publicado

*

*