El concepto de screen scrapping es el de obtener la información de una web y manipularla como si fuese un usuario, pero de forma automática por una máquina. En este artículo vamos a ver cómo podemos hacer screen scrapping con Java.
Lo primero que deberemos de conocer es que nos vamos a apoyar en la librería Jaunt para poder hacer el screen scrapping con Java.
Jaunt lo primero define una clase UserAgent
que es la que simula el agente de usuario o navegador. Así que lo primero será crear dicha clase.
UserAgent userAgent = new UserAgent();
Lo siguiente será indicarle la página que quiere cargar. Así que vamos a cargar a nuestra página hermana Manual Web. Para ello nos apoyamos en el método .visit()
.
userAgent.visit("http://manualweb.net");
Es importante saber que una vez cargada la página tendremos toda la información relativa a ella en el objeto.
userAgent.doc
Si queremos volcar el resultado de hacer el screen scraping con Java deberemos de utilizar el método .innerHTML()
y así podremos presentarlo por pantalla.
System.out.println(userAgent.doc.innerHTML());
Es importante saber que durante la ejecución de los métodos de Jaunt se puede producir la excepción ResponseException
, así que deberemos integrarlo todo dentro de un bloque try-catch
.
try {
UserAgent userAgent = new UserAgent();
userAgent.visit("http://manualweb.net");
System.out.println(userAgent.doc.innerHTML());
} catch (ResponseException re) {
re.printStackTrace();
}
Y ya habremos conseguido realizar nuestro screen scraping con Java.