Artículos
Java

Screen Scraping con Java

05/Abr/2016

El concepto de screen scrapping es el de obtener la información de una web y manipularla como si fuese un usuario, pero de forma automática por una máquina. En este artículo vamos a ver cómo podemos hacer screen scrapping con Java.

Lo primero que deberemos de conocer es que nos vamos a apoyar en la librería Jaunt para poder hacer el screen scrapping con Java.

Jaunt lo primero define una clase UserAgent que es la que simula el agente de usuario o navegador. Así que lo primero será crear dicha clase.

UserAgent userAgent = new UserAgent();

Lo siguiente será indicarle la página que quiere cargar. Así que vamos a cargar a nuestra página hermana Manual Web. Para ello nos apoyamos en el método .visit().

userAgent.visit("http://manualweb.net");

Es importante saber que una vez cargada la página tendremos toda la información relativa a ella en el objeto.

userAgent.doc

Si queremos volcar el resultado de hacer el screen scraping con Java deberemos de utilizar el método .innerHTML() y así podremos presentarlo por pantalla.

System.out.println(userAgent.doc.innerHTML());

Es importante saber que durante la ejecución de los métodos de Jaunt se puede producir la excepción ResponseException, así que deberemos integrarlo todo dentro de un bloque try-catch.

try {
  UserAgent userAgent = new UserAgent();
  userAgent.visit("http://manualweb.net");						
  System.out.println(userAgent.doc.innerHTML());			
} catch (ResponseException re) {
  re.printStackTrace();
} 

Y ya habremos conseguido realizar nuestro screen scraping con Java.

Código Fuente

Descárgate el código fuente de Screen Scraping con Java
Y si te ha gustado nuestro código fuente puedes regalarnos una estrella Star

Vídeos sobre Java

Disfruta también de nuestros artículos sobre Java en formato vídeo. Aprovecha y suscribete a nuestro canal.

Test Java

¿Te atreves a probar tus habilidades y conocimiento en Java con nuestro test?

Test Java
Suscribir
Notificar de
guest
0 Comentarios
Opiniones integradas
Ver todos los comentarios