Entwurf: Webseiten mit Web::Scraper untersuchen.

| | Kommentare (0) | TrackBacks (0)

Web::Scraper wird verwendet um Informationen aus Webseiten zu auszulesen.
Es leidet dabei nicht unter kleinen veränderungen der Webseite, wie HTML::Parser oder eingene Regex-Suchfilter. Die zu suchenden Elemente können dabei per CSS oder XPath-Syntax angegeben werden.

#!/usr/bin/perl -w
use strict;
use v5.10;
use Web::Scraper;
use URI;

my $uri = URI->new('http://www.zdf.de/ZDFmediathek?flash=off');

my $p = scraper {
 process 'a' , 'links[]' => scraper {
 process 'a' , 'title' => 'TEXT'; process 'a' , 'url' => '@href';
  };
};
my $result = $p->scrape($uri);
say $$_{title} for @{ $result->{links} };



  • http://reneeb-perlblog.blogspot.com/2007/09/webscraper-ein-echt-ntzliches-modul.html
  • http://search.cpan.org/~miyagawa/Web-Scraper-0.31/
  • http://www.corion.net/talks/web-scraper/web-scraper-talk.html
  • http://www.slideshare.net/miyagawa/webscraper-for-sfpm-lt
  • http://de.wikipedia.org/wiki/XPath

0 TrackBacks

Folgende Einträge anderer Blogs beziehen sich auf den Eintrag Entwurf: Webseiten mit Web::Scraper untersuchen.

TrackBack-URL dieses Eintrags: http://www.mad4milk.de/MT/mt-tb.cgi/73

Jetzt kommentieren

March 2010

So Mo Di Mi Do Fr Sa
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31      

Über diese Seite

Diese Seite enthält einen einen einzelnen Eintrag von Mad vom November 29, 2009 11:40 PM.

Perl.org neugestaltet ist der vorherige Eintrag in diesem Blog.

Advent, Advent ... Advent, Advent (update) ist der nächste Eintrag in diesem Blog.

Aktuelle Einträge finden Sie auf der Startseite, alle Einträge in den Archiven.