Как стать автором
Обновить

Проверяем все страницы сайта в валидаторе html

Время на прочтение 3 мин
Количество просмотров 18K

Интро


Цель — создать велосипед скрипт, который пробежится по сайту и проверит каждую страницу сайта на валидность html.
Я слышал, что если нападает перфекционизм, то надо полежать, отдохнуть и это пройдет.
Подумаешь, в валидаторе ошибка…
Но если все же не проходит, то

Ставим докер и контейнер с валидатором


Раньше поставить локальный валидатор было делом муторным.
Не то, что бы сложным, а требующим времени.
С приходом докера он устанавливается за секунды.
Ставим докер:
yum install docker

После установки докера берем себе готовый образ с собранным валидатором:
docker pull magnetikonline/html5validator

Когда образ закачается, то запускаем его:
docker run -p 8080:80 -p 8888:8888 --name validator --restart=always  -d magnetikonline/html5validator

И стартуем:
docker start validator


После запуска можно зайти на http://localhost:8888 и увидеть:



Локальный валидатор работает! Его можно натравить на какой-нибудь сайт.
И проверяем с командной строки:

curl 'localhost:8888?doc=http://www.w3schools.com'

И вот такой результат:




Как видно, валидатор нашел 3 ошибки.

Паучок



Теперь надо написать скрипт, который бы обошел все страницы сайта.
За основу я взял вот такой web crawler/scraper на основе Mojo.
И немного изменил:

#!/usr/bin/env perl
use 5.010;
use open qw(:locale);
use strict;
use utf8;
use warnings qw(all);
use Mojo::UserAgent;
use List::MoreUtils 'true';
use Term::ANSIColor;

# Адрес сайта для проверки
my $site_to_check = 'http://habrahabr.ru';

# Адрес локального валидатора
my $local_validator = 'http://192.168.1.217:8888';

# FIFO queue
my @urls = ( Mojo::URL->new($site_to_check) );

# User agent following up to 5 redirects
my $ua = Mojo::UserAgent->new( max_redirects => 5 );

# Track accessed URLs
my $active = 0;
my %uniq;

sub parse {
    my ($tx) = @_;

    # Request URL
    my $url = $tx->req->url;

    # Extract and enqueue URLs
    for my $e ( $tx->res->dom('a[href]')->each ) {

        # Validate href attribute
        my $link = Mojo::URL->new( $e->{href} );
        next if 'Mojo::URL' ne ref $link;

        # "normalize" link
        $link = $link->to_abs( $tx->req->url )->fragment(undef);
        next unless $link->protocol =~ /^https?$/x;

        # Don't go deeper than /a/b/c
        next if @{ $link->path->parts } > 3;

        # Access every link only once
        next if ++$uniq{ $link->to_string } > 1;

        # Don't visit other hosts
        next if $link->host ne $url->host;

        push @urls, $link;
        my $get   = $ua->get( $local_validator . "?doc=$link" )->res->body;
        my @answ  = split / /, $get;
        my $count = true { /class="error"/ } @answ;
        print color("green"), $link, color("reset");
        print "  Кол-во ошибок в валидаторе: ",
          color("red"), "$count \n", color("reset");

    }

    return;
}

sub get_callback {
    my ( undef, $tx ) = @_;

    # Parse only OK HTML responses
    $tx->res->code == 200
      and $tx->res->headers->content_type =~ m{^text/html\b}ix
      and parse($tx);

    # Deactivate
    --$active;

    return;
}

Mojo::IOLoop->recurring(
    0 => sub {

        # Keep up to 4 parallel crawlers sharing the same user agent
        for ( $active .. 4 - 1 ) {

            # Dequeue or halt if there are no active crawlers anymore
            return ( $active or Mojo::IOLoop->stop )
              unless my $url = shift @urls;

            # Fetch non-blocking just by adding
            # a callback and marking as active
            ++$active;
            $ua->get( $url => \&get_callback );
        }
    }
);

# Start event loop if necessary
Mojo::IOLoop->start unless Mojo::IOLoop->is_running;

Ссылка на гитхаб

Результат работы:


Теги:
Хабы:
+16
Комментарии 7
Комментарии Комментарии 7

Публикации

Истории

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн