Робот по обработке ссылок

Адрес :  

1. С введённой страницы собирает все имеющиеся ссылки
2. Локальные ссылки разворачивает в полные
3. Фильтрует дублированные на странице ссылки
4. Фильтрует ссылки на не-текстовые документы (gif, jpg)
5. Фильтрует неработающие ссылки (критерий Error 404)
6. Фильтрует ссылки, уже имеющиеся в Рубрикаторе
7. Заходит на каждую из оставшихся страниц, берёт весь ТЕКСТ. Поддерживает 1 уровень переадресации
8. Во ВСЁМ тексте проверяет встречаемость ключевых слов, строит оценку
9. В качестве названия ссылки выдаёт поле TITLE страницы, если его нет - Web-адрес
10. Сортирует список по оценкам, выдает название, оценку, статистику по ключевым словам, а также ПЕРВЫЕ 500 знаков текста документа (для ориентировки).


* Для страниц с большим количеством ссылок придётся серьёзно подождать (зависит от качества связи). Критерий завершения нормального работы - выдача всех комментариев по собственным действиям и начало печати списка ссылок. Комментировать свои действия программе необходимо, чтобы поддерживать браузер "живым" от ошибки Timeout.