23.01.2008, 18:28 | #11 |
Злой модератор
Регистрация: 25.03.2007
Адрес: Deep forest
Сообщений: 5,343
Вес репутации: 503
|
Похоже тут как минимум DOM использовать надо. Нечто вроде
PHP код:
|
23.01.2008, 18:39 | #12 |
Дикий
Регистрация: 02.06.2007
Адрес: <Noindex>
Сообщений: 2,551
Вес репутации: 355
|
Красивый код. Пойду разбирать на части по учебнику...
__________________
Делаю кулоны с опалами в стекле и не только! |
24.01.2008, 14:28 | #13 |
Дикий
Регистрация: 02.06.2007
Адрес: <Noindex>
Сообщений: 2,551
Вес репутации: 355
|
Результаты первых опытов можно посмотреть здесь:HTML анализатор для SAPE
Это почти обычный HTML анализатор только с проверкой основных тегов (и их парности/количества) плюс проверка robots.txt и вывод html кода страницы. Только у меня так и не получилось пока достать ссылки из $content может кто знает хороший способ?
__________________
Делаю кулоны с опалами в стекле и не только! |
24.01.2008, 16:25 | #14 | |
Специалист
Регистрация: 03.11.2007
Сообщений: 200
Вес репутации: 205
|
Цитата:
Код:
preg_match_all('!http:\/\/(.+)\s!U', $content, $domain); Последний раз редактировалось formalist; 24.01.2008 в 16:27. |
|
25.01.2008, 08:26 | #15 |
Дикий
Регистрация: 02.06.2007
Адрес: <Noindex>
Сообщений: 2,551
Вес репутации: 355
|
ОК. Обязательно опробую сегодня. Пока удалось справиться более ужасным способом.
Так что, вот новая версия HTML анализатора - Sape bot sim 2.0 Кажется у меня вполне нормально получилось анализировать robots.txt на существование файлов и находить страницы в 1 клике от главной (проверять их доступность). По идее, подсчет страниц в двух кликах я тоже сделал... но работает ОЧЕНЬ долго. Можно включать и уходить курить. Боюсь, хостер меня за такое убьет Как сдам сегодня экзамен, продолжу работу. PS Как в PHP определить доступность интернет страницы, не скачивая ее?
__________________
Делаю кулоны с опалами в стекле и не только! |
26.01.2008, 19:02 | #16 |
Дикий
Регистрация: 02.06.2007
Адрес: <Noindex>
Сообщений: 2,551
Вес репутации: 355
|
Сделал качественно новую версию HTML анализатора: SAPE Bot Sim.
Сейчас есть возможность узнать колисество ссылок на УВ2 на сайте. Завтра собираюсь сделать поддержку и УВ3. Также смотрите HTML анализатор
__________________
Делаю кулоны с опалами в стекле и не только! |
26.01.2008, 19:53 | #17 |
Администратор
Регистрация: 05.02.2007
Сообщений: 18,405
Вес репутации: 715
|
Зашел, сунул сайт из сапы.
В сапе 2 УВ меньше, в 2 раза почти. Задумался.. Замечания. содержимое роботса - в строку выводиться user-agent: yandex Disallow: /usage/ Disall..... и .т.д может столбиком, а то неясно что там куда. ссылки отделены внешние от внутренних - что есть гуд. но ИТОГО лучше бы написать не Ссылок по 'href': 55, из них работающих: 53, не работающих: 2, внешних: 8, с '#' и 'javascript': 0 А ссылок всего 55 ссылок 2УВ 45 Ну и тут уже про яваскрипт, # и прочее ВС А то приходится напрягать мосг, на предмет проведения арифметических операций Кстати, что такое неработающая ссылка? с т.з. проги? А вообще - если сервер не ляжет, можно рекомендовать ну если не к применению, то как справочное пособие для тех кто не может понять почему столько в сапу добавилось
__________________
Читаем ФАК |
27.01.2008, 11:38 | #18 |
Специалист
Регистрация: 03.11.2007
Сообщений: 200
Вес репутации: 205
|
|
27.01.2008, 17:51 | #19 |
Дикий
Регистрация: 02.06.2007
Адрес: <Noindex>
Сообщений: 2,551
Вес репутации: 355
|
Выпущена практически окончательная версия. Думаю, переделаю потом на сокетах, но основное все уже есть
Спасибо всем, кто откликнулся!
__________________
Делаю кулоны с опалами в стекле и не только! |
28.01.2008, 17:33 | #20 |
Дикий
Регистрация: 02.06.2007
Адрес: <Noindex>
Сообщений: 2,551
Вес репутации: 355
|
Исправилено:
- Все ссылки на главную не считаются - Корректно определяет субдомены как ВНЕШНИЕ! - Находит редикт. - Выводит предупреждение, если больше 500 ссылок на главной и 150 на УВ2 УВ3. -Для последней функции (анализ УВ1,УВ2,УВ3) встроен автоматический калькулятор. Считает количество страниц для продажи. - Поправилено меню. Ну, и на досуге сделал E-mail граббер и Е-mail бомбер (принцип граббера схож с Sape Bot Sim). Можете скачать тут: http://dikij.com/scripts/ Или просто попробовать тут: http://dikij.com/mailgrabber.php
__________________
Делаю кулоны с опалами в стекле и не только! |
|
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Кто поставит сапу дам $ | kaplan | Вопросы от новичков | 11 | 18.06.2008 16:50 |
Хочу старую сапу! | andy78 | Пожелания пользователей системы | 26 | 14.05.2008 21:57 |
Налог на сапу | Anfisa | Курилка | 7 | 11.02.2008 16:35 |
Сапу на форум | Vasya Vasin | Вопросы по работе системы | 4 | 15.11.2007 19:53 |
Сапу взломали? | loure | Вопросы по работе системы | 12 | 05.11.2007 14:20 |
Часовой пояс GMT +3, время: 00:06.