Вернуться   Форум SAPE.RU > Общие вопросы > Деловое сотрудничество

-->
Ответ
 
Опции темы
Старый 23.01.2008, 18:28   #11
Злой модератор
 
Аватар для Wink
 
Регистрация: 25.03.2007
Адрес: Deep forest
Сообщений: 5,343
Вес репутации: 503
Wink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущееWink - прекрасное будущее
По умолчанию

Похоже тут как минимум DOM использовать надо. Нечто вроде
PHP код:
$doc = new DOMDocument();
$doc->loadHTML($content);
$tags $doc->getElementsByTagName('a');
foreach (
$tags as $tag) {
       echo 
$tag->getAttribute('href')."\n";

Wink вне форума   Ответить с цитированием
Старый 23.01.2008, 18:39   #12
Дикий
 
Аватар для D.iK.iJ
 
Регистрация: 02.06.2007
Адрес: <Noindex>
Сообщений: 2,551
Вес репутации: 355
D.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущее
Thumbs up

Цитата:
Сообщение от Wink Посмотреть сообщение
Похоже тут как минимум DOM использовать надо. Нечто вроде
PHP код:
$doc = new DOMDocument();
$doc->loadHTML($content);
$tags $doc->getElementsByTagName('a');
foreach (
$tags as $tag) {
       echo 
$tag->getAttribute('href')."\n";

Красивый код. Пойду разбирать на части по учебнику...
D.iK.iJ вне форума   Ответить с цитированием
Старый 24.01.2008, 14:28   #13
Дикий
 
Аватар для D.iK.iJ
 
Регистрация: 02.06.2007
Адрес: <Noindex>
Сообщений: 2,551
Вес репутации: 355
D.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущее
По умолчанию

Результаты первых опытов можно посмотреть здесь:HTML анализатор для SAPE

Это почти обычный HTML анализатор только с проверкой основных тегов (и их парности/количества) плюс проверка robots.txt и вывод html кода страницы.

Только у меня так и не получилось пока достать ссылки из $content может кто знает хороший способ?
D.iK.iJ вне форума   Ответить с цитированием
Старый 24.01.2008, 16:25   #14
Специалист
 
Регистрация: 03.11.2007
Сообщений: 200
Вес репутации: 205
formalist на пути к лучшему
По умолчанию

Цитата:
Сообщение от D.iK.iJ Посмотреть сообщение
...Только у меня так и не получилось пока достать ссылки из $content может кто знает хороший способ?...
Код:
preg_match_all('!http:\/\/(.+)\s!U', $content, $domain);

Последний раз редактировалось formalist; 24.01.2008 в 16:27.
formalist вне форума   Ответить с цитированием
Старый 25.01.2008, 08:26   #15
Дикий
 
Аватар для D.iK.iJ
 
Регистрация: 02.06.2007
Адрес: <Noindex>
Сообщений: 2,551
Вес репутации: 355
D.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущее
Lightbulb

Цитата:
Сообщение от formalist Посмотреть сообщение
Код:
preg_match_all('!http:\/\/(.+)\s!U', $content, $domain);
ОК. Обязательно опробую сегодня. Пока удалось справиться более ужасным способом.
Так что, вот новая версия HTML анализатора - Sape bot sim 2.0

Кажется у меня вполне нормально получилось анализировать robots.txt на существование файлов и находить страницы в 1 клике от главной (проверять их доступность).
По идее, подсчет страниц в двух кликах я тоже сделал... но работает ОЧЕНЬ долго. Можно включать и уходить курить. Боюсь, хостер меня за такое убьет
Как сдам сегодня экзамен, продолжу работу.

PS Как в PHP определить доступность интернет страницы, не скачивая ее?
D.iK.iJ вне форума   Ответить с цитированием
Старый 26.01.2008, 19:02   #16
Дикий
 
Аватар для D.iK.iJ
 
Регистрация: 02.06.2007
Адрес: <Noindex>
Сообщений: 2,551
Вес репутации: 355
D.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущее
Thumbs up

Сделал качественно новую версию HTML анализатора: SAPE Bot Sim.
Сейчас есть возможность узнать колисество ссылок на УВ2 на сайте.
Завтра собираюсь сделать поддержку и УВ3.

Также смотрите HTML анализатор
D.iK.iJ вне форума   Ответить с цитированием
Старый 26.01.2008, 19:53   #17
Администратор
 
Аватар для Ank
 
Регистрация: 05.02.2007
Сообщений: 18,405
Вес репутации: 715
Ank - прекрасное будущееAnk - прекрасное будущееAnk - прекрасное будущееAnk - прекрасное будущееAnk - прекрасное будущееAnk - прекрасное будущееAnk - прекрасное будущееAnk - прекрасное будущееAnk - прекрасное будущееAnk - прекрасное будущееAnk - прекрасное будущее
По умолчанию

Зашел, сунул сайт из сапы.
В сапе 2 УВ меньше, в 2 раза почти. Задумался..
Замечания.
содержимое роботса - в строку выводиться
user-agent: yandex Disallow: /usage/ Disall..... и .т.д
может столбиком, а то неясно что там куда.

ссылки отделены внешние от внутренних - что есть гуд.

но ИТОГО лучше бы написать не
Ссылок по 'href': 55, из них работающих: 53, не работающих: 2, внешних: 8, с '#' и 'javascript': 0

А ссылок всего 55
ссылок 2УВ 45
Ну и тут уже про яваскрипт, # и прочее ВС
А то приходится напрягать мосг, на предмет проведения арифметических операций

Кстати, что такое неработающая ссылка? с т.з. проги?

А вообще - если сервер не ляжет, можно рекомендовать ну если не к применению, то как справочное пособие для тех кто не может понять почему столько в сапу добавилось
__________________
Начать зарабатывать на своих сайтах. Консультирую своих рефов по аське

Читаем ФАК
Ank вне форума   Ответить с цитированием
Старый 27.01.2008, 11:38   #18
Специалист
 
Регистрация: 03.11.2007
Сообщений: 200
Вес репутации: 205
formalist на пути к лучшему
По умолчанию

Цитата:
Сообщение от D.iK.iJ Посмотреть сообщение
...Как в PHP определить доступность интернет страницы, не скачивая ее?...
Таким способом, как ты юзаешь, наверное никак.

А ваще:
- курлом запросом HEAD
- сокетом, читая тока хеадер и обрывая коннект
formalist вне форума   Ответить с цитированием
Старый 27.01.2008, 17:51   #19
Дикий
 
Аватар для D.iK.iJ
 
Регистрация: 02.06.2007
Адрес: <Noindex>
Сообщений: 2,551
Вес репутации: 355
D.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущее
По умолчанию

Выпущена практически окончательная версия. Думаю, переделаю потом на сокетах, но основное все уже есть
Спасибо всем, кто откликнулся!
D.iK.iJ вне форума   Ответить с цитированием
Старый 28.01.2008, 17:33   #20
Дикий
 
Аватар для D.iK.iJ
 
Регистрация: 02.06.2007
Адрес: <Noindex>
Сообщений: 2,551
Вес репутации: 355
D.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущееD.iK.iJ - прекрасное будущее
Arrow

Исправилено:
- Все ссылки на главную не считаются
- Корректно определяет субдомены как ВНЕШНИЕ!
- Находит редикт.
- Выводит предупреждение, если больше 500 ссылок на главной и 150 на УВ2 УВ3.
-Для последней функции (анализ УВ1,УВ2,УВ3) встроен автоматический калькулятор. Считает количество страниц для продажи.
- Поправилено меню.

Ну, и на досуге сделал E-mail граббер и Е-mail бомбер (принцип граббера схож с Sape Bot Sim).
Можете скачать тут:
http://dikij.com/scripts/
Или просто попробовать тут:
http://dikij.com/mailgrabber.php
D.iK.iJ вне форума   Ответить с цитированием
Ответ


Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Кто поставит сапу дам $ kaplan Вопросы от новичков 11 18.06.2008 16:50
Хочу старую сапу! andy78 Пожелания пользователей системы 26 14.05.2008 21:57
Налог на сапу Anfisa Курилка 7 11.02.2008 16:35
Сапу на форум Vasya Vasin Вопросы по работе системы 4 15.11.2007 19:53
Сапу взломали? loure Вопросы по работе системы 12 05.11.2007 14:20


Часовой пояс GMT +3, время: 00:06.