Форум SAPE.RU

Форум SAPE.RU (http://forum.sape.ru/index.php)
-   Яндекс (http://forum.sape.ru/forumdisplay.php?f=16)
-   -   Яндекс меняет выдачу.... (http://forum.sape.ru/showthread.php?t=14070)

big.bon 05.06.2008 12:47

Яндекс меняет выдачу....
 
И так, автоматические чекалки проиндексированности страниц пошли в лес, после смены Яндексом вида выдачи результатов. А именно строчки, где было написано точное количество найденных страниц.

Было:
Цитата:

найдено: 123 222 страниц...
Стало:
Цитата:

Нашлось
179 тыс. страниц
http://yandex.ru/yandsearch?date=&te...&ds=&numdoc=10

Раньше чекалки искали по регэкспу блок refblock, сейчас же получить точное количество страниц стало невозможным обычным путем: написано 179 тысяч страниц, а их на самом деле 179 210 страниц.

В принципе, это не играет существенной роли, но вот сервис по мониторингу параметров сайта перестанет быть актуальным, когда замечает скачки в 1-5% проиндексированности.

Как быть дальше?

Есть у кого решение на PHP по парсингу новой выдачи?

PS: в регэкспе не силен, а надо: вырезать из титла "нашлось 179 тыс. страниц" и перевести её в циферки...

PS2: заметил смену выдачи ещё 2 месяца назад. Видимо смена была на некоторых серверах. Так как с другого выхода всё было по-старому. Сегодня же ночью для моего IP поменялось тоже...

Wink 05.06.2008 13:17

Похоже еще будут менять что-то, судя по такому кривому заголовку.
Регэксп вот такой можно попробовать:
PHP код:

if preg_match("~нашлось ([0-9]+) страниц~"$content$match
     
$num intval($match[1]);
elseif 
preg_match("~нашлось ([0-9]+)\ тыс\. страниц~"$content$match
     
$num 1000intval($match[1]);
else 
$num 0


big.bon 05.06.2008 13:20

Между "нашлось" и циферками ещё разделитель строки... не покатит же?

Wink 05.06.2008 13:30

Внутри <title> нет перевода строки, так что должно оттуда взять.

big.bon 05.06.2008 13:33

нету??
Цитата:

<title>
asd&nbsp;-
Яндекс:
нашлось 875&nbsp;тыс. страниц
</title>

Wink 05.06.2008 13:37

Нету. Мы берем только начиная со слова "нашлось", а не весь заголовок.
Цитата:

<title>
&nbsp;-
Яндекс:
нашлось 875&nbsp;тыс. страниц
</title>

big.bon 05.06.2008 13:47

А 533 страницы ?

Wink 05.06.2008 13:52

Цитата:

Сообщение от big.bon (Сообщение 171038)
А 533 страницы ?

Тоже возьмет. Первым регэкспом. "533 страницы"

Wink 05.06.2008 13:55

... и 1 страница возьмет :p

big.bon 05.06.2008 13:56

Понял косяк - яндекс в UTF отдает результат, гад :)


Часовой пояс GMT +3, время: 15:32.

Работает на vBulletin® версия 3.8.7.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot
SAPE.RU — система купли-продажи ссылок с главных и внутренних страниц сайтов.