Форум SAPE.RU

Форум SAPE.RU (http://forum.sape.ru/index.php)
-   Курилка (http://forum.sape.ru/forumdisplay.php?f=22)
-   -   Текст со страницы. (http://forum.sape.ru/showthread.php?t=23163)

indance 29.11.2008 17:11

Текст со страницы.
 
Всем привет.

Если кому-нибудь интересна тематика получения текста со страницы, есть несколько идей как это реализуется.

Вот пример:

новость:
http://lenta.ru/news/2008/11/29/sunday/

текст:
http://5glav.ru/myform.aspx?site=htt.../11/29/sunday/

соответственно вместо параметра site можно поставить любую страницу (с http://)

В общем, если кто найдёт правильное применение данной программе или просто подкинет пару идей, буду рад. Исходники выложу если попросят больше трёх человек.

Psihadelic 29.11.2008 17:17

СПАМ!

indance 29.11.2008 17:17

в каком месте спам?

Ренат 29.11.2008 17:19

psihadelic, не уж то Психаделик так говорит???:D я про спам.

Psihadelic 29.11.2008 17:20

indance, спам в ссылках.

indance 29.11.2008 17:21

не понял.
ну вы посоветуйте что сделать если они так раздражают
смысл моего поста -- поделиться алгоритмом

Psihadelic 29.11.2008 17:23

indance, я вообще непонял что вы хотите.

indance 29.11.2008 17:27

Цитата:

Сообщение от psihadelic (Сообщение 322573)
indance, я вообще непонял что вы хотите.

Допустим есть какая-то страница, у неё адрес http://something/...
вам необходимо получить текст с неё, при этом обрезать всю навигацию и рекламу. Это всё нужно сделать автоматизированно. Тоесть есть программа, которая берёт на вход страницу, а возвращает значимый текст.

это программа лежит по адресу http://5glav.ru/myform.aspx?site=http://something/

только вместо something нужно вставить свой url

ahsinis 29.11.2008 18:15

похоже там только между тегами <p></p> текст береться
Оригинальный способ обрезать навигацию ))))

indance 29.11.2008 18:28

Цитата:

Сообщение от ahsinis (Сообщение 322608)
похоже там только между тегами <p></p> текст береться
Оригинальный способ обрезать навигацию ))))

не, немного не так) просто затачивалось всё преимущественно для новостных сайтов


Часовой пояс GMT +3, время: 16:50.

Работает на vBulletin® версия 3.8.7.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot
SAPE.RU — система купли-продажи ссылок с главных и внутренних страниц сайтов.