Обрезание URL-ов

MrJinx · 06.07.2008, 21:57

Столкнулся с такой проблемой. Напарсил сайтов из выдачи, часть из адресов с хвостами (т.е. именно ссылки). Может у кого-то есть готовое решение? Нужно эти хвосты убрать или в отдельный файл записать только адреса самих сайтов.

РегЭкспом по формуле http://[^/]*/ нахожу сами адреса, а вот как сделать формулу, чтобы находило всё, что после них - не додумался.
Я уверен, я не один такой весёлый с такой проблемой - поэтому не жадничайте, если богаты на минисофтинку для этого случая. Что-то выдумывать, когда я уверен, что оно уже есть - не очень-то хочется

MadGreen · 06.07.2008, 22:16

если речь о php то не придумывая велосипеда:
<?php
$url = pathinfo('http://www.sape.ru/1.php');
echo $url['dirname'];
?>

набросал на коленке, но вроде все верно

Ufaweb · 06.07.2008, 22:17

preg_match('|http://([^/]+)([^"])"|Usi', $ссылка, $куда_скидувать_массив)

MadGreen · 06.07.2008, 22:18

или, если беречь память сервака при большом кол-ве урлов, написать строковыми функциями обрезание по одиночному слешу...
регулярки здесь, имхо, будут более затратными чем pathinfo

Ufaweb · 06.07.2008, 22:18

Цитата:

Сообщение от MadGreen

если речь о php то не придумывая велосипеда:
<?php
$url = pathinfo('http://www.sape.ru/1.php');
echo $url['dirname'];
?>

набросал на коленке, но вроде все верно

Это брет - неясно как со спецсимволами (?, например)

Тогда уж parse_str или parse_url =)

Добавлено через 1 минуту

Цитата:

Сообщение от Ufaweb

preg_match('|http://([^/]+)([^"])"|Usi', $ссылка, $куда_скидувать_массив)

Хотя это тоже смахивает на брет

MadGreen · 06.07.2008, 22:21

Цитата:

Сообщение от Ufaweb

Это брет - неясно как со спецсимволами (?, например)

Тогда уж parse_str или parse_url =)

Добавлено через 1 минуту

Хотя это тоже смахивает на брет

$url = pathinfo('http://www.sape.ru/1.php?dfsg=dd');
echo $url['dirname'];

что непонятно?

Добавлено через 2 минуты
регулярка кстати косячная

Ufaweb · 06.07.2008, 22:28

Цитата:

Сообщение от MadGreen

регулярка кстати косячная

Ну я и говорю - на бред смахивает

Спекся за этот день...

MadGreen · 06.07.2008, 22:30

в общем вариант я написал рабочий, проверил
MrJinx, пользуйся... если конечно захочешь..

MrJinx · 06.07.2008, 22:54

Цитата:

Сообщение от MadGreen

или, если беречь память сервака при большом кол-ве урлов, написать строковыми функциями обрезание по одиночному слешу...
регулярки здесь, имхо, будут более затратными чем pathinfo

dirname не покатит, потому что там много ссылок не с главной сразу, а в подкаталогах типа http://site.com/site/site/1.html, в итоге будет выдавать адрес http://site.com/site/site/, а не http://site.com/

Добавлено через 7 минут
ещё варианты?

MadGreen · 06.07.2008, 23:35

а, согласен, тогда вот так:

$url = 'http://site.com/site/site/1.html';
$url = substr($url, 0, strpos($url, '/', 7)+1);
echo $url;

Добавлено через 4 минуты
ну или parse_url на самом деле
только вот массив по любому больше памяти будет выедать...

06.07.2008, 21:57	#1
MrJinx Мастер Регистрация: 10.12.2007 Сообщений: 566 Вес репутации: 237	Обрезание URL-ов Столкнулся с такой проблемой. Напарсил сайтов из выдачи, часть из адресов с хвостами (т.е. именно ссылки). Может у кого-то есть готовое решение? Нужно эти хвосты убрать или в отдельный файл записать только адреса самих сайтов. РегЭкспом по формуле http://[^/]*/ нахожу сами адреса, а вот как сделать формулу, чтобы находило всё, что после них - не додумался. Я уверен, я не один такой весёлый с такой проблемой - поэтому не жадничайте, если богаты на минисофтинку для этого случая. Что-то выдумывать, когда я уверен, что оно уже есть - не очень-то хочется __________________ Здоровье, сон и богатство может по-настоящему оценить только тот, кто их потерял и обрел снова. Жан Поль (Иоганн Пауль Фридрих Рихтер) Зарегистрируйся в системе моим рефералом

06.07.2008, 23:35	#10
MadGreen Специалист Регистрация: 29.09.2007 Сообщений: 403 Вес репутации: 217	а, согласен, тогда вот так: $url = 'http://site.com/site/site/1.html'; $url = substr($url, 0, strpos($url, '/', 7)+1); echo $url; Добавлено через 4 минуты ну или parse_url на самом деле только вот массив по любому больше памяти будет выедать... Последний раз редактировалось MadGreen; 06.07.2008 в 23:39. Причина: Добавлено сообщение

06.07.2008, 22:16	#2
MadGreen Специалист Регистрация: 29.09.2007 Сообщений: 403 Вес репутации: 217	если речь о php то не придумывая велосипеда: <?php $url = pathinfo('http://www.sape.ru/1.php'); echo $url['dirname']; ?> набросал на коленке, но вроде все верно

06.07.2008, 22:17	#3
Ufaweb Особый статус Регистрация: 23.03.2008 Адрес: localhost Сообщений: 2,594 Вес репутации: 323	preg_match('\|http://([^/]+)([^"])"\|Usi', $ссылка, $куда_скидувать_массив)

06.07.2008, 22:18	#4
MadGreen Специалист Регистрация: 29.09.2007 Сообщений: 403 Вес репутации: 217	или, если беречь память сервака при большом кол-ве урлов, написать строковыми функциями обрезание по одиночному слешу... регулярки здесь, имхо, будут более затратными чем pathinfo

06.07.2008, 22:30	#8
MadGreen Специалист Регистрация: 29.09.2007 Сообщений: 403 Вес репутации: 217	в общем вариант я написал рабочий, проверил MrJinx, пользуйся... если конечно захочешь..