Накидайте plz регэксп

Jooz · 26.03.2011, 18:15

Коллеги, имеем файлик который кинули в строку $str, в нем такая структура:

<h4>Name 1</h4>
Text 1
</h4>Name 2</h4>
Text 2
<h4>Name 3</h4>
Text 3

Нужно переложить $str в массивы $name[] и $text[] соответственно, выдайте пожалуйста идею грамотного regexp, с учетом что последний Text 3 не имеет ограничения новым тегом <h4>Name 4</h4>

Заранее спасибо!

eresik · 26.03.2011, 19:12

Если файлик прям именно такой как вы показали - я бы не стал заморачиваться с регэкспами.
$strings=file('ваш файл');
чётный строки - это ваши name (после strip_tags)
нечётные - это text

Jooz · 26.03.2011, 19:44

Не не такой, я просто структуру показал, пока на ум пришло только такое:

PHP код:


			
$file = file_get_contents ( "file.html" ); 
 $arr = explode("<h4>",$file); 

// Тут мы будем крутить $arr через foreach
// Получим нечто такое:

$arr[i] = "<h4>".$arr[i];  echo $arr[i];

// Далее ловим <h4>
if (preg_match('|<h4.*?>(.*)</h4>|sei', $arr[i], $t)) 
$t= $t[1]; else $t='';

// Получили в массив $name = $t; а в $text = $arr[i]

В общем набросок мысли. Щас заверну его красиво.

Добавлено через 11 минут
Ну вот, получило не супер пупер производительно, да лучшее на ум не пришло.

PHP код:


			
<?

$file = file_get_contents ( "file.html" );

$arr = explode("<h4>",$file);

foreach($arr as $str) 

        {
        
            $str = "<h4>".$str;
        
            $text[] = $str;
        
            if ( preg_match('|<h4.*?>(.*)</h4>|sei', $str, $name)) 
        
            $names[] = $name[1]; 
        
            else $names[] = ''; 
        
        }
        
            if (count($text) == count($names)) echo "ок"; else "что-то не так"; 
        
            var_dump($text);

?>

chahlic · 26.03.2011, 20:12

Цитата:

Сообщение от Jooz

Ну вот, получило не супер пупер производительно, да лучшее на ум не пришло.

Возможно я не прав, но мне кажется, что тут массив $text будет содержать текст с именами вместе

Jooz · 26.03.2011, 20:21

chahlic, да прав, но так и надо. $neme - улетит в титлы, а все остальное в боди. Именно по этому и <h4> который является сплитером, я восстанавливаю.

PHP код:


			
$str = "<h4>".$str;

Иначе можно было бы просто $str еще раз долбануть по сптиту </h4> и получить $name = $str2[0]; $text = $str2[1];

Алексей Барыкин · 26.03.2011, 21:31

В два прогона
1)
// добавляем разметку для парсинга
$html = preg_replace("|<h(\d+)|Uis", "###<h$1", $html);

2)
// парсим с учетом этой доп. разметки
preg_match_all("|<h(\d+)(.*)>s*(.*)\s*<\/h\d+>(.*)\s*###|Uis", $html, $out, PREG_PATTERN_ORDER);

На выходе получаем массив с уровнями заголовков (\d+), заголовками и собссно текстами.

26.03.2011, 18:15	#1
Jooz Вредина Регистрация: 03.07.2007 Адрес: д.Коноплянка Сообщений: 3,535 Вес репутации: 437	Накидайте plz регэксп Коллеги, имеем файлик который кинули в строку $str, в нем такая структура: <h4>Name 1</h4> Text 1 </h4>Name 2</h4> Text 2 <h4>Name 3</h4> Text 3 Нужно переложить $str в массивы $name[] и $text[] соответственно, выдайте пожалуйста идею грамотного regexp, с учетом что последний Text 3 не имеет ограничения новым тегом <h4>Name 4</h4> Заранее спасибо! __________________ Чтобы произошло чудо нужно обязательно дунуть. Если не дунуть - чуда не произойдет! ツ

26.03.2011, 19:12	#2
eresik Эксперт Регистрация: 12.12.2009 Адрес: Ростов-на-Дону Сообщений: 1,537 Вес репутации: 248	Если файлик прям именно такой как вы показали - я бы не стал заморачиваться с регэкспами. $strings=file('ваш файл'); чётный строки - это ваши name (после strip_tags) нечётные - это text __________________ Партнёрка знакомств с блоком SAPE. Сапа без расходов на хостинг! Самый удобный Хостинг (в т.ч. сейчас - бесплатное полугодовое тестирование хостинга Node.JS)

26.03.2011, 19:44	#3
Jooz Вредина Регистрация: 03.07.2007 Адрес: д.Коноплянка Сообщений: 3,535 Вес репутации: 437	Не не такой, я просто структуру показал, пока на ум пришло только такое: PHP код: `$file = file_get_contents ( "file.html" ); $arr = explode("<h4>",$file); // Тут мы будем крутить $arr через foreach // Получим нечто такое: $arr[i] = "<h4>".$arr[i]; echo $arr[i]; // Далее ловим <h4> if (preg_match('\|<h4.?>(.)</h4>\|sei', $arr[i], $t)) $t= $t[1]; else $t=''; // Получили в массив $name = $t; а в $text = $arr[i]` В общем набросок мысли. Щас заверну его красиво. Добавлено через 11 минут Ну вот, получило не супер пупер производительно, да лучшее на ум не пришло. PHP код: <? $file = file_get_contents ( "file.html" ); $arr = explode("<h4>",$file); foreach($arr as $str) { $str = "<h4>".$str; $text[] = $str; if ( preg_match('\|<h4.?>(.)</h4>\|sei', $str, $name)) $names[] = $name[1]; else $names[] = ''; } if (count($text) == count($names)) echo "ок"; else "что-то не так"; var_dump($text); ?> __________________ Чтобы произошло чудо нужно обязательно дунуть. Если не дунуть - чуда не произойдет! ツ Последний раз редактировалось Jooz; 26.03.2011 в 19:45. Причина: Добавлено сообщение

26.03.2011, 20:21	#5
Jooz Вредина Регистрация: 03.07.2007 Адрес: д.Коноплянка Сообщений: 3,535 Вес репутации: 437	chahlic, да прав, но так и надо. $neme - улетит в титлы, а все остальное в боди. Именно по этому и <h4> который является сплитером, я восстанавливаю. PHP код: `$str = "<h4>".$str;` Иначе можно было бы просто $str еще раз долбануть по сптиту </h4> и получить $name = $str2[0]; $text = $str2[1]; __________________ Чтобы произошло чудо нужно обязательно дунуть. Если не дунуть - чуда не произойдет! ツ

26.03.2011, 21:31	#6
Алексей Барыкин Хитрый жук Регистрация: 05.12.2007 Адрес: Конаково Сообщений: 2,987 Вес репутации: 394	В два прогона 1) // добавляем разметку для парсинга $html = preg_replace("\|<h(\d+)\|Uis", "###<h$1", $html); 2) // парсим с учетом этой доп. разметки preg_match_all("\|<h(\d+)(.)>s(.)\s<\/h\d+>(.)\s###\|Uis", $html, $out, PREG_PATTERN_ORDER); На выходе получаем массив с уровнями заголовков (\d+), заголовками и собссно текстами. __________________ taurion.ru \| adminbook.ru \| indesignbook.ru

Похожие темы
Тема	Автор	Раздел	Ответов	Последнее сообщение
Люди, накидайте плиз партнерки	Jimi Dini	Партнерские программы, баннерная реклама	9	21.12.2008 23:52