Ищу инфо по всем применяемым кодировкам
Пишу скрипт, который должен определенным образом обрабатывать контент любой скормленной ему страницы. Столкнулся с тем что часто кодировки на страницах никак не объявляются и приходится анализировать контент на предмет частоты вхождения каких-то символов чтобы понять кодировку.
В связи с этим есть вопросы: 1. В какой пропорции на сегодня используются основные кодировки 1251, utf-8, koi8r ? мне пока кажется что примерно 49% / 49% / 2% 2. Сталкивались ли Вы с иными кодировками для кириллицы ? |
Имхо и субъективно: utf используют чаще, чем в 49%. Сам, при отсутствиии обязательств (например, narod.ru после перевода на укоз насильственно перекодировали в utf) использую cp-1251. Благо, что любые юникодные символы можно отобразить esc-последовательностью.
Цитата:
|
Цитата:
|
Цитата:
|
В случае нынешнего Народа есть прикол... В заголовках вин-1251 или кои8-р, а по факту в нутрях утф-8... Каждую страницу в браузере приходится Вид->Кодировка->UTF-8 делать... Не все сайты на Народе живы (в смысле обновлениями ВМами), но посещалка живая ежедневно есть... Бывает...
|
Цитата:
Цитата:
windows-1252 windows-1251 cp 866 из тех что встречал я |
Цитата:
Цитата:
1252 - это вообще засада ... если вовремя не загасить, то можно весь контент потерять ... |
Цитата:
|
Столкнулся с первой (ожидавшейся) подставой, у сайта прописана кодировка ютф-8 , а на самом деле выдача идет в формате 1251 ... И сайт в топе по многим запросам. крутая фирма по оказанию услуг сертификации.
|
функция mb_convert_encoding вполне сносно справляется с задачей как у вас, главное не забыть инициализировать mbstring, перед использованием, под нужную на выходе кодировку
|
Часовой пояс GMT +3, время: 12:22. |
Работает на vBulletin® версия 3.8.7.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot
SAPE.RU — система купли-продажи ссылок с главных и внутренних страниц сайтов.