Форум SAPE.RU

Форум SAPE.RU (http://forum.sape.ru/index.php)
-   Разработка и сопровождение сайтов (http://forum.sape.ru/forumdisplay.php?f=29)
-   -   Ищу инфо по всем применяемым кодировкам (http://forum.sape.ru/showthread.php?t=93669)

SPQR 31.08.2014 11:39

Ищу инфо по всем применяемым кодировкам
 
Пишу скрипт, который должен определенным образом обрабатывать контент любой скормленной ему страницы. Столкнулся с тем что часто кодировки на страницах никак не объявляются и приходится анализировать контент на предмет частоты вхождения каких-то символов чтобы понять кодировку.

В связи с этим есть вопросы:

1. В какой пропорции на сегодня используются основные кодировки 1251, utf-8, koi8r ? мне пока кажется что примерно 49% / 49% / 2%

2. Сталкивались ли Вы с иными кодировками для кириллицы ?

SergejF 31.08.2014 11:51

Имхо и субъективно: utf используют чаще, чем в 49%. Сам, при отсутствиии обязательств (например, narod.ru после перевода на укоз насильственно перекодировали в utf) использую cp-1251. Благо, что любые юникодные символы можно отобразить esc-последовательностью.


Цитата:

Сообщение от SPQR (Сообщение 1421699)
Сталкивались ли Вы с иными кодировками для кириллицы ?

Знаю, что есть еще ISO 8859-5, но вот чтобы сталкиваться с ней...

zhegloff 31.08.2014 13:27

Цитата:

Сообщение от SPQR (Сообщение 1421699)
Столкнулся с тем что часто кодировки на страницах никак не объявляются

Даже в заголовках?

SPQR 31.08.2014 13:35

Цитата:

Сообщение от zhegloff (Сообщение 1421703)
Даже в заголовках?

Угу, Сергей уже привел пример - narod.ru . И у браузеров нет проблем. И у меня не должно быть ...

tex_1982 31.08.2014 14:56

В случае нынешнего Народа есть прикол... В заголовках вин-1251 или кои8-р, а по факту в нутрях утф-8... Каждую страницу в браузере приходится Вид->Кодировка->UTF-8 делать... Не все сайты на Народе живы (в смысле обновлениями ВМами), но посещалка живая ежедневно есть... Бывает...

緋色のローブプリンス 31.08.2014 15:21

Цитата:

Сообщение от SPQR (Сообщение 1421699)
49% / 49% / 2%

в мире немного по другому - в росии может быть
Цитата:

Сообщение от SPQR (Сообщение 1421699)
2. Сталкивались ли Вы с иными кодировками для кириллицы ?

iso-8859 (и их несколько)
windows-1252
windows-1251
cp 866

из тех что встречал я

SPQR 31.08.2014 15:26

Цитата:

Сообщение от 緋色のローブプリンス (Сообщение 1421710)
в мире немного по другому - в росии может быть

Меня только в России и интересует

Цитата:

Сообщение от 緋色のローブプリンス (Сообщение 1421710)
iso-8859 (и их несколько)
windows-1252
windows-1251
cp 866

из тех что встречал я

Есть живые примеры на iso-8859 и cp 866 ?

1252 - это вообще засада ... если вовремя не загасить, то можно весь контент потерять ...

緋色のローブプリンス 31.08.2014 15:31

Цитата:

Сообщение от SPQR (Сообщение 1421711)
Меня только в России и интересует



Есть живые примеры на iso-8859 и cp 866 ?

1252 - это вообще засада ... если вовремя не загасить, то можно весь контент потерять ...

на cp 866 уже не помню где видел а на iso-8859 если не указано другое пробует отдавать ISPmanager не у всех конечно но встречаеться

SPQR 08.09.2014 14:13

Столкнулся с первой (ожидавшейся) подставой, у сайта прописана кодировка ютф-8 , а на самом деле выдача идет в формате 1251 ... И сайт в топе по многим запросам. крутая фирма по оказанию услуг сертификации.

Status-X 12.09.2014 04:56

функция mb_convert_encoding вполне сносно справляется с задачей как у вас, главное не забыть инициализировать mbstring, перед использованием, под нужную на выходе кодировку


Часовой пояс GMT +3, время: 12:22.

Работает на vBulletin® версия 3.8.7.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot
SAPE.RU — система купли-продажи ссылок с главных и внутренних страниц сайтов.