Определить какая кодировка. Как определить кодировку? Зачем это нужно? Подытожим сказанное о кодировке

Существует много способов кодирования информации, в процессе которого сообщение преобразуется в комбинацию символов. Часто бывает, что при посещении веб-страницы на ней вместо букв возникают непонятные символы.

Вам понадобится

  • - компьютер с доступом в интернет.

Инструкция

  • Воспользуйтесь онлайн-декодером, чтобы узнать кодировку файла и раскодировать символы. Для этого откройте программу-браузер, перейдите по ссылке http://www.artlebedev.ru/tools/decoder/. Данный декодер был создан для раскодировки сообщений электронной почты, чтобы помочь пользователям прочитать непонятные почтовые сообщения.
  • Чтобы узнать кодировку текста, скопируйте его в буфер обмена, далее нажмите в поле декодера правую кнопку мыши и выберите команду «Вставить». Далее нажмите на кнопку «Расшифровать». В поле появится раскодированный текст, а ниже на странице будет указана исходная кодировка и та кодировка, в которую текст был перекодирован.
  • Скачайте специальную программу для определения кодировки, а также для перекодирования текста, например, программу Tcode. Для этого перейдите по ссылке http://it.sander.su/download.php, нажмите ссылку TCode, дождитесь загрузки файла. После завершения закачки распакуйте архив в любую папку, запустите исполняемый файл.
  • Вставьте текст из файла, для которого необходимо узнать кодировку, либо выберите кнопку на панели инструментов «Открыть файл». Далее нажмите кнопку внизу экрана «Перекодировать». Текст из файла будет автоматически перекодирован в нужную кодировку. Исходная кодировка отобразится в строке состояния, а также будет отображен процент распознавания символов. При наведении на эту строку можно определить, какие символы не были распознаны программой.
  • Установите программу AkelPad, способную распознавать кодировки файлов. Для этого перейдите по ссылке http://akelpad.sourceforge.net/ru/download.php и выберите нужную версию для загрузки. После установки запустите программу. Вставьте текст из файла для определения кодировки.
  • Выберите меню «Кодировка» и команду «Определить кодировку» либо вызовите данную команду сочетанием клавиш Alt+F5. Появится окно, в котором будет указана исходная кодировка, а также предложена возможность перекодирования текста в нужную для прочтения текста кодировку.
  • Совет добавлен 27 июля 2011 Совет 2: Как определить кодировку Иногда требуемый файл или веб-страница не открывается, а при ее отображении видны только непонятные символы. Бывают случаи, когда текстовый редактор или браузер не может определить необходимую кодировку. В таком случае ее приходится подбирать самому при помощи дополнительных утилит.

    Вам понадобится

    • Текстовый редактор, работающий с большим числом кодировок, или программа-декодер.

    Инструкция

  • Если файл некорректно открылся в одном редакторе, это вовсе не означает, что он имеет неправильную кодировку. Стоит попробовать открыть тот же файл в другой программе. Одной из утилит, которые в большинстве случаев точно определяют необходимый набор символов, является бесплатный редактор Notepad++.
  • Если открыть файл все-таки не удается, то можно воспользоваться онлайн сервисами для определения кодировки, которых в интернете есть великое множество.
  • Также существуют программы, которые способны расшифровывать русские тексты в разных кодировках. Несомненно, лидером является приложение «Штирлиц» для Windows. Оно знает практически все кодовые листы и знает множество методов транслитерации. Более того эта программа способна производить операции трансформации текста из исходного формата в любой другой.
  • В Linux, чтобы открыть какой-либо файл, содержащий незнакомую кодировку, можно воспользоваться некоторыми консольными командами преобразования или готовыми программами. Под QT существует приложение QTexTransformer, которое поможет определить название кодировки и произвести соответствующие преобразования.Под Linux существует множество лингвистических модулей, написанных на языке Perl. Например, Lingua DetectCharset или DetectCyrillic (для определения кириллических символов). Хорошо отображает файлы Windows программа mousepad. Для конвертирования также можно воспользоваться консольной командой «econv путь_до_файла», которая самостоятельно определит текущую кодировку и преобразует ее к текущей локали.
  • Полезный совет Хорошо с выбором нужной кодировки справляется текстовый процессор Word. Даже если файл не открылся в других редакторах, в нем сработает функция «Автовыбор». Источники
    • Один из самых известных декодеров текста
    Как определить кодировку - версия для печати

    Текст в файле, электронном письме, на веб-странице может быть набран на любом языке и сохранен в различной компьютерной кодировке. Дело состоит не только в многообразии современных кодировок, которые более-менее упорядочены, но и хранении документов, представляющих в первую очередь историческую ценность. Также встречаются случаи, когда документ несколько раз был сохранен в различных кодировках. Если текст открывается в виде непонятного набора символов, его необходимо привести в вид, доступный для чтения.

    Вам понадобится

    • Компьютер, текстовый редактор, онлайновый декодер, специальные программы «перекодировщики»

    Инструкция

  • Если текст не читается на веб-странице, сделайте подбор кодировки в браузере. Для этого кликните левой клавишей мышки в меню «Вид» по пункту «Кодировка». В выпадающем списке переберите доступные кодировки, пока текст не примет читаемый вид. Первая русская кодировка KOI-8 появилась на компьютерах, когда еще они не были персональными, с операционной системой UNIX. Применяется на компьютерах с UNIX-подобными операционными системами – например Linux. Следующей была русская кодировка DOS-866 для операционной системы MS-DOS от компании Microsoft. С выпуском Windows 3.0 в дело вступила Win-1251. Сейчас на UNIX-подобных системах применяется кодировка ISO 8859-5. Кроме них иногда можно встретить альтернативную кодировку 855, DKOI-8, ГОСТ и болгарскую кодировку. Очень редко можно встретить на документах кодировку MacCyrillic, применяемую только на компьютерах «Макинтош».
  • Сохраните текст в текстовом файле, затем откройте его в текстовом редакторе, при необходимости попробуйте открыть документ в нескольких различных текстовых редакторах. Файловые менеджеры также могут определить кодировку, в которой сохранен файл, и преобразовать его в необходимую кодировку.
  • Поместите часть текста или весь текст, в зависимости от его размера, в онлайновый декодер (дешифратор, декодер почты, конвектор кириллицы). После декодировки будет предложено несколько вариантов текста, а также название кодировки, в которой предположительно находится файл.
  • Для определения кодировки и при необходимости перекодировки текста необходимо использовать специальные программы «перекодировщики». Данные программы достаточно популярны в интернете и просты в использовании, при этом некоторые из них позволяют работать с максимально возможным количеством применяемых кодировок и предоставляют максимально доступные возможности по работе с ними.
  • Совет добавлен 27 июля 2011 Совет 2: Как определить кодировку Иногда требуемый файл или веб-страница не открывается, а при ее отображении видны только непонятные символы. Бывают случаи, когда текстовый редактор или браузер не может определить необходимую кодировку. В таком случае ее приходится подбирать самому при помощи дополнительных утилит.

    Вам понадобится

    • Текстовый редактор, работающий с большим числом кодировок, или программа-декодер.

    Инструкция

  • Если файл некорректно открылся в одном редакторе, это вовсе не означает, что он имеет неправильную кодировку. Стоит попробовать открыть тот же файл в другой программе. Одной из утилит, которые в большинстве случаев точно определяют необходимый набор символов, является бесплатный редактор Notepad++.
  • Если открыть файл все-таки не удается, то можно воспользоваться онлайн сервисами для определения кодировки, которых в интернете есть великое множество.
  • Также существуют программы, которые способны расшифровывать русские тексты в разных кодировках. Несомненно, лидером является приложение «Штирлиц» для Windows. Оно знает практически все кодовые листы и знает множество методов транслитерации. Более того эта программа способна производить операции трансформации текста из исходного формата в любой другой.
  • В Linux, чтобы открыть какой-либо файл, содержащий незнакомую кодировку, можно воспользоваться некоторыми консольными командами преобразования или готовыми программами. Под QT существует приложение QTexTransformer, которое поможет определить название кодировки и произвести соответствующие преобразования.Под Linux существует множество лингвистических модулей, написанных на языке Perl. Например, Lingua DetectCharset или DetectCyrillic (для определения кириллических символов). Хорошо отображает файлы Windows программа mousepad. Для конвертирования также можно воспользоваться консольной командой «econv путь_до_файла», которая самостоятельно определит текущую кодировку и преобразует ее к текущей локали.
  • Полезный совет Хорошо с выбором нужной кодировки справляется текстовый процессор Word. Даже если файл не открылся в других редакторах, в нем сработает функция «Автовыбор». Источники
    • Один из самых известных декодеров текста
    Как определить кодировку - версия для печати

    Декодер текста - переводчик кодировок utf 8 и windows 1251 онлайн

    UTF-8 (Unicode Transformation Format, 8-bit - «формат преобразования Юникода, 8-битный») - одна из общепринятых и стандартизированных кодировок текста, которая позволяет хранить символы в Unicode. Стандарт UTF-8 официально закреплён в документах RFC 3629 и ISO/IEC 10646 Annex D. Кодировка нашла широкое применение в UNIX-подобных операционных системах и веб-пространстве. В качестве BOM использует последовательность байт EF16, BB16, BF16 (что является трёхбайтовой реализацией символа FEFF16). Одним из преимуществ является совместимость с ASCII - любые их 7-битные символы отображаются как есть, а остальные выдают пользователю мусор (шум). Поэтому в случае, если латинские буквы и простейшие знаки препинания (включая пробел) занимают существенный объём текста, UTF-8 даёт выигрыш по объёму в сравнении с UTF-16.

    Windows-1251 (синоним CP1251) - является стандартной 8-битной кодировкой для всех русских версий Microsoft Windows. Пользуется довольно большой популярностью. Windows-1251 выгодно отличается от других 8‑битных кириллических кодировок (таких как CP866, KOI8-R и ISO 8859-5) наличием практически всех символов, использующихся в русской типографике для обычного текста (отсутствует только знак - ударение); она также содержит все символы для близких к русскому языку языков: украинского, белорусского, сербского, македонского и болгарского.

    Универсальный онлайн декодер (переводчик кодировок)

    Такой переводчик (сервис или программное обеспечение) еще называют как дешифратор , если Вам приходится работать с разными кодировками текста или возникли проблемы с кодировкой страниц в PHP (отображение в виде странной комбинации загадочных символов - "кракозябры"). Функциональный и универсальный сервис в режиме онлайн, автоматически поможет определить кодировку, покажет примеры всех комбинаций кодировок, чтобы вы могли выбрать подходящую и перевести текст из одной кодировки в другую. То есть универсальный декодер поможет перевести текст (предположим, что на кириллице) в другие международные форматы.

    Чтобы воспользоваться переводчиком кодировок текста в режиме онлайн, просто перейдите по ссылке [ДЕКОДЕР]

    Данный декодер универсален, хотите закодировать текст для PHP или HTML страниц, а может быть в Java? Все проблемы кодировок решаются раскодировкой (перекодировкой) путем декодера, но способ кодирования зависит от формата документа в котором тот был закодирован и для этого необходимо сменить формат самого документа, а не изобретать новые способы интерпритации. В случае с серверами используйте их конфигурацию - онлайн переводчик кодировок поможет узнать какая именно кодировка используется в вашем случае - вставьте скопированные символы в окно декодера.

    Инструкция

    Используйте редактор Microsoft Office Word, если он установлен на компьютере, для определения кодировки текстового файла. Запустите данное приложение. В главном меню последовательно выберите пункты «Файл» и «Открыть...» или нажмите сочетание клавиш Ctrl+O. В отобразившемся диалоге перейдите к нужному каталогу и выделите файл. Нажмите кнопку «Открыть». Если отличается от CP1251, автоматически откроется диалог «Преобразование файла». Активируйте в нем опцию «Другая» и подберите кодировку, используя список, находящийся справа. При выборе правильной кодировки в поле «Образец» будет выведен читаемый текст.

    Примените текстовые редакторы, допускающие выбор источника. Хорошим примером подобного приложения является KWrite (работает в среде KDE в UNIX-подобных системах). Загрузите текстовый файл в редактор. Затем просто перебирайте кодировки, пока не отобразится читаемый текст (в KWrite для этого используется раздел Encoding меню Tools).

    Аналогично текстовому редактору для определения кодировки файла можно использовать и браузер. Воспользуйтесь Mozilla Firefox. Запустите данное приложение. Если оно не установлено, загрузите подходящий дистрибутив с сайта mozilla.org и инсталлируйте его. Откройте в браузере текстовый файл. Для этого выберите в главном меню пункты «Файл» и «Открыть файл...» или нажмите Ctrl+O. Если загруженный текст отобразился корректно, разверните раздел «Кодировка» меню «Вид» и узнайте кодировку из названия пункта, на котором установлена отметка. В противном случае подберите данный параметр путем выбора различных пунктов того же меню, а также его раздела «Дополнительные».

    Примените специализированные утилиты для определения кодировок текстовых файлов. В UNIX-подобных системах можно использовать enca. При необходимости установите эту программу при помощи доступных менеджеров пакетов. Выведите список доступных языков, выполнив команду:

    enca --list languages

    Определите кодировку текстового файла, указав его имя при помощи опции -g и язык документа при помощи опции -L. Например:

    enca -L russian -g /home/vic/tmp/aaa.txt.

    Источники:

    • Кодировка текста ASCII

    Если вы решили сделать свой блог, то без дизайна на вашей страничке не обойтись. Перед вами встает выбор: купить хороший шаблон или закачать с сети интернет бесплатный шаблон. Конечно, для начинающего web-мастера бесплатный шаблон является отличным решением на поставленную задачу. Но эти шаблоны имеют большой минус: они создаются человеком, который всегда вставляет адрес своего сайта во внутренности шаблона. Иногда этот минус можно исправить, но адрес сайта, вшитый в закодированный файл, не так просто удалить.

    Вам понадобится

    • Редактирование закодированных файлов в WordPress.

    Инструкция

    Если вы видите на своей страничке ссылку на сайт автора, но в файлах поиск не дает нужных результатов, была закодирована в каком-либо файле. Отыскать такую ссылку с первого раза не получится. Она может принимать такой вид: «». Но справиться с ссылками вам помогут дополнительные плагины, к примеру плагин TAC для WordPress. Он позволяет найти те ссылки, которые могут быть закодированы. С помощью этого плагина вы можете редактировать даже зашифрованные файлы.

    Иногда при попытке открыть текстовой файл вместо обычного текста можно увидеть набор непонятных символов. Это значит что, скорее всего, исходная кодировка файла была изменена. В такой ситуации ее нужно перепроверить и при необходимости сменить на правильную. После этого текстовой файл будет вновь читаемым.

    Вам понадобится

    • - компьютер;
    • - программа «Штирлиц».

    Инструкция

    Для последующих действий вам потребуется программа «Штирлиц». Приложение легко можно найти в интернете. Скачайте его (скачивается в архиве). Распакуйте архив в любую папку. Программу инсталлировать не нужно. Запустить ее можно прямо из папки.

    После запуска программы вы окажитесь в основном меню. В верхнем левом углу окна нажмите по команде «Файл». Затем выберите команду «Открыть». Появится окно обзора. В этом окне необходимо указать путь к файлу, для которого вы хотите узнать исходную кодировку. Выделите файл с помощью левой кнопки мышки. После этого снизу окна нажмите «Открыть». Содержимое документа появится в окне главного меню программы.

    Далее в меню программы выберите компонент «Правка». После этого в дополнительном меню кликните по «Декодировать». Начнется процедура декодирования файла. Как правило, ее длительность не превышает десяти секунд. После завершения операции вместо непонятных символов в окне программы должен появиться читаемый текст. Сверху в меню программы должна быть информация о кодировке текущего файла.

    Если вам необходимо кодировать документ в другой формат, то это сделать тоже довольно просто. Сверху на панели инструментов есть список разных кодов. Когда документ будет , все что вам потребуется - это выбрать код и нажать по нему левой кнопкой мышки. Через несколько секунд кодировка документа будет изменена. Если опять появились непонятные символы, то это значит, что этот код не подходит текущему документу и следует выбрать другой.

    Видео по теме

    Полезный совет

    При необходимости вы можете изменять содержимое документа прямо в программе, поскольку «Штирлиц» обладает неплохими возможностями по редактированию.

    Источники:

    • Кодировка текста ASCII

    На современных веб-страницах в основном используется кодировка Unicode. Но некоторые ресурсы созданы давно и с тех пор ни разу не модернизировались. К тому же даже при просмотре современного сайта браузер может определить кодировку неправильно.

    Инструкция

    Возможно, в браузере случайно было отключено автоматическое определение кодировки. Попробуйте включить его. Для этого выберите в меню подпункт «Вид» - «Кодировка» (в старых версиях Opera, а также во многих других браузерах) либо «Страница» - «Кодировка» (в новых версиях Opera). Включите режим, который может носить название «Автоматически» или «Выбрать автоматически». Возможно, после этого текст на странице сразу станет читаемым.

    Если отображение страницы не стало нормальным, найдите правильную кодировку вручную. Для этого перейдите к тому же подпункту меню, что и в предыдущем случае, но вместо автоматического режима выберите кодировку KOI-8R - на сайтах, созданных до перехода на Unicode, она встречается чаще всего. При неудаче попробуйте тем же способом выбрать кодировки CP1251, CP866, а если не поможет и это, перепробуйте все остальные стандарты из категории «Кириллица».

    Сведения о кодировке страницы обычно хранятся в ее исходном коде, и именно на основании этих данных ее определяет браузер. Чтобы прочитать исходный код страницы, выберите в меню, в зависимости от браузера, пункт «Вид» - «Исходный код» либо «Страница» - «Средства разработки» - «Исходный код». В самом начале текста найдите строку следующего вида:meta http-equiv="Content-Type" content="text/html; charset=encodingname", где encodingname - название кодировки. Затем выберите в меню браузера именно эту кодировку.

    Стандартные средства браузера бессильны, если используется малораспространенная кодировка, либо текст был подвергнут многократному перекодированию. Чтобы расшифровать его, перейдите на -декодера, например, http://www.artlebedev.ru/tools/decoder/. Поместите фрагмент текста со страницы в поле ввода и нажмите кнопку «Расшифровать». Чтобы это сделать, выделите текст мышью, нажмите Ctrl+C, перейдите в поле ввода и нажмите Ctrl+V. В случае успеха вместе с расшифрованным текстом вы получите информацию о том, в какой кодировке он был.

    Вообще-то есть 2 утилиты для определения кодировки. Первая этo file. Она хорошо определяет тип файла и юникодовские кодировки… А вот с ASCII кодировками глючит. Например все они выдаются как буд-то они iso-8859-1. Но это не так. Тут надо воспользоваться другой утилитой enca. Она в отличие от file очень хорошо работает с ASCII кодировками. Я не знаю такой утилиты, чтобы она одновременно хорошо работала и с ASCII и с юникодом… Но можно совместить их, написав свою. Это да. Кстати еnca может и перекодировать. Но я вам этого не советую. Потому что лучше всего это iconv. Он отлично работает со всеми типами кодировок и даже намного больше, с различными вариациями, включая BCD кодировки типа EBCDIC(это кодировки 70-80 годов, ещё до ДОСа…) Хотя тех систем давно нет, а файлов полно… Я не знаю ничего лучше для перекодировки чем iconv. Я думаю всё таки что file не определяет ASCII кодировки потому что не зарегистрированы соответствующие mime-types для этих кодировок… Это плохо. Потому что лучшие кодировки это ASCII.
    Для этого есть много причин. И я не знаю ни одной разумной почему надо пользоваться юникодовскими кроме фразы «США так решило…» И навязывают всем их, особенно эту utf-8. Это худшее для кодирования текста что когда либо было! А главная причина чтобы не пользоваться utf-8, а пользоваться ASCII это то, что пользоваться чем-то иным никогда не имеет смысла. Даже в вебе. Хотите значки? Используйте символьные шрифты, их полно. Не вижу проблем… Почему я должен делать для корейцев, арабов или китайцев? Не хочу. Мне всегда хватало русского, в крайнем случае английского. Зачем мне ихние поганые языки и кодировки? Теперь про ASCII. KOI8-R это вычурная кодировка. Там русские буквы идут не по порядку. Нормальных только 2: это CP1251 и DOS866. В зависимости от того для чего. Если для графики, то безусловно CP1251. А если для полноценной псевдографики, то лучше DOS866 не придумали. Они не идеальны, но почти… Плохость utf-8 для русских текстов ещё и в том, что там каждая буква занимает 2 байта. Там ещё такая фишка как во всех юникодах это indian… Это то, в каком порядке идут байты, вначале младший а потом старший(как в памяти по адресам, или буквы в словах при написании) или наоборот, как разряды в числе, вначале старшие а потом младшие. А если символ 3-х, 4-х и боле байтов(до 16-ти в utf-8) то там кол-во заморочек растёт в геометрической прогрессии! Он ещё и тормозит, ибо каждый раз надо вычислять длину символа по довольно сложному алгоритму! А ведь нам ничего этого не надо! Причём заметьте, ихние англицкие буквы идут по порядку, ничего не пропущено и все помещаются в 1-м байте… Т.е. это искусственно придуманые штуки не для избранных америкосов. Их это вообще не волнует. Они разом обошли все проблемы записав свой алфавит в начало таблицы! Но кто им дал такое право? А все остальные загнали куда подальше… Особенно китайцев! Но если использовать CP1251, то она работает очень быстро, без тормозов и заморочек! Так же как и английские буквы…
    а вот дальше бардак!!! Правда сейчас нам приходится пользоваться этим utf-8, Нет систем в которых бы системная кодировка была бы ASCII. Уже перестали делать. И все файлы системные именно в uft-8. А если ты хочешь ASCII, то тебе придётся всё время перекодировать. Раньше так не надо было делать. Надеюсь наши всё же сделают свою систему без ихних штатовких костылей…

    • Сергей Савенков

      какой то “куцый” обзор… как будто спешили куда то