Представление текстовой информации в памяти компьютера (8 класс)

Текст состоит из символов — букв, цифр, знаков препинания и т. д., которые человек различает по начертанию. Компьютер различает вводимые символы по их двоичному коду. Вы нажимаете на клавиатуре символьную клавишу, и в компьютер поступает определённая последовательность электрических импульсов разной силы, которую можно представить в виде цепочки из восьми нулей и единиц (двоичного кода).

Мы уже говорили о том, что разрядность двоичного кода (i) и количество возможных кодовых комбинаций (N) связаны соотношением: 2i = N. Восьмиразрядный двоичный код позволяет получить 256 различных кодовых комбинаций: 28 = 256.

С помощью такого количества кодовых комбинаций можно закодировать все символы, расположенные на клавиатуре компьютера, — строчные и прописные русские и латинские буквы, цифры, знаки препинания, знаки арифметических операций, скобки и т. д., а также ряд управляющих символов, без которых невозможно создание текстового документа (удаление предыдущего символа, перевод строки, пробел и др.).

Соответствие между изображениями символов и кодами символов устанавливается с помощью кодовых таблиц.

Все кодовые таблицы, используемые в любых компьютерах и любых операционных системах, подчиняются международным стандартам кодирования символов.

Кодовая таблица содержит коды для 256 различных символов, пронумерованных от 0 до 255. Первые 128 кодов во всех кодовых таблицах соответствуют одним и тем же символам:

  • коды с номерами от 0 до 32 соответствуют управляющим символам;
  • коды с номерами от 33 до 127 соответствуют изображаемым символам — латинским буквам, знакам препинания, цифрам, знакам арифметических операций и т. д.

Эти коды были разработаны в США и получили название ASCII (American Standart Code for Information Interchange — Американский стандартный код для обмена информацией). В таблице ниже представлен фрагмент кодировки ASCII.

Кодовая таблица ASCIIКодовая таблица ASCII

Коды с номерами от 128 до 255 используются для кодирования букв национального алфавита, символов национальной валюты и т. п. Поэтому в кодовых таблицах для разных языков одному и тому же коду соответствуют разные символы. Более того, для многих языков существует несколько вариантов кодовых таблиц (например, для русского языка их около десятка!).

В таблице ниже представлены десятичные и двоичные коды нескольких букв русского алфавита в двух различных кодировках.

Русские буквы в разных кодировках

Например, последовательности двоичных кодов 11010010 11000101 11001010 11010001 11010010 в кодировке Windows будет соответствовать слово «ТЕКСТ», а в кодировке КОИ-8 — бессмысленный набор символов «рейяр».

Как правило, пользователь не должен заботиться о перекодировании текстовых документов, так как это делают специальные программы-конверторы, встроенные в операционную систему и приложения.

Восьмиразрядные кодировки обладают одним серьёзным ограничением: количество различных кодов символов в этих кодировках недостаточно велико, чтобы можно было одновременно пользоваться более чем двумя языками. Для устранения этого ограничения был разработан новый стандарт кодирования символов, получивший название Unicode. В Unicode каждый символ кодируется шестнадцатиразрядным двоичным кодом. Такое количество разрядов позволяет закодировать 65 536 различных символов: 216 = 65 536.

Самое главное:
Текст состоит из символов — букв, цифр, знаков препинания и т. д., которые человек различает по начертанию. Компьютер различает вводимые символы по их двоичному коду. Соответствие между изображениями и кодами символов устанавливается с помощью кодовых таблиц.

Вопросы и задания:

  1. Почему кодировки, в которых каждый символ кодируется цепочкой из восьми нулей и единиц, называются иначе однобайтовыми?
  2. С какой целью была введена кодировка Unicode?
  3. При работе в Интернете информация на одном из сайтов отобразилась так, как показано ниже.
    Это произошло из-за:

    1. установленной на компьютере системы контентной фильтрации;
    2. неправильных настроен монитора;
    3. неверного определения кодировки страницы.
  4. Зная, что в кодировке ASCII десятичный код каждой строчной латинской буквы на 32 больше кода соответствующей прописной буквы, декодируйте следующее сообщение: 77 105 107 107 121 32 77 111 117 114 101
    (77 — M, 105-32=73 — I, 107-32=75 — K, 121-32=89 — Y, 32 — пробел, 111-32=79 — O, 117-32=85 — U, 114-32=83 — S, 101-32=69 — E. В итоге получаем фразу: Mikky Mouse)

Содержание