Универсальность современных информационных систем обусловлена их способностью представлять информацию в электронном виде в виде цифровых сигналов и автоматически манипулировать ею с чрезвычайно высокой скоростью. Информация хранится в двоичных устройствах, которые являются базовыми компонентами цифровой техники. Поскольку эти устройства существуют только в одном из двух состояний, информация в них представлена либо как отсутствие, либо как наличие энергии (электрического импульса). Два состояния двоичных устройств удобно обозначать двоичными цифрами, или битами, — ноль (0) и единица (1).
Таким образом, алфавитные символы естественно-языковых систем письма могут быть представлены в цифровом виде как комбинации нулей (без импульса) и единиц (с импульсом). Таблицы эквивалентности алфавитно-цифровых символов и строк двоичных цифр называются системами кодирования, аналогом систем письма. Комбинация из трех двоичных цифр может представлять до восьми таких символов; комбинация из четырех цифр — до 16 символов и так далее. Выбор той или иной системы кодирования зависит от размера набора символов, которые необходимо представить. Широко распространены американский стандартный код обмена информацией (ASCII) — семи- или восьмибитный код, представляющий английский алфавит, цифры и некоторые специальные символы стандартной компьютерной клавиатуры, и соответствующий восьмибитный расширенный двоично-десятичный код обмена (EBCDIC), используемый в компьютерах производства IBM (International Business Machines Corp.) и большинстве совместимых систем. Цифровое представление символа восемью битами называется байтом.
Семибитный код ASCII способен отображать до 128 алфавитно-цифровых и специальных символов, что достаточно для систем письма многих фонетических шрифтов, включая латиницу и кириллицу. Некоторые алфавиты требуют более семи бит; например, арабский алфавит, используемый также в языках урду и персидском, состоит из 28 согласных символов (а также ряда гласных и диакритических знаков), но каждый из них может иметь четыре формы, в зависимости от его положения в слове.
Для цифрового представления неалфавитных систем письма даже восьмибитный код, вмещающий 256 символов, недостаточен. Например, некоторые системы письма, использующие китайские иероглифы, насчитывают более 50 000 идеограмм (минимальный стандартный шрифт для китайской системы ханьцзы и японской системы кандзи содержит около 7 000 идеограмм). Цифровое представление таких шрифтов может быть осуществлено тремя способами. Один из них заключается в разработке фонетического набора символов; китайский пиньинь, корейский хангыль и японская фонетическая схема хирагана имеют алфавитные наборы, близкие по количеству к латинскому алфавиту. Поскольку фонетические алфавиты в восточных культурах еще не получили широкого распространения, их можно преобразовать в идеографические с помощью словарного поиска. Второй метод — разложение идеограмм на небольшое количество элементарных знаков, называемых штрихами, сумма которых составляет нефонетический алфавит, ориентированный на форму. Третий подход заключается в использовании более восьми бит для кодирования большого количества идеограмм; например, два байта могут уникально представлять более 65 000 идеограмм. Поскольку восьмибитный код ASCII недостаточен для ряда систем письма, либо потому, что они не являются алфавитными, либо потому, что их фонетические шрифты содержат большое количество диакритических знаков, компьютерная индустрия в 1991 году начала разрабатывать новый международный стандарт кодирования, основанный на 16 битах.