Главная > Математика > Наука и теория информации
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

4. Информация и алфавит

Большая часть используемой нами информации сообщается посредством языка. В устной речи элементарными символами являются основные звуки (называемые часто фонемами), а в письменной речи слова составлены из букв. Рассмотрим письменное предложение и подсчитаем количество информации, содержащейся в этом предложении. Эта сложная задача имеет большое практическое значение; она была подробно обсуждена К. Шенноном) и многими другими. Как мы увидим, полное и строгое решение задачи до сих пор неизвестно из-за отсутствия полных статистических данных о языке.

Мы можем рассматривать буквы как символы, которые необходимо выбирать для построения предложения. Полный алфавит содержит 27 символов: 26 букв плюс промежуток между словами. Если эти 27 символов равновероятны априори, то мы можем сказать, что информация, содержащаяся в предложении из G букв, составляет:

или

на букву.

Это соответствует прямому применению формулы (1.7). Однако полученное таким образом решение неудовлетворительно, так как различные буквы встречаются в языке с неодинаковыми априорными вероятностями (таблица 1.1).

Пусть — априорная вероятность буквы как указано в таблице 1.1. Средняя информация

Таблица 1.1. Вероятность появления р и значения для букв английского языка

на одну букву, согласно Шеннону, запишется как

Обсудим применимость этой формулы.

<< Предыдущий параграф Следующий параграф >>
Оглавление