Главная > Математика > Наука и теория информации
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

3. Избыточность в языке

Применяя наше определение, например, к английскому языку, мы хотим получить точное значение средней информации на букву. Это значение выражается как предел

При возрастании N учитывается большее количество ограничений, так что информация убывает. Последовательность должна, таким образом, монотонно убывать, и ее предельное значение и есть действительная средняя информация на букву.

Вероятности отдельных букв, так же как двух- и трехбуквенных сочетаний, для английского языка были определены, но для сочетаний большего числа букв существующие данные недостаточны. Имеющиеся данные сведены в таблице, в которой F означают информацию, выраженную в двоичных единицах на букву:

1. Все буквы равновероятны (27 букв, включая интервал) .

2. С учетом вероятностей отдельных букв .

3. С учетом данных о двухбуквенных сочетаниях .

4. С учетом данных о трехбуквенных сочетаниях .

Избыточность выражается через F следующим образом:

Однако неизвестно, так как имеется очень мало Сведений о сочетаниях более чем из трех букв. Для оценки

значения мы можем привлечь другого рода статистику, а именно, частоту слов. Таблицы частоты слов были составлены как для целей кодирования, так и для эффективного обучения языку.

Частота слова характеризуется его порядковым номером в списке, составленном в порядке частоты появления.

Рис. 3.1. График (в логарифмическом масштабе по обеим осям) частоты слов в зависимости от порядкового номера для первых 8727 слов.

На рис. 3.1 логарифм частоты построен в зависимости от логарифма порядкового номера, начиная с the и кончая словом за № 8727 для того, чтобы сумма частот равнялась единице. Как видим, график представляет практически прямую линию (в двойном логарифмическом масштабе) и может быть хорошо аппроксимирован формулой

Применяя это выражение, находим, что

Далее, если считать, что среднее английское слово (включая интервал между словами) содержит 5,5 буквы, то получаем предельное значение . Эта величина не та же, что , так как имеются еще дополнительные ограничения, обусловленные связями между последовательными словами.

<< Предыдущий параграф Следующий параграф >>
Оглавление