Главная > Математика > Наука и теория информации
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

10. Проблемы статистики слов

Результаты пп. 3, 4, 7 и 8 были применены Мандельбротом к проблеме статистики слов, обсуждавшейся в предыдущей главе с эмпирической точки зрения. Какова роль слова в языке? Значение слова можно найти в словаре. Оно представляет собой вид сообщения. Это сообщение кодируется при помощи букв при письме. Оно кодируется при помощи фонем в речи. Каким образом слово кодируется в нашем мозгу? Это, конечно, открытый вопрос, но мы можем предположить некоторого рода кодирование, основанное на элементарных символах или сигналах, каждый из которых характеризуется определенной ценой. Это предположение позволяет нам воспользоваться предыдущим анализом, в котором нужно просто заменить длительность — ценой. Предположим далее, что код практически согласован с частотой слов, т. е. с вероятностями их применения в языке. Эти предположения были приняты Мандельбротом в его исследовании.

Пусть — основные символы или сигналы кода, — их относительные цены. Число слов ценой t выражено формулой (4.15), а если кодирование устойчиво, мы можем воспользоваться упрощенным выражением (4.18). Число слов ценой меньше t или равной t выражается величиной , определяемой по формуле (4.22), которая для устойчивого кода принимает упрощенный вид

Расположим теперь все слова словаря в порядке возрастания цены t. будет означать порядковый номер слова в этом списке. В среднем соотношение между ценой t и номером выражается как

Рассмотрим теперь частоту (или вероятность) слова. Между ценой и вероятностью могло бы и не существовать никакой связи, однако мы предположим, что вероятность слова и его цена надлежащим образом согласованы. Это означает, что редкие слова имеют длинное дорогостоящее кодовое обозначение, а наиболее употребительные слова — короткое и экономное кодовое обозначение.

Проблема согласования была обсуждена в пп. 8 и 9; было выяснено, как следует выбрать наилучшим образом вероятности символов, имеющих различные цены Результат выражается формулой:

Применим теперь сходные рассуждения не к символам или буквам, а к словам. Слово за номером имеет цену причем обе величины связаны соотношениями (4.23) и (4.24). Наше новое условие хорошего согласования состоит в том, чтобы вероятность слова была связана с его ценой общим условием (4.61), содержащим новую произвольную постоянную . Сопоставляя эти формулы, мы можем исключить цену и связать порядковый номер

слова непосредственно с его вероятностью

откуда

где Понятие о кодировании слов в мозгу и о цене кодовых обозначений потребовалось для вывода соотношений (4.23) и (4.24), но мы постарались исключить неизвестные цены, предположив надлежащее согласование.

Формула (4.70) выражает закон, предложенный Мандельбротом. Он включает, как частный случай, закон, высказанный Ципфом:

Еще одной важной величиной является полное число слов в словаре. Если мы применяем словарь из R слов, то

а сумма вероятностей должна равняться единице:

Это равенство определяет Р. Если Р задано (Ципф принимает ), то оно определяет общее число применяемых слов. Именно таким образом Шеннон нашел, следуя Ципфу, число слов в словаре, равное 8727. Для большинства языков хотя у может в исключительных случаях достигать 1,6, как, например, в детской речи.

Рис. 4.1. Сравнение распределения частоты слова в функции порядкового номера по Мандельброту с данными Ципфа.

Мандельброт в двух ранее указанных статьях привел много примеров, а также рассмотрел некоторые другие свойства языков. На рис. 4.1 представлены для сравнения законы, предложенные Ципфом и Мандельбротом. На рис. 4.2 даны некоторые экспериментальные кривые, построенные Ципфом.

Рис. 4.2. Экспериментальные кривые частоты слова в Зависимости от порядкового номера. Кривые А. В, С и D — для норвежского языка, кривая N — для немецкого языка.

<< Предыдущий параграф Следующий параграф >>
Оглавление