экспериментальная проверка некоторых вероятностных процессов

Большое значение вопросам применения математических методов в лингвистике придавал известный русский математик А. А. Марков. Лингвистические исследования он использовал для экспериментальной проверки некоторых вероятностных процессов, которые по его имени названы «марковскими процессами». Результаты этих исследований А. А. Марков приводит в книге «Исчисление вероятностей». Он изучал чередование гласных и согласных букв в русском языке, для чего проанализировал последовательность из 20 000 букв в поэме А. С. Пушкина «Евгений Онегин». Он также исследовал последовательность из 100 000 букв в книге С. Т. Аксакова «Детские годы Багрова-внука».

На базе этого статистического материала Марков оценивал вероятность того, что взятая наугад буква из русского текста будет гласной. Эта вероятность существенно связана с тем, гласной или согласной была предшествующая буква. Для романа «Евгений Онегин» статистически было вычислено, что вероятность появления гласной после гласной равна 0,128, гласной после согласной — 0,663.

Эта мысль А. А. Маркова является ключом к пониманию идей математической лингвистики. В самом деле, задача состоит не в том, чтобы вычислить какие-то вероятностные характеристики и представить их в качестве критериев творчества, а в том, чтобы определить, действительно ли то или иное значение является характерным для данного писателя или лишь отражает неизбежные колебания вокруг некоторых средних величин, подчиняясь общим законам языка.

Применение статистических методов в лингвистике получило особенно широкое распространение в трудах советских ученых в последнее время. Так, в 1963 г. Н. Д. Андреев и Л. Р. Зиндер вводят в научный обиход понятие Речевой вероятности. В работе «Статистико-комбинаторные методы в теоретическом и прикладном языкознании» Н. Д. Андреев следующим образом поясняет этот термин. Он утверждает, что если взять из лото 32 бочонка, расклеить на них русский алфавит и перемешать, то вероятность того, что первый же вынутый бочонок окажется с буквой, изображающей гласную, будет определена дробью 6:32, т. е. будет несколько менее 19%. Если же взять произвольный русский текст и выбрать из него наугад одну букву, го вероятность того, что она окажется гласной, будет приближенно равна 30%, колеблясь вверх и вниз от этой величины в зависимости от типа текста.

Частоты появления тех или иных букв могут быть приняты за приближенные значения вероятностей. Приведенная таблица частот находит широкое применение на практике. Так, например, знание частоты появления каждой буквы позволяет разрабатывать оптимальные коды передачи речевых текстов.

Вероятностные исследования, какими бы абстрактными и удаленными от реальной жизни они ни казались, всегда нацелены на практику, на возможность практических применений. В этом смысле убедительные доказательства дает математическая лингвистика. Получение статистических характеристик речи необходимо для целого ряда отраслей науки и техники. Здесь в первую очередь следует назвать технику телефонной связи.

Общей задачей телефонии является передача речевых сигналов на расстояние. Однако абсолютно точное воспроизведение всех звуков при телефонном разговоре не является необходимым. Чтобы сделать передачу экономичней, нужно заведомо жертвовать некоторыми сведениями, содержащимися в речевом сигнале, которые не так важны по сравнению с другими. Статистические методы в лингвистике позволяют оценить, какие показатели речи являются наиболее важными, а какие не играют столь существенной роли. Это связано с вопросами компрессии речевых сигналов. Исключая из передачи маловероятные величины, можно значительно сузить требующуюся ширину канала связи. Дальнейшее является делом телефонной техники.

Добавить комментарий