Новое исследование показывает, что грамматика разных языков немного похожа | |
Недавний статистический анализ показывает, что пунктуация — это не просто необходимое зло в языке, а универсальное дополнение к его математическому совершенству.
Роль пунктуации в литературе может показаться тривиальной, но ее статистические особенности далеко не несущественны, согласно исследованию Института ядерной физики Польской академии наук. На самом деле ее особенности совсем не тривиальны и, кажется, "вырастают" из основ, общих для всех (исследуемых) языков, пишет Phys.org. Роль простых запятых, восклицательных знаков или точек может показаться несущественной, но одни и те же статистические особенности моделей использования пунктуации наблюдались в нескольких сотнях произведений, написанных на семи, в основном западных, языках.
В исследовании участвовали два набора текстов. Первый набор состоял из 240 популярных литературных произведений, написанных на английском (44), немецком (34), французском (32), итальянском (32), испанском (32), польском (34) и русском (32) языках. Выбор языков был основан на критерии: исследователи предполагали, что на данном языке должно говорить не менее 50 миллионов человек, а произведения, написанные на нем, должны были быть удостоены не менее пяти Нобелевских премий по литературе. Каждая книга из набора должна была содержать не менее 1 500 последовательностей слов, разделенных знаками препинания, чтобы обеспечить статистическую достоверность результатов исследования. Второй набор текстов был подготовлен для наблюдения за устойчивостью пунктуации при переводе. Он содержал 14 произведений, каждое из которых было доступно на каждом из исследуемых языков (два из 98 языковых вариантов, однако, были опущены из-за их недоступности). В общей сложности среди авторов обоих сборников были такие литературные гиганты, как Конрад, Диккенс, Дойл, Хемингуэй, Киплинг, Оруэлл, Сэлинджер, Вульф, Грасс, Кафка, Манн, Ницше, Гете, Ла Файет, Дюма, Гюго, Пруст, Верн, Эко, Сервантес, Сенкевич и другие. Внимание краковских исследователей в первую очередь привлекло статистическое распределение расстояния между последовательными знаками препинания. Вскоре выяснилось, что во всех изученных языках оно лучше всего описывается одним из точно определенных вариантов распределения Вейбулла. Кривая такого типа имеет характерную форму: сначала она быстро растет, а затем, достигнув максимального значения, несколько медленнее убывает до определенного критического значения, ниже которого она достигает нуля с небольшой и постоянно убывающей динамикой. Распределение Вейбулла обычно используется для описания явлений выживания (например, численность населения как функция возраста), а также различных физических процессов, таких как нарастающая усталость материалов. "Совпадение распределения длин последовательностей слов между знаками препинания с функциональной формой распределения Вейбулла было тем лучше, чем больше типов знаков препинания мы включали в анализ; для всех знаков совпадение оказалось почти полным. В то же время, некоторые различия в распределениях между разными языками очевидны, но они сводятся лишь к выбору несколько иных значений параметров распределения, характерных для конкретного языка. Таким образом, пунктуация представляется неотъемлемой частью всех изученных языков", — отмечает профессор Дроз. |
|
24.04.2023 в 14:08 |
Комментариев нет. | |