Perversigas! La lingvo de perforto gramatiko

 О том, кто будет изучать толстых котиков и где кончается море лингвистов  31 мая, 13:55

Мария Тищенко
журналист
были упомянуты
подходящие темы
Perversigas! La lingvo de perforto gramatiko
Фотографии Марии Тищенко и Василия Ва́гина

Корреспондент Сиб.фм поговорил о популярном направлении в конструировании языков, особенностях артлангов, степени влияния на естественный язык и о формировании интернет-корпуса русского языка с доцентом Института лингвистики РГГУ Александром Пиперски, который приезжал в Новосибирск в рамках просветительского проекта сети Информационных центров по атомной энергии (ИЦАЭ) «Энергия науки».

Мода в конструировании языков

Я читала, что вас порой раздражают письма от людей, придумывающих свои языки. По-прежнему часто пишут?

Практически каждый день. Недавно мне прислали такой вопрос:

«Я придумал язык: что мне нужно сделать, чтобы он стал официальным языком ООН?»

Мне пришлось ответить, что я не знаю и помочь ничем не могу. Вполне понятные стремления — популяризировать свой язык, просто не у всех это хорошо выходит. Те языки, которые мы знаем — это результат успешной раскрутки во многих областях. А большинство искусственных языков остаются в зачаточном состоянии, в столе у автора.


Чтобы перевести заголовок, редакция Сиб.фм воспользовалась этим переводчиком

Сейчас любой может опубликовать что-то своё в интернете, больше всё становится на виду, но если мы имеем много разных проектов, они становятся менее доступными. Появляется одна книжка в год про искусственные языки — одно дело, а если каждый на своей странице может опубликовать проект языка, быстро теряешься и не можешь за всем этим следить. Нужно, в общем, уметь раскручивать свои языки, но ни одного рецепта дать нельзя.

Об успешных проектах нам история говорит, а сейчас, на ваш взгляд, такое может повториться или уже смысла нет?

Смотря что должно повторяться. Идея международного языка немного отошла на задний план, она была популярна в конце XIX века. Сейчас сфера конструирования языков переместилась в сферу артлангов — искусственных языков художественных произведений. Часто выходят сериалы, у которых есть свои искусственные языки. Например, Дэвид Петерсон, создатель языка для «Игры престолов», занимается профессионально изобретением языков для Голливуда. Это показатель востребованности.

С годами всё менялось: в раннее Новое время люди старались создать философские языки, чтобы улучшить наше восприятие действительности, потом стали стремиться к созданию языков для международного общения, сейчас создают языки литературы и кино.

Можно сказать, что цели мельчают, а может, просто становятся другими. Вопрос моды, наверное.

Неизвестно, что будет дальше: может, все будут осваивать электронные языки для общения с компьютером. Это ведь уже происходит: любой школьник изучает какой-нибудь язык программирования. Такие языки не предназначены для общения людей между собой, поэтому их часто не включают в список искусственных языков, хотя почему бы и нет. Может, это будет модно через сто лет.

Лингвисты обычно изучают языки, которые предназначены для общения людей между собой, в крайнем случае — для общения людей и человекоподобных существ. А язык программирования — не совсем то. Хотя это интересный случай, потому что люди общаются каким-то образом между собой с его помощью. Когда разрабатывается какой-нибудь большой проект, то они читают код друг друга, исправляют и так далее. Меня часто спрашивают, почему в книжке нет главы про языки программирования. Просто потому что в какой-то момент пришлось остановиться. Под понятие искусственного языка можно многое подогнать, например, системы кодирования, шрифт Брайля.

10 лет работал варшавский окулист Лазарь Заменгоф над созданием языка эсперанто

Гендерное равноправие в языке

А вторая часть книги «Конструирование языков: от эсперанто до дотракийского» будет?

У нас с издательством есть план сделать второе издание: немного расширить — добавить несколько языков, но радикально меняться в ближайшее время книжка не будет. Мне уже сообщили про некоторое количество опечаток: часть из них исправили в процессе, часть будет исправлена во втором издании. Улучшения пока в эту сторону. Я думаю добавить феминистический язык лаадан. Он стремится к гендерному равноправию. Думаю, добавить несколько философских языков или, может, расширить набор языков из художественной литературы. Посмотрим, в общем, как пойдёт.

Лаадан как-то живёт сейчас или так и остался в книге Сюзетт Хейден Элджин?

Есть грамматика, но нет конкретного сообщества пользователей. Весь наш современный язык отчасти напоминает лаадан — в том смысле, что мы постоянно ведём дискуссии про гендерное равноправие. Надо ли называть представительниц какой-нибудь профессии словом мужского рода или отдельным словом.

Эти идеи питают русский и другие языки конструкциями из языка лаадан.

На естественный язык можно влиять до какой-то степени, правда, не очень большой. Люди склонны считать, что если мы возьмём естественный язык, то сможем его реформировать. Скорее всего, это не так. Я не могу сейчас ввести в русский язык новый падеж, но настаивать на том, что можно или нельзя употреблять какое-то слово — могу. И это, возможно, приживётся. То есть контроль может быть только до определённой степени. В лексике довольно легко производить какие-то вмешательства или во всяких внешних языковых аспектах — вроде системы письма.


Первым проектом искусственного международного языка была работа Жана Пирро. В 1868 году он предложил использовать свой язык — универсалглот

Идея про лёгкость реформирования языка часто основана на том, что мы знаем много реформ системы письма, но понятно, что язык сам по себе от этого не меняется. Например, устный русский язык никак не изменился от того, что в 1918 году отменили твёрдый знак в конце слова. Так что естественные языки тоже немного искусственными бывают. Ещё легко на них влиять, когда нет устоявшейся языковой нормы, когда её нужно создавать. В моменты бурления, кипения, становления национальных государств. Есть возможности для выбора и влияния. А так — обычно — нет: если я сейчас скажу, что мы все должны срочно в литературный язык добавлять черты архангельского говора, все улыбнутся и ничего не произойдёт.

Клингонский язык как эзотерическое знание

А с искусственным языком будут происходить такие же изменения, как и с естественными: если его создать, всё равно со временем появятся исключения?

Да, такое мало с какими языками произошло, потому что не вокруг каждого искусственного языка образовалось сообщество. Фактически это эсперанто, до какой-то степени язык сериала Star Trek — клингонский, языки Толкина, в конце XIX века был ещё относительно популярен волапюк. Это, пожалуй, весь список искусственных языков, которые начали жить своей жизнью.

Например, Star Trek уже закончился, а лингвист всё ещё занимается разработкой клингонского языка, насколько оправдано и что это даёт?

Лингвист Марк Окранд говорит, что клингонским свободно не владеет, но есть несколько десятков человек, которые говорят на нём гораздо лучше, чем сам создатель. Есть люди, которые встречаются один раз в год в Америке или в Европе, проводят конференции, разговаривают. Это для фанатов скорее. Star Trek сейчас чуть менее популярен, чем в моём детстве, но узкий круг фанатов есть.

Некоторые люди марки собирают — им это ничего не даёт, но приятно. Так же и тут.


В 2010 году театром Zeebelt на клингонском языке была показана опера в Гааге под названием «’u’», что в переводе с клингонского означает «Вселенная»

Причин, по которым люди решают продолжать это дело, говорить на артлангах много — какая, на ваш взгляд, приоритетнее?

Я думаю, что бывает по-разному. Когда люди становятся последователями искусственных языков, особенно если последние взяты из фильмов или книг, они хотят вписаться в сообщество и почувствовать свою исключительность. Не то чтобы другой никто не знал этих языков, а какая-то малая группа. Это действительно приятно людям. Эзотерическое знание, которое отличает их от других.

При этом артланги чаще всего создаются как калька с естественных языков?

С артлангами история такая: они обычно создаются по двум типам. Первый — подражание естественным языкам: так устроены языки Толкина, например. Действуют примерно те же закономерности, что и в естественных языках: авторы ориентируются на естественные языки, комбинируют черты, и получается смесь. Другой тип артлангов — это такие языки, которые отличаются от естественных какой-нибудь одной чёрточкой, которая рельефно выделяется. Оруэлловский новояз, например, очень связан с политикой. Это некоторым образом заимствовано из естественных языков, но доведено до невероятного уровня в общении. Или языки, в которых все слова настолько не похожи друг на друга, чтобы их нельзя было бы перепутать. В артлангах интересно искать что-то общее или выделять эти отдельные маленькие чёрточки.

Скучные оговорки лингвистов

В естественных языках сейчас лингвисты, как правило, ищут различия, а вам нравится поиск общего?

Да, этим занимается наука — лингвистическая типология. Когда она зарождалась в XIX веке, была идея, что всё разнообразие языков сводимо к некоторому количеству типов, в зависимости от устройства грамматики. Сейчас лингвистика от этого ушла. Примерно так же, как расовая теория себя несколько дискредитировала. Не по политическим причинам, правда, а просто потому что языки не укладываются в прокрустово ложе.

Но мы всё равно смотрим на интересные явления в языках и обнаруживаем, что есть какой-нибудь параметр, который может принимать некоторое ограниченное множество значений в разных языках. Например, есть порядок слов: подлежащее, сказуемое, дополнение. В русском языке мы говорим обычно так. Легко посчитать, что бывает шесть порядков такого рода. В языках мира они распределены очень неравномерно: три из них — там, где подлежащее бывает раньше дополнения, встречаются относительно часто; а там, где дополнение раньше подлежащего, не встречаются почти никогда.

Оказывается, это связано с тем, бывают ли в языке предлоги, которые ставятся до или после — «в доме» или «доме в». Если в языке дополнение идёт после глагола, то это обычно обозначает, что в нём есть предлоги. И наоборот: дополнение перед глаголом — будут послелоги. Вот такая незаметная, казалось бы, ниточка, но почему всё именно так? Это, может, и есть самое интересное, а не просто описание языков.

Мы можем описать семь тысяч земных языков и сказать: «В этом языке вот так, а в этом так».

Но интереснее всего, когда узнаем, что хотя бы одно место в грамматике одного языка соответствует такому же месту в грамматике ещё тысячи языков.

Поэтому, например, когнитивная лингвистика и гипотеза Сепира — Уорфа вам не так близка?

Гипотеза Сепира — Уорфа — это модная и интересная тема. Очень хочется установить связь языка и мышления, но не понятно, получится ли это. И насколько реалистично то, что делается в этой области. Есть небольшие эксперименты, которые что-то там показывают о различии восприятия цветов, например. Но дальше — главный вопрос: насколько можно сказать про человека, что язык влияет на мышление. Лингвисты боятся это утверждать обобщённо, поэтому начинаются неинтересные оговорки, которые для публики скучны.

Действительно, есть модные темы среди лингвистов, в основном лингвисты-одиночки выбирают исследования искусственных языков. Какие у вас были мотивы?

После того, как долго занимаешься нормальной лингвистикой, естественным языком, начинаешь думать, что же бывает за пределами. Например, чем язык отличается от неязыка. Если я займусь искусственными языками, может, увижу там что-то, чего нет в естественном языке, и буду лучше понимать, что бывает в нём, а что нет. Это был основной мотив. И просто любопытство — расширить границы моря, в котором мы плаваем.

Как рыбы, наверное, не знают, что есть за пределами этого моря, так и лингвисты иногда не замечают, где их море кончается.

Какой самый удачный клад вы нашли в этом море и за его пределами?

Искусственные языки в первую очередь помогают понять, что не нужно систематизировать язык. Всё равно не получится: язык — настолько живой организм, с разными аспектами и разными сторонами, что как ни пытайся упорядочить лексику или грамматику — не выйдет. Не надо стараться, чтобы все животные семейства кошачьих начинались на один слог, например. Это — главное наблюдение.

Где нормативна ненормативная лексика


Почему люди считают мат оскорбительным

А как вы относитесь к нарушениям норм в языке? С одной стороны, считается, что в мессенджерах языковая норма нарушается, а с другой — возникает вопрос, что в таких коммуникативных ситуациях считать нормой?

Мне как человеку, как обывателю интересно, что такое языковая норма, как правильно говорить. Но, действительно, не очень понятно, что является нормой, которая отличается в зависимости от коммуникативных ситуаций. Например, в мессенджере я не ставлю точку в конце предложения, нарушаю ли я при этом норму? Неизвестно. Может ту норму, которая записана в справочнике по русской пунктуации, нарушаю, но норму общения в мессенджере как раз нет: по ней не ставится точка.

Если же я её ставлю, то некоторые мои собеседники воспринимают это так, как будто я обижен.

Я, например, начинаю сообщения в мессенджере с заглавной буквы. Это тоже может быть для моих собеседников странным и ненормальным для такого стиля общения.

Норма — это каждый раз говорить так, как уместно в данной коммуникативной ситуации. Есть, например, словосочетание «ненормативная лексика». Что это значит? Что есть слова, которые нельзя употреблять в официальном контексте. Но при общении в компании друзей, если вы не будете употреблять этих слов, на вас могут посмотреть странно. Если это компания подростков, то в ней слова, которые мы считаем бранными, — это и есть норма.

С вами я говорю не так, как с родителями или друзьями за кружкой пива, а употребляю совершенно другие конструкции.

У образованных людей часто есть такая проблема: они плохо умеют переключаться и не владеют нижними регистрами. Но и необразованные люди часто не владеют верхними регистрами: не все могут написать официальный текст. В последнее время это стало хорошо видно. Люди всё время что-то пишут в интернете. Мы читаем и выходим из своей зоны комфорта. Раньше человек мог писать письма друзьям или семье, и этого никто не видел. Сейчас он вынужден писать письма жене, официальные пресс-релизы, составлять договоры, и действительно, часто человек не может переключиться — получается смешно.

Я часто вижу на Facebook очень интеллигентных образованных людей старшего поколения, лет шестидесяти, и удивляюсь, насколько их реплики могут быть неуместными. Они не умеют расставлять знаки препинания в разговорном тексте. А люди помладше хорошо умеют передавать особенности разговорного синтаксиса. Когда ставится запятая после «ну» в начале предложения, а когда нет, например.

Есть вполне образованные люди, которые этим не владеют. И это нормально. Никто не обязан говорить одинаково.

Человек может ставить точку, а может и не ставить — это всё же больше относится к языковой норме или к компоненту интерпретации?

6 миллионов человек — база активных пользователей мессенджера Telegram в России. В Иране — от 35 до 40 миллионов. По данным на конец 2016 года

Норму можно понимать двумя разными способами. Ситуативная норма — то, что нормально в данной ситуации, и прописанная норма — то, что где-то зафиксировано и чему мы обязаны следовать. Не только в языке это работает. Хорошо видно, скажем, на примере каких-то правил поведения в общественных местах. В метро их никто не читает, но это предписывающая норма. При этом все мы понимаем, как надо вести себя в метро, что нужно делать в какой момент, куда повернуть, в какой турникет входить. А человек, который в метро ездить не привык, будет нарушать те нормы, которые нам уже кажутся естественными. Так же и здесь. Другое дело, если нормы не прописаны: каждый раз надо угадывать, что какой собеседник может иметь в виду. Те же самые смайлы.

Пару лет назад я ощутил, что каждое сообщение в чате заканчиваю смайликом.

Я задумался о том, какие фразы у меня без смайликов. Это оказались шутки.

Когда я шучу, смайлики не использую. Это совершенно поразительная логика, но понятная моим собеседникам. Сейчас увлечение смайликами у меня прошло, но всё равно я их ставлю довольно часто. Каждый должен понимать, что у конкретного его собеседника обозначает тот или иной смайлик. Это может быть насмешливая улыбка, знак иронии или что-то ещё.

Как реально пишут живые люди

Лингвисты сейчас исследуют в том числе и язык социальных сетей, «Живого журнала», правда, сбор и отбор информации проводить достаточно сложно. Насколько я знаю, вы занимаетесь созданием генерального интернет-корпуса русского языка, в котором как раз есть такой поиск. На какой стадии сейчас этот проект?

Проект сложно осуществимый, даже технически. Большие объёмы текста, а значит, нужны большие вычислительные мощности.

В Национальном корпусе русского языка (Рускорпора) сейчас есть 280 миллионов словоформ.

При этом современная корпусная лингвистика уже сейчас переходит к корпусам размера 10 миллиардов. Такие вещи технически довольно сложные. К тому же содержание нужно актуализировать постоянно. Но это вполне почтенное занятие уже нескольких десятилетий в корпусной лингвистике.

Есть понятие «мониторинговый корпус» — мы собираем данные о языке в момент их появления, и у нас получается картина изменений, которая постоянно обновляется. Есть хороший корпус новостей для английского языка, обновляющийся каждый день. Мы можем следить, что происходит в течение каждого дня. А с языком у нас всё время что-то происходит. Например, понятно, что частотность имён собственных резко меняется. Эту живую жизнь мы легко можем наблюдать с помощью мониторинговых корпусов.

Национальный корпус русского языка предназначен для более крупномасштабных исследований. Интересно, как русский язык менялся с начала XIX века по наши дни. А если хотим знать, как русский язык изменился за последние три года, то для этого Рускорпора подходит довольно плохо. Национальный корпус русского языка — очень хороший ресурс, я нисколько не хочу его обидеть, но он заменил собою вообще всё в сознании многих лингвистов. Нужны и другие инструменты. И хорошо, что есть социальные сети, блоги, которые сложнее скачивать, зато можно посмотреть, как реально пишут живые люди. Это новый жанр для лингвистов. Раньше мы не сталкивались с таким количеством текста, который вышел из-под пера человека без предварительной подготовки, без редактора, издателя или корректора.

Мы наблюдаем живую стихию.

Как выбирается информация в этой живой стихии?

Самое лучшее — случайная выборка. Если это будет какой-то принцип, мы рискуем потерять значимую часть текста. Была такая вещь как Блоги@Mail.ru — сейчас они закрылись. Мы её выкачивали для интернет-корпуса. Дальше обнаружилось, что из блогов выкачивались сообщения только длиной больше 20 слов. Видимо, кто-то решил, что так будет лучше представлять естественный язык. В результате мы очень многое потеряли. Оказалось, что в блогах язык оказался чуть ли не архаичнее, чем в более традиционных новостных или журнальных источниках. Когда мы установили значение 20 слов и выше, стали брать связные тексты, довольно длинные. Это уже не тот жанр по сравнению с сообщениями типа «Пойдём погуляем». Такую выборку делать нельзя.

Что вы делаете для корпуса?

Корпусом занимается человек 10-15. Это немного, но сильно больше и не нужно, потому что есть какой-то ограниченный набор задач. Есть чисто технические задачи, к которым я имею мало отношения. А есть задачи более концептуальные, которыми занимаются лингвисты. Такая работа — всегда совместный труд программистов и лингвистов. Если нет кого-то одного — получается нехорошо. Лингвисту нужно понимать, что мы собираем, зачем и прочие технические детали, которые без него не решаются. Скажем, нужна ли нам информация про пол автора или этим можно пренебречь. Это решается в процессе создания корпуса.

Как кодировать стикеры

Какие перспективы есть у корпусов?

Готовые корпуса не являются панацеей: лингвисту часто нужно исследовать что-нибудь, для чего корпусов нет. Это нормальная ситуация. Мы с коллегой Антоном Соминым делали исследование про зачёркивание в блогах: оказалось, что никакой готовый корпус для этого не подходит — всюду эта разметка теряется, даже если была. Нам пришлось написать скрипт, который выкачивал случайные посты из ЖЖ, а потом из этого мы собирали материал. Поэтому готовые корпуса не всегда могут помочь, но, с другой стороны, полезно, чтобы их было много.

Надо понимать, что все корпуса разные и предназначены для разных задач.

18 подкорпусов входит в состав Национального корпуса русского языка

Для английского языка существует много разных корпусов. Кажется, что англоязычное лингвистическое сообщество немного лучше отдаёт себе отчёт в том, что для разных целей нужны разные инструменты. Английский более полицентричен, чем русский. Ясно, что если корпус создаётся в Великобритании, то американцам обидно, что у них этого нет, поэтому они создают что-то аналогичное, но немного другое. В русском не так: у него есть ощущение моноцентричности. Он является государственным языком в Беларуси, но их лингвистам и в голову не приходит создать отдельный корпус русского языка, который был бы призван конкурировать с нашим аналогичным корпусом. Может, такое существует, но это узкие исследовательские проекты, которые не выходят в широкую аудиторию.

А разнообразие — это хорошо. Хотя для русского языка корпусы создавались не только в России, первый из них появился в Швеции в начале 90-х.

Корпуса будут постоянно пополняться?

Надо понимать, что корпусная лингвистика находится немного на предыдущем уровне развития в отношении новых коммуникативных технологий. Есть смайлики, стикеры, эмодзи. Люди ими переписываются. Нормального корпуса, который включал бы в себя это всё, я не знаю. Тут интересная штука, например, как кодировать стикеры. Как унифицировать запись стикеров, которые меняются практически ежедневно. Это большой массив информации. Отчасти это даже мало кому интересно. Кто будет изучать толстых котиков, которые люди шлют друг другу. Но как-то это придётся делать всё равно. Корпусная лингвистика должна стремиться за развитием языка, но немножко отстаёт.

По материалам генерального интернет-корпуса русского языка вы делаете статьи?

Есть несколько работ с исследованием региональной вариативности. Это то, отчасти ради чего корпус создавался. В процессе обнаруживается много интересных вещей.

Например, где на самом деле употребляется слово «поребрик». Кажется, что это петербуржское слово, но оно есть и в Екатеринбурге, и в Новосибирске.

Такие вещи хорошо исследовать, потому что классическая лингвистика мало занимается социолингвистической вариативностью.

Какой темой вы занимаетесь сейчас?

Изучением того, как оценивать близость между корпусами текста. Если мы возьмём три текста, можем ли сказать, что текст «А» ближе к тексту «Б», чем к тексту «С»? Если да, то какие корпусно-лингвистические методы позволяют это сделать. Я изучаю, как по частотному списку сказать, что ближе к чему. Получается достаточно интересно. Проводил эксперимент: брал много поэтических текстов за всю историю русской поэзии с начала XVIII века, загонял в программу, строил частотные словари, оценивал расстояние и визуализировал. Получается история русской литературы. Это помогает понять, например, что Мандельштам больше похож на Цветаеву, чем на Пастернака. Можно получить такую визуализацию, а дальше уже с ней будут работать другие исследователи, например литературоведы.

ВКонтакте
G+
OK
 
самое популярное
присоединяйтесь!