А. В. Архипов
ДОКУМЕНТИРОВАНИЕ МАЛЫХ ЯЗЫКОВ: НАУЧНЫЕ И ТЕХНИЧЕСКИЕ АСПЕКТЫ
(Языковое разнообразие в киберпространстве: российский и зарубежный опыт. - М., 2008. - С. 76-83)
1. Задачи документирования языков
2. Из чего складывается языковая документация
Целью документирования, в идеале, является создание всеобъемлющего корпуса первичных данных, который полностью удовлетворит последующие поколения пользователей, какой бы аспект языка они ни захотели исследовать. (Естественно, на практике любой проект имеет свои ограничения.) Следовательно, должны учитываться любые разновидности языка - местные (диалекты, говоры), социальные, жанровые и пр.3. Документирование языков и информационные технологии
Из сказанного выше вытекает ряд технологических требований к конечному продукту документирования - корпусу собранных материалов. Так, оптимальный корпус языковой документации должен иметь большой объем (к тому же, быть открытым для пополнения) и содержать как текстовые, так и мультимедийные данные. Очень важно обеспечить высокое качество исходных записей, которое позволит, например, проводить спектральный анализ звука или изучать артикуляцию по видеозаписи.3.1. Хранение данных
Если хранение больших объемов текстов не представляет особых проблем, то при работе со звуком и, в особенности, с видеофайлами нужно располагать значительным свободным пространством на дисках. Учитывая современные стандарты качества, следует предусмотреть около 600 мегабайт на каждый час стереозаписи, или около 300 Мб на час монозаписи [2]. Что касается видео, то здесь объемы на порядок выше - десятиминутный фильм, записанный на цифровую камеру стандарта MiniDV, займет около 2,2 Гб на жестком диске. Для хранения, скажем, 30 часов записи в таком формате понадобится диск объемом не менее 400 Гб, что на порядок больше, чем у среднестатистического офисного компьютера. Для больших архивов проблема нехватки места встает еще более остро, и чаще всего они (как, например, архив программы DoBeS) принимают на хранение файлы в сжатых форматах MPEG-2 или MPEG-4. Но даже такие объемы данных трудно передавать пользователям через Интернет; один из выходов состоит в том, чтобы иметь копии видеоматериалов разного качества для хранения и для демонстрации.3.2. Доступ к данным
Материалы должны быть доступны самому широкому кругу пользователей, что в наше время означает в первую очередь их выдачу в электронной форме через Интернет. С другой стороны, для разных групп пользователей необходимо предусмотреть разные формы представления - более простые в управлении и облегченные по содержанию для неспециалистов, для носителей языка; более сложные и подробные для лингвистов и других специалистов. Кроме того, для разных пользователей могут быть предусмотрены разные права доступа.3.3. Метаданные
Метаданные - это вспомогательные «данные о данных», облегчающие хранение и поиск материалов. Это важное понятие в отечественной практике до сих пор почти не применяется. Различают метаданные нескольких типов, в том числе классификационные (заглавие текста, участники разговора, автор записи, время и место записи, название или код языка…); описательные (касающиеся содержания записи); структурные (описывающие внутреннюю структуру документа - например, двуязычный словарь); технические (формат файла, размер файла, кодировка символов…); административные (дата последнего изменения, сведения об авторских правах, ограничения на доступ и распространение…).4. Опыт Московского университета по документированию малых языков
Два года назад на филологическом факультете МГУ им. М. В. Ломоносова отмечался 45-летний юбилей ОТиПЛа - отделения теоретической и прикладной лингвистики [3]. В свое время отделение стало колыбелью московских лингвистических экспедиций. Заведующий кафедрой ТиПЛ, член-корреспондент РАН Александр Евгеньевич Кибрик занимается изучением малых языков России (СССР) с 1967 года. За это время под его руководством прошло более 40 экспедиций в языки Дагестана, Азербайджана, Грузии, Абхазии, Тувы, Камчатки, Памира, Поволжья. В настоящее время многие ученики А. Е. Кибрика как на ОТиПЛе, так и в других научных центрах проводят собственные экспедиции. А. Е. Кибрик также заведует недавно созданным отделом лингвокультурной экологии Института мировой культуры (ИМК) МГУ [4], чьей задачей является изучение и сохранение наследия малых языков.4.1. Разработка стандартов для представления текстов
Начиная с 2005 года, группа сотрудников ОТиПЛа и ИМК МГУ применяет накопленный за долгие годы опыт работы с языком «в поле» в новых проектах по документированию [5]. Трехлетний проект РФФИ «Малые языки и народы: существование на грани», под руководством директора ИМК МГУ, академика Вячеслава Всеволодовича Иванова, уже подходит к завершению. В рамках проекта вырабатываются стандарты записи и комплексной репрезентации текстов на бесписьменных языках.4.2. Пять языков Евразии
Четырехлетний международный проект NSF «Пять языков Евразии» начался в мае 2006 года. Руководитель - Александр Нахимовский, профессор Колгейтского университета (США). Проект объединяет усилия лингвистов из Москвы и Петербурга. Американская сторона помимо финансирования полевых исследований обеспечивает техническую поддержку (разработка специального программного обеспечения). Первоначально планировалось документирование четырех языков России и одного языка в Азербайджане. Дополнительный грант NSF в 2007 году дал возможность включить в исследование еще один язык.4.3. Проблемы
Самая острая проблема, с которой приходится сталкиваться, помимо финансовой, - нехватка временных и человеческих ресурсов. Языков, ждущих своего исследователя, много, а квалифицированных специалистов, к тому же способных отдать львиную долю своего времени такой работе, очень мало. Необходимо не только дорогостоящее оборудование - нужны программисты, инженеры по звуку и видео, нужны люди, которые смогут заниматься ведением архивов, и все это очень трудоемкая деятельность. Поэтому так важно, так жизненно необходимо обучать лингвистов (не только начинающих, но и вполне зрелых) хотя бы основам современных технологий обработки информации, чтобы они могли максимально обеспечивать себя сами.5. Фонды, финансирующие документирование малых языков
В России финансовую поддержку лингвистических экспедиций и проектов по документированию осуществляют два государственных фонда: РГНФ - Российский гуманитарный научный фонд (www.rfh.ru) и РФФИ - Российский фонд фундаментальных исследований (www.rfbr.ru).Примечания
1. Англ. language documentation, или linguistic documentation. Используя термин «документирование», мы пытаемся подчеркнуть, что речь идет о деятельности, протяженной во времени, тогда как «документация» ассоциируется скорее с материалами, полученными в результате такой деятельности.
2. При записи с параметрами 44 кГц/16 бит («качество компакт-диска»).
3. http://www.philol.msu.ru/~otipl/new/main/index.php
4. http://www.imk.msu.ru/Structure/Linguistics/linguistics.html
5. http://www.philol.msu.ru/~languedoc/
6. http://www.mpi.nl/DOBES/dobesprogramme/
7. http://www.volkswagenstiftung.de/index.php?id=3&L=1
9. HRELP (Hans Rausing Endangered Languages Project) http://www.hrelp.org/
10. SOAS (School of Oriental and African Studies), http://www.soas.ac.uk/
11. http://www.hrelp.org/grants/apply/information/russian/index.html
12. http://www.nsf.gov/funding/pgm_summ.jsp?pims_id=12816
13. http://www.nsf.gov/index.jsp
Литература
1. Gippert J., Himmelmann N. P., Mosel U. (eds.). Essentials of Language Documentation. // (Trends in Linguistics. Studies and Monographs; 178) - Berlin, New York: Mouton de Gruyter, 2006.
2. Малые языки и традиции: существование на грани. Вып. 1. Лингвистические проблемы сохранения и документации малых языков под ред. А. Е. Кибрика. М.: Новое издательство, 2005.
3. Кибрик А. Е., Архипов А. В., Даниэль М. А., Кодзасов С. В., Майерс Т., Нахимовский А. Д. Технологии обработки языковых данных в документировании малых языков // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2007» (Бекасово, 30 мая - 3 июня 2007 г.) - М.: Изд-во РГГУ, 2007, с. 231-235.
Источник текста - сайт "Единое окно доступа к образовательным ресурсам".