Сводеш - К вопросу о повышении точности в лексикостатистическом датировании

Следите за нашими новостями!

Philology.ru - Русский филологический портал

М. Сводеш

К ВОПРОСУ О ПОВЫШЕНИИ ТОЧНОСТИ В ЛЕКСИКОСТАТИСТИЧЕСКОМ ДАТИРОВАНИИ [1]

(Новое в лингвистике. - Вып. 1. - М., 1960. - С. 53-87)

1. В течение нескольких последних лет мы были свидетелями целого ряда сравнительно удачных экспериментов, произведенных учеными для определения количества истекшего времени методом подсчета родственных слов в опытных словарях. Развитие этого метода представляет большую ценность для восстановления фактов предыстории, поскольку он позволяет установить датирование доисторических этнических контактов, выявленных языковым родством.

Используя исторические данные о расселении народов, этот метод позволяет установить их доисторическое местоположение и пути миграций в определенные периоды времени в прошлом. Эти данные могут быть соотнесены с показаниями археологии, сравнительной этнографии, географии заимствованных слов, с фактами географического распространения фонетических и морфологических особенностей и со многими свидетельствами иного порядка. Такое сравнение часто дает нам ключ к правильному соотнесению мест археологических данных с исторически известными народами.

В пределах языкознания как такового лексикостатистика освещает не изученную до сих пор тенденцию словаря изменяться с постоянной скоростью. Поскольку исследования в области лексикостатистики до сих пор касались только сведений о количестве истекшего времени и в ней намеренно рассматривались только те лексические единицы, которые меньше всего подвержены культурным влияниям, естественно, что оказалась изученной только небольшая часть всех языковых явлений. Желательно, чтобы в конечном итоге была исследована скорость изменения различных типов и уровней менее устойчивой части словаря и чтобы была создана законченная теория относительно тех факторов, которые оказывают влияние на скорость изменения словаря.

Несмотря на многообещающую роль, которую, казалось бы, лексикостатистический метод мог сыграть в качестве дополнительного инструмента исследования доистории, несмотря на то, что лексикостатистика могла бы явиться ключом к более углубленному пониманию языка как общественного явления, она до сих пор отставала. То, что было нами обозначено «константой», но могло бы точнее быть названо «индексом» сохраняемости лексики, основывается лишь на частичном изучении тринадцати контрольных языков. В этой области наиболее ценный вклад был первоначально внесен Р. Б. Лизом, который работал совместно с автором настоящей статьи, а также использовал в своих исследованиях данные, полученные некоторыми другими учеными. Различные эксперименты по применению лексикостатистики к изучению доистории и ряд исследований, в которых делалась попытка подтвердить пригодность индекса сохраняемости и проверить действие специфических факторов, — все это способствовало лучшему пониманию как методологии лексикостатистики, так и теории, на которой она основана.

Однако, несмотря на это, все же ощущается необходимость всесторонних контрольных исследований, куда должны быть по возможности включены не менее ста исторически засвидетельствованных случаев.

Если бы существовала гарантия того, что в ближайшие годы будут проведены и успешно завершены исследования, посвященные основным, ведущим проблемам, то лучше было бы избегать мелких, частных исследований и даже временно прекратить рассмотрение вопросов, связанных с доисторией. Однако, поскольку сейчас не существует подобной перспективы, стоит продолжать экспериментировать, в надежде на то, что постепенно накапливаемые знания в конечном итоге усовершенствуют практику и теорию лексикостатистики.

Настоящая работа, в которой автор только касается всех этих вопросов, ставит перед собой очень скромную задачу. Автор не разбирает ни одного ноеого контрольного языка и даже по методологическим соображениям опускает некоторые из приводимых Лизом данных.

Автор настоящей статьи пытается продолжить анализ прежних списков слов и использовать критические замечания и пожелания, которые исходят от его коллег и появляются в печати, а также высказываются в обсуждениях к в личной переписке.

Основная ценность этой работы, возможно, состоит в исследовании имеющихся в нашем распоряжений средств для тщательного усовершенствования лексикостатистического метода.

2. В методике лексикостатистического датирования используется твердо установленный список опытных элементов. Они выражаются в словах какого-либо взятого за основу языка, например английского, испанского или какого-либо другого, причем в список должно включаться такое значение используемого элемента, которое абсолютно не связано с семантическими особенностями данного языка. Например, tongue «язык» относится к словам, обозначающим части тела, а не к словам, обозначающим язык как средство общения (language), и не к словам, обозначающим части телеги. Для каждого элемента списка в языке, на который переводится данный список, должен быть подобран простой, общеупотребительный эквивалент. К примеру, если бы мы стали сравнивать английский с французским и испанским, мы должны были бы выбрать langue в первом случае и lengua во втором в качестве эквивалента к английскому tongue; к английскому head «голова» эквивалентами явились бы соответственно франц. tete и исп. cabeza. Обычно выбирается один, выраженный только одним словом эквивалент для каждого используемого элемента; элементы, состоящие более чем из одного слова, включаются в список только в тех случаях, когда нет никакой возможности найти соответствие среди простых слов данного языка.

Списки слов двух сравниваемых языков сопоставляют друг с другом, а затем производят подсчет родственных и неродственных элементов. Французско-испанское соответствие langue — lengua засчитывается как плюс, a tete - cabeza — как минус. Подсчитывается количество родственных слов и находится процент родственных слов от общего числа родственных и неродственных пар. Общее число родственных слов обычно равняется числу элементов в опытном списке, за исключением тех случаев, когда не может быть подобран эквивалент в соответствующем языке или если, например, в силу неразработанности некоторых вопросов в области звуковых соответствий мы не можем установить родство элементов.

Наиболее общее уравнение, по которому мы можем вычислить время, исходя из процента родственных слов, таково:

t₁ + t₂ = log C : log r,

где t₁ и t₂ относятся к двум различным языкам или диалектам, которые развились из первоначально единого языка. В этом уравнении t₁ — время, выраженное в тысячелетиях (или еще в какой-либо удобной единице времени), которые отделяют один из языков от периода их совместного существования в одном языке, a t₂ — время самостоятельного существования второго языка; С — процент родственных элементов, найденный при сравнении двух опытных списков, а r — индекс сохраняемости, т. е. установленный контрольным исследованием предполагаемый процент лексических единиц, сохранившихся в языках по истечении каждой единицы времени.

Если речь идет об одной линии развития, т. е. если сравниваются две различные ступени одного и того же языка, то одна из ступеней может совпадать с периодом совместного существования; при этом t₁ будет равно нулю, и, таким образом, 0 + t₂ = log C : log r, или t₂ = log C : log r.

Наиболее простым является отношение между процентом родственных слов и количеством истекшего времени в условиях полной или несокращенной дивергенции, т. е. когда не существует контактов между двумя разошедшимися диалектами, которые могли бы помешать один другому развиваться своим собственным путем.

При наличии контакта дивергенция будет протекать медленней. Чтобы сделать поправку на это, мы можем обозначить дивергенцию как st — (средняя) степень расхождения языков, умноженная на время; в исправленном виде формула будет выглядеть следующим образом:

t = log C : s log r²,

отсюда

min t = log C : log r².

В первом варианте s представляет собой число, которое никогда не превышает 1 и равно 1 только в случае полной дивергенции; во всех остальных случаях s представляет собой дробь, обратно пропорциональную степени, в которой влияние контактов взаимодействует с дивергенцией.

Значение уравнения с s состоит в основном в том, что с его помощью можно сделать заключение о влиянии контактов; вычислить s нельзя, если мы не знаем t. Поэтому исследование надо начинать с определения времени расхождения между всевозможными парами языков в родственных группах, не забывая при этом, что время расхождения в действительности может оказаться больше,. чем то, которое указано; в этом состоит значение второго» уравнения, где применяется min t.

Дальнейшая работа носит реконструктивный характер. Здесь можно руководствоваться различными правилами, из которых следующие два являются, пожалуй, самыми важными.

1) Там, где имеются свидетельства о полной территориальной изоляции двух языков друг от друга, дивергенция не тормозилась влиянием контактов.

2) В ряде случаев установленной исследованием датировки, характеризующей время расхождения в группе родственных языков, самое большое число скорее всего указывает на время, фактически истекшее с того момента как все языки, входящие в данную группу, представляли собой один единый язык.

Индекс сохраняемости, вычисленный Лизом на основе тринадцати контрольных языков, рассмотренных по периодам времени от 1000 до 2200 лет, равен 80,48% ± 1,76% на тысячелетие.

Пределы, в которых допускается ошибка в подсчете, вычисляются «как 9/10 ошибки в среднем при использовании метода рассмотрения языкового материала по коротким отрезкам времени».

Процент сохраняемости, принимаемый в большинстве исследований, равен 80,5 — 81%, а r² — суммарный индекс сохраняемости в двух родственных языках — соответственно равен 65 — 66% за 1000 лет.

3. Мы располагаем вполне достаточным количеством данных, на основании которых можно было бы утверждать, что устанавливаемое лексикостатистикой время расхождения языков в известной мере приближается к действительному. Это подтверждается целым рядом соответствий,, включая различные исторические и установленные с помощью археологии данные, куда входит также и датирование, установленное радиоуглеродным методом.

Свидетельством правильности лексикостатистического метода в целом является внутренняя последовательность датирования, устанавливаемого этим методом внутри языков одной семьи или племени.

Не претендуя на безупречность точного инструмента, лексикостатистика, несомненно, имеет большое значение для приблизительного датирования и уже сейчас может служить полезным орудием при реконструкции доистории.

В то же время есть все основания полагать, что лексикостатистика еще не достигла, даже не приблизилась к максимальному раскрытию своих потенциальных возможностей. Это объясняется тем, что основные понятия лексикостатистики — индекс сохраняемости (первоначально названный константой) и определительный список — базируются на слишком ограниченном материале.

Разные ученые, изучавшие данный метод, отмечают ряд. его слабых сторон, большинство которых кажется поддающимся исправлению. Хотя окончательная доработка метода сейчас пока еще невозможна, мы можем устранить его отдельные мелкие недостатки и совершенствовать, методику его применения.

В настоящей работе основное внимание обращается на определительный список. Делаются попытки внести в него некоторые изменения и выяснить количественное влияние этих изменений на точность лексикостатистического датирования.

Ниже будет показано, что результаты в значительной степени благоприятны.

4. «Элементы, пригодные для опытного списка, должны быть универсальными и не относиться к каким бы тони было областям культуры... Более того, они должны представлять собой легко распознаваемые общие понятия, к которым нетрудно подобрать соответствия среди простых слов большинства языков» («Лексикостат. датир.», стр. 38). Эти установленные нами нормы не всегда последовательна соблюдались при создании первоначального опытного списка. Начать с того, что уже 15 из 215 элементов в списке Лиза, приводимом в его основном исследовании, в статье «Лексикдстатистическое датирование», мы рекомендуем опустить (эта работа была закончена после того, как была написана статья Лиза, но появилась в печати раньше).

В дополнение к этим нормам в процессе исследования выяснились еще некоторые положения, включая сюда и те отрицательные моменты, которых в исследовании необходимо избегать, именно: потенциальные дублеты (отмеченные Дугласом Тейлором), идентичные корни, звукоподражания, смысловые оттенки.

Автор уже указывал на то, что «несомненно, можно было бы составить лучший опытный список, чем настоящий», но, основываясь на собственном опыте в данной области, он вынужден заметить, что это достигается не так-то легко («Лексикостат. датир.», стр. 38).

Первый опытный список в его наиболее раннем виде после некоторых исправлений и уточнений включал в себя около 200 элементов, причем в то время автор надеялся увеличить его с целью достижения еще большей статистической точности в исследовании; однако ему удалось подобрать только небольшую горсточку действительно подходящих элементов, в то время как, напротив, обнаруживались все новые и новые элементы, которые надо было исключить из старого списка. Поэтому он пришел к убеждению, что улучшить список можно только при решительном его сокращении в строгом соответствии с установленными нормами, имея при этом в виду, что качество по крайней мере так же важно, как и количество.

Новый список, состоящий из 100 элементов, включает в себя 92 слова из старого списка, приводимые в табл. на стр. 78, плюс 8 новых элементов: say «сказать», moon «луна», round «круглый», full «полный», knee «колено», claw «коготь», horn «рог», breast «грудь».

Даже этот новый список имеет свои недостатки, но их сравнительно немного, и они незначительны.

4.1. Если лексикостатистика должна найти широкое применение в научном исследовании, то необходимо, чтобы к опытным элементам списка было бы легко найти соответствие во всех или почти во всех языках. Поэтому, чтобы не отступать от данного правила, мы исключаем из нового списка элементы ice «лед», snow «снег», freeze «замерзать», snake «змея», sea «море».

Выдвигалось и другое предложение: создать варианты опытного списка для различных больших участков земного шара. Эта работа требует большой тщательности в отборе местной лексики и в определении колебаний в индексе сохраняемости, связанных с каждым отдельным списком.

4.2. Причина, обусловливающая необходимость избегать слов, относящихся к области культуры, заключается в том, что их утрата или сохранение находятся в слишком тесной зависимости от изменений, происходящих в культурных областях, — отсюда их непригодность служить показателем количества истекшего времени.

Первоначально мы предполагали, что некоторые понятия, относящиеся к культуре, например различные продукты и виды деятельности, настолько древни и настолько широко распространены, что свободны от общих недостатков, присущих терминам культуры.

Поэтому в первую редакцию старого списка входили такие слова: father «отец», mother «мать», husband «муж», wife «жена», spear «копье», горе «веревка», stab «вонзать», sew «шить», hunt «охотиться», play «играть», fight «сражаться». Но эти элементы оказались непригодными по другим причинам: во-первых, они не являлись универсальными,, во-вторых, имели дублеты, в-третьих, иногда страдали неточностью, были звукоподражательными и т. п. Числительные также следует считать относящимися к культуре. В Мексике существуют языки индейцев, которые заимствовали числительные из испанского; то же самое произошло и с японским языком по отношению к китайскому. Это указывает на тесную связь чисел с областью коммерции и технологии. Чрезвычайная устойчивость числительных среди контрольных языков — а именно среди различных европейских языков, египетского и китайского,— возможно, обусловлена той ролью, какую играет счет в жизни этих народов. С другой стороны, существуют языки, в которых, как известно, отсутствуют названия чисел выше двух и которые пользуются сложными словами, чтобы выразить «три» и т. д. В новом списке сохраняются числительные один, два и опускаются все остальные.

Существует ряд предметов природы, культурная роль которых настолько велика, что они принимают характер терминов культуры. Таковы, например, следующие слова, входившие в старый список: соль (которая является предметом торговли), цветы и фрукты (поскольку культивируемые разновидности их все время являются чем-то новым с точки зрения культуры), лед (в некоторых областях предмет, изготовляемый искусственно). Одной из характернейших черт так называемых терминов культуры является необычайная легкость, с какой они заимствуются вместе с новым предметом или новой разновидностью уже известного предмета. Эта черта позволяет нам определять вторичные термины культуры. Безусловно, любое слово может приобрести значение такого термина, и поэтому мы должны избегать употребления тех слов, которые относятся к области культуры в наибольшей степени потенциально.

Названия видов животных не могут использоваться в опытном словаре как из-за их неуниверсальности, так и в силу того, что они легко переходят из языка в язык, особенно когда народ переселяется в те области, где существуют новые виды или новые разновидности уже известных животных. Единственными названиями живых существ, которые сохранены в исправленном опытном списке, являются следующие: bird «птица», fish «рыба», dog «собака», louse «вошь».

4.3. Необходимо избегать различных специальных терминов, поскольку они слишком часто выражаются не простыми словами, а целыми фразами.

4.4. Слова, обозначающие определенные виды деятельности, такие, как cut «резать», pull «тянуть», dig «копать», squeeze «сдавить», «сжать», обладают двумя особенностями, благодаря которым они становятся неудовлетворительными в качестве опытных элементов. Первая особенность заключается в том, что к этим словам зачастую очень трудно подобрать соответствия в исследуемых языках, а вторая — в том, что они гораздо менее стабильны, чем большинство других наших опытных элементов. Возможно, эти две особенности взаимосвязаны.

Ср. устойчивые drink «пить», eat «есть», sleep «спать» (нем. trinken, essen, schlafen) с неустойчивыми cut «резать», pull «тянуть», dig «копать» (нем. schneiden, ziehen, graben).

Встречаются также и слова неустойчивые и двусмысленные (неясные) по своему значению в целой группе родственных языков.

Даже в группу слов, обозначающих части тела, входят такие слова, как leg, back, guts, значение которых нечетко и перекрещивается со значением других слов. Например, значение слова leg «нога» включает в себя значения calf «икра», shin «голень», knee «колено», thigh «бедро», foot «ступня», ankle «лодыжка». Во многих языках английским foot и leg соответствует одно слово. В других же языках английскому leg соответствуют два самостоятельных слова.

Поэтому не удивительно, что leg оказывается одним из наименее устойчивых элементов в списке.

4.5. Совершенно так же, как нельзя было бы включить два или несколько раз в один и тот же список одно и то же слово, надо избегать слов с тенденцией к синонимии.

Сравнивая два языка, в которых слова, соответствующие английским wife «жена» и woman «женщина», идентичны, можно установить, что либо оба этих слова родственны по происхождению, либо нет.

Чтобы избежать перегрузки, которая может получиться в результате применения большого количества слов, лучше всего исключить слово wife «жена» из списка. Исходя из тех же соображений, мы исключаем из списка river, lake и sea ввиду наличия слова water «вода»; far «далекий» из-за наличия long «длинный»; short «короткий», thin «тонкий», near «близкий» из-за наличия small «маленький»; dust «пыль» из-за присутствия earth «земля»; fog «туман» из-за наличия cloud «облако»; leg «нога» из-за наличия foot «ступня»; they «они», he «он» из-за наличия that «тот». Трудно было бы устранить каждый из потенциальных дублетов, и поэтому несколько случаев такого возможного дублирования все же остаются в исправленном варианте списка: water «вода» — rain «дождь», skin «кожа» — bark «кора», big «большой» — long «длинный», how «как» — what «что», who «кто» — what «что», this «этот» — that «тот».

Мы надеемся, что после соответствующих исправлений количество языков, имеющих дублеты, может быть существенно сокращено и что останется очень мало языков, которые будут иметь более одного дублета.

Если подойти к решению вопроса о потенциальных дублетах несколько иначе, то упомянутые выше случаи дублирования можно было бы оставить в списке, но сделать при этом особые пометки и применять эти слова только тогда, когда будет ясно, чтэ в сравниваемых языках они не являются словами-дублетами. Это позволило бы нам добавить к списку несколько элементов, вполне удовлетворительных во всех других отношениях, включая сюда и слово lip «губа», которое имеет тенденцию дублировать слово mouth «рот» или передается в виде сложного слова со значением mouthskin «кожа», а также слово arm «рука» в добавление к вышеупомянутым словам; вместе с тем подсчет был бы усложнен вследствие необходимости проверять каждое сравниваемое слово с точки зрения синонимии.

4.6. С описанным выше явлением сходно употребление идентичных корней, образующих систему типа this «этот» — that «тот», who «кто» — what «что» — when «когда» — where «где» — how «как», I «я» — we «мы», thou «ты» — уе «вы», die «умирать» — kill «убивать» (последняя пара слов представляет собой каузативное образование). Переработанный список не содержит уже таких слов, как when, where, how, ye, но сохраняет все остальные с гораздо меньшим риском.

Если язык имеет два слова, эквивалентных английскому we (включающее и исключающее говорящего), то в список должно быть включено первое из двух, поскольку в этом случае гораздо меньше вероятность того, что оно повторит корень первого лица единственного числа.

4.7. Слова различных языков, обозначающие «дуть», стремятся использовать лабиализованные или шипящие согласные или те и другие наряду с лабиализованными гласными. Ярким примером является исп. soplar, состоящее из подражательных звуков, которые сконцентрировались в слове в процессе его развития из лат. sub-flare. Даже если гласный и сибилянтный согласный происходят из префикса (sub- «под»), который первоначально не имел ничего общего с идеей дуть, предположение, что оба они стали ассоциироваться со старым корнем fl в основном вследствие звукового символизма, кажется вполне вероятным.

Назовем слова, которые считаются потенциально звукоподражательными и поэтому исключаются из списка: breathe «дышать», laugh «смеяться», puke «рвать» (тошнить), scratch «чесать», cry «кричать».

Тенденция к звукоподражанию вызывает возражения двоякого рода: во-первых, довольно трудно учесть устойчивость подобных слов и также трудно установить, с какого рода элементами имеем мы дело — с родственными словами или со случайными звуковыми совпадениями. Трудность при учете звукоподражательных слов объясняется еще и тем фактом, что в огромном числе они заимствуются соседними народами, даже если обычное заимствование слов, обозначающих различные понятия культуры, в эта время не имеет места. Эта тенденция присуща также и детским словам, включая название матери и отца (pa, papa, dad, ma, mama).

4.8. Хотя мы с самого начала старались избегать слов, слишком тесно связанных с морфологическими особенное тями языка, некоторые из таких слов, например at, in, because, if, and, все же пришлось включить в список. В исправленном списке этих слов нет.

5. Чтобы опытный список был пригоден для определения отрезков времени разной протяженности, он должен быть составлен из элементов, обладающих приблизительно одинаковой сохраняемостью в языке. В случае если это условие соблюдаться не будет, менее устойчивые элементы будут рано утрачиваться языком, благодаря чему в оставшийся список войдут элементы с постепенно возрастающей устойчивостью, пока процент сохраняемости не станет выше первоначального.

Основное исследование Лиза мало что говорит относительно решения этой стороны проблемы, так как все изученные им контрольные случаи имеют сравнительно небольшую продолжительность во времени, от 1000 до 2200 лет, в развитии одного и того же языка. Учитывая, что лексикостатистическое датирование применяется скорее к случаям дивергенции двух языков, чем к линии развития отдельно взятого языка, отрезки измеряемого времени гораздо больше — они приближаются к 8000 лет. При этом тысячелетие в развитии одного языка эквивалентно пяти столетиям дивергенции, а 2200 лет в развитии одного языка соответствуют 1100 годам дивергентного развития.

Таким образом, контрольные исследования ограничиваются лишь исторически засвидетельствованными случаями, охватывающими только небольшую часть необходимой сферы исследования. Для того чтобы преодолеть этот недостаток, нужно вычислить индекс сохраняемости индивидуальных опытных элементов. Процедуру измерения рекомендуется проводить следующим образом: «Стабильность, или устойчивость, элементов нуждается в объективной проверке: необходимо отмечать, как часто встречаются данные элементы и как долго сохраняются они в исторически засвидетельствованных языках. Этот подсчет устойчивости мог бы быть принят во внимание при создании исправленного опытного списка» («Лексикостат. датир.», стр. 39). Ввиду того что необходимое количество языков практически не может быть привлечено к исследованию, такое исследование пока что невозможно. Однако можно вычислить сохраняемость отдельных элементов в контрольном материале, что и проделано нами в таблице № 2 (см. приложение, стр. 78—87).

Мы ограничили количество языков, необходимых для подсчета, восемью языками, с тем чтобы избежать случаев частичного совпадения. Мы использовали отрезки времени, которые даются у Лиза, хотя в случае с коптским языком есть все основания полагать,что здесь в действительности имел место гораздо более длительный период раздельного существования языков. Ценность вычисляемого таким образом процента сохраняемости весьма относительна из-за небольшого количества рассмотренных языков. Так, хотя не существует такого явления, как неизменяемая лексическая единица, в списке все же оказался целый ряд слов, которые показывают стопроцентную устойчивость. Безусловно, этого бы не было, если бы мы рассмотрели достаточное количество контрольных случаев. Интересно отметить, что большинство показателей стопроцентной сохраняемости относится к числительным, в то время как опыт изучения языковых групп в других частях света, где экономика либо более примитивна, либо развилась в относительно недавнее время, показывает значительную неустойчивость числительных.

Мы можем исцользовать эти экспериментальные таблицы устойчивости, сравнивая показатели дистрибуции старого и нового списков. Результаты подсчетов, которые мы записываем, группируя процент сохраняемости по десяткам (1 — 10%, 11 — 20% и т. д.), следующие:

старый список	3	4	7	18	22	33	26	23	37	42	(итого 215)
новый список	0	0	1	6	8	8	14	12	23	20	(итого 92).

Нетрудно увидеть, что сохраняемость в старом списке в основном достигает 51—60 и 81—100 процентов, в частности же процент сохраняемости может быть выражен любым из возможных чисел. Эти показатели получены при использовании смешанных критериев и разнородной сохраняемости. Если бы новый список был создан искусственно, путем простого устранения слов, так, чтобы только за счет этого повысить выраженный в процентах показатель дистрибуции, то нет уверенности, что использование его в лексикостатистике дало бы более надежные результаты, чем результаты, полученные от первого списка.

В действительности, однако, ни одно слово не было опущено, даже если его индивидуальный процент сохраняемости становился незначительным. Вместо этого изменения были внесены в целые категории соответственно общим критериям, о которых говорилось выше и которые сформулированы на основе определенных методологических соображений, осознанных нами в процессе лексикостатистического исследования задолго до того, как были приняты таблицы устойчивости.

При этих обстоятельствах новый список внушает большие надежды на то, что будут внесены исправления в те искажающие действительность результаты, которые были обусловлены первым списком.

В дальнейшем будет показано, что новый список обусловливает более высокий процент сохраняемости, чем старый, — около 86% вместо приблизительно 81% на тысячелетие. Этот процент соответствует проценту устойчивости отдельных элементов и при этом позволяет вычислить предполагаемое искажение, к которому приводил первый список. Так, если для половины первоначального списка индексом сохраняемости являлись 86%, а для полного списка — 81 %, то вторая половина должна была бы в среднем показывать 76%. Если перейти от единой линии развития языка к случаям дивергенции, то получим 74% для верхней половины, 58% для нижней и 66% для всего списка.

Мы можем распространить эти цифры на более продолжительные периоды времени и таким путем выяснить размеры искажения, вычисленные очень приблизительно (см. вывод).

Столетия	10	20	30	40	50	60	70	80
Верхняя половина	74	55	40	30	22	16	12	9
Нижняя половина	58	34	20	11	6,6	3,8	2,2	1,3
Полный список	66	45	30	21	14	10	7	5
Старый подсчет	66	44	28	19	12,5	8,3	5,6	3,6
Просчет в столетиях	0	1	2	3	4	6	8	12

Оставляя в стороне другие недостатки и принимая во внимание только искажающее действие смешанного процента устойчивости в старом списке, мы отмечаем, что применение единого процента сохраняемости, равного 66, вместо использования смешанной устойчивости элементов старого списка дает нам определенный просчет от одного до трех веков на 20 столетий по мере того, как увеличивается количество прошедшего времени (в пределах, доступных для изучения при помощи лексикостатистического метода).

Этот подсчет не объясняет, однако, всего искажения целиком, а только указывает на разницу между прежним и исправленным вычислением, которое дает приблизительный анализ устойчивости.

Нет сомнений в том, что новый список все еще дает определенную меру искажения. Не следует думать (впрочем, это и не имелось в виду при составлении таблиц устойчивости), что все составляющие список элементы обладают одинаковой устойчивостью. Однако мы можем заключить, что искажение, которое показызает новый список, значительно меньше того, которое дает старый. К тому же, поскольку мера колебания значительно уменьшена в новсм списке и поскольку она в большей степени приведена к единому критерию, мы можем заключить, что оставшееся искажение является лишь малой частью прежнего. Как бы ни обстояло дело, не следует пытаться вычислять (по-видимому, при помощи дифференциального исчисления) искажающее воздействие нового списка до тех пор, пока в нашем распоряжении не будет действительно показательных таблиц устойчивости, основанных на большем количестве контрольных случаев. Как только мы будем располагать точной мерой искажения, мы сможем внести поправки в уравнение вычисляемого времени или, что было бы еще более удобным, получить готовую таблицу, указывающую время и предполагаемое соотношение родства.

6. Некоторые аспекты нуждаются в пересмотре в самом процессе контрольного исследования.

6.1. Некоторые из контрольных примеров представляют собой родственные языки, которые до определенного момента имели общую историю. Например, случай 2-й у Лиза: латынь Плавта (которая относится к 200 г. до н. э.) — ранний новоиспанский (1600 г. н. э.). Случай 3-й: латынь Плавта — французский язык Мольера (1650 г. н. э.). Упомянутые языки являлись единым языком на протяжении примерно 1000 лет и только по прошествии этого общего периода начали развиваться совершенно самостоятельно. Поэтому, используя в исследовании оба случая, мы в основном повторим один и тот же пример, а для этого, безусловно, нет никаких оснований. Чтобы избежать дублирования, можно было бы разделить периоды времени на три неперекрещивающихся периода:

а) латынь Плавта — поздняя латынь;

б) поздняя латынь — ранний новоиспанский;

в) поздняя латынь — французский язык Мольера.

Таким же образом надо было бы подойти к португальскому, каталанскому, итальянскому и двум типам греческого языка.

Подобный порядок рассмотрения потребовал бы нового списка по крайней мере для одной определенной ступени развития поздней латыни, для иберийско-романской, и для промежуточной ступени в развитии греческого, которая была бы применена для распадающихся афинского и кипрского диалектов греческого языка. Однако из-за отсутствия подобных опытных списков мы должны опустить все примеры, кроме одного, по каждой системе примыкающих друг к другу случаев.

6.2. В качестве контрольного примера выбирается один язык и рассматривается на его ранней и поздней ступени развития, причем большая часть случаев может быть проверена на исторически засвидетельствованном материале для обеспечения полной или почти полной уверенности в том, что эти случаи отвечают предъявляемым к ним требованиям.

Например, в последовательности латынь — французский исследуемый язык известен из письменных памятников на протяжении всего отрезка времени, лежащего между ними, так что мы можем быть в значительной степени уверены в том, что имеем дело в основном с единой линией развития. Что же касается среднеегипетского и коптского языков, то здесь мы находим значительный пробел в наличии памятников между 1700 г. до н. э. и 300 г. н. э. Мы не можем быть полностью уверены в том, что коптский является прямым потомком среднеегипетского. Возможно, он развился из устной речевой формы, которая к 1700 г. до н. э. уже отошла от египетского языка, сохранившегося в письменной форме. Эту неопределенность необходимо иметь в виду при анализе наших результатов, ибо мы обнаруживаем, что процент общих элементов в египетско-коптском значительно ниже той величины, которую мы могли бы ожидать, исходя из других разобранных примеров.

Действительно, если рассмотреть процент родственных слов с точки зрения среднего процента сохраняемости, полученного при анализе других примеров, можно констатировать, что египетский и докоптский, относящийся к 1700 г. до н. э., должен был уже иметь в соответствии с найденным эквивалентом 10 столетий самостоятельного развития. Возможно, аналогичные ситуации имеют место, хотя и в меньшей степени, и в случаях с другими языками.

Исходя из задач настоящего исследования, коптский язык мы в рассмотрение не включаем.

6.3. В исследовании Лиза каждому из контрольных случаев придается одинаковое значение независимо от продолжительности охватываемого ими периода времени. Это, вероятно, можно считать некоторым упрощением математической процедуры, принимая во внимание тот факт, что результаты могут получиться приблизительно одинаковыми. Более точное вычисление требует рассмотрения каждого случая в связи с рассматриваемым периодом времени. Настоящее исследование придерживается последнего принципа.

6.4. Датирование языковых образцов может представлять известные трудности; поэтому Лиз допускает, что в его исследовании могут оказаться ошибки в датировке. Однако расхождение в несколько десятков лет (до одного столетия) в отдельных примерах фактически не оказывает значительного влияния на конечные величины; во всяком случае, мы не находим причин для того, чтобы в настоящем исследовании отказаться от датировки, приводимой Лизом.

6.5. Существует определенная опасность чересчур субъективного подхода к заполнению опытного списка для данного языка и к подсчету родственных слов из двух опытных списков.

Арндт, производя подсчеты в германских языках, сделал следующее заключение относительно предыдущих подсчетов: «В них (в этих подсчетах) ощущается постоянное стремление находить больше родственных элементов, чем это допускает строгий анализ». Приводимый им процент для шведского языка равен 79,7% вместо 85,4%, для немецкого — 82,0% вместо 85,4%, для английского — 67,8% или 74,8% вместо 76,6%. Поскольку Арндт имел возможность посвятить этому вопросу больше времени и внимания, чем Лиз и его коллеги, и поскольку он подошел к решению своей задачи с самых строгих позиций, есть все основания предполагать, что его данные более точны, чем данные его предшественников.

Однако автор во время подготовки настоящей статьи не располагал записями Арндта и поэтому был вынужден пользоваться старыми подсчетами. Это очень досадно, так как именно с немецким и шведским языками связано значительное отклонение, которое обнаруживается при исследовании.

Вычисления Арндта в области германских языков до известных пределов уменьшили бы высокий процент, полученный Лизом, и, если новый список дает такую же разницу между вычислениями Арндта и нашим подсчетом, его вычисления внесли бы исправления и в новые данные, что для нас явилось бы большим разочарованием.

Другим контрольным случаем, подлежащим рассмотрению, является китайский язык. Здесь можно основываться на списках, которые так любезно предоставил в наше распоряжение С. Я. Фанг. Подсчеты по этим спискам произведены автором настоящей статьи, но не проверены так тщательно, как это необходимо для того, чтобы гарантировать максимально надежные результаты вычисления.

6.6. Вопросы, о которых говорилось выше, касались точности отбора определительных слов и процедуры вычисления индекса. Сейчас мы должны рассмотреть вопрос о влиянии иных факторов, а не только фактора времени.

Все эти иные факторы, во-первых, необходимо обнаружить и, во-вторых, определить их количественное и качественное воздействие. Это нужно для того, чтобы точно установить их влияние на процент сохраняемости, или для того, чтобы каким-либо другим путем устранить их воздействие на окончательный результат. Последнее в значительной степени было уже проделано: из определительного списка устранялись слова, связанные с культурой, и различные другие категории слов; однако нет доказательств, что благодаря этому устраняется воздействие всех других побочных факторов.

Арндт сообщает, что он обнаружил изменение в индексе сохраняемости в английском языке, которое явилось результатом междиалектных заимствований. Он приводит общий процент сохраняемости, равный 67,8% за 1000 лет и исправленный, с допуском на междиалектные заимствования, равный 74,8%. Из всех германских языков, которые он исследовал, он отмечает действие этого специфического фактора только на английский язык.

7. Теперь мы можем провести сравнение старого и нового опытных списков, чтобы определить, насколько нам удалось исправить старый список.

Мы видим, во-первых, что новый список содержит более универсальные и легко поддающиеся определению слова, которые нетрудно найти во всех языках. Во-вторых, благодаря тому, что мы стали вычислять устойчивость слов на протяжении более коротких промежутков времени, мы уменьшили искажение результатов, которое необходимо вытекало из характера первого списка, где рассматривались длительные периоды дивергенции.

Однако эти преимущества лишь в незначительной степени сказываются на статистическом анализе, основанном на наших семи контрольных языках, поскольку все они принадлежат к относительно одинаковым культурам и ступеням развития и поскольку рассматриваемые промежутки времени относительно коротки.

Другие преимущества нового списка заключаются в уменьшении количества элементов, которые являются потенциальными терминами культуры и т. п. Эти преимущества выявляются при сравнении среднего процента сохраняемости и размеров отклонения в старом и новом списках.

С другой стороны, малое количество контрольных примеров и некоторая неточность в подсчетах могут обусловить недостаточную точность результатов.

Результаты, полученные нами для двух опытных списков (подсчет количества родственных слов, процент сохраняемости за 1000 лет для каждого отдельного языка, а также суммарный процент и, наконец, стандартное отклонение), таковы:

Язык	Тысячелетия	Старый подсчет		Новый подсчет		Первонач. процент	Новый процент
Язык	Тысячелетия	колич. родств. эл.	%	колич. родств. эл.	%	Первонач. процент	Новый процент
Шведский	1,02	176/207	85,0	83/88	94,3	85,4	94,4
Немецкий	1,1	180/214	84,2	81/89	89,0	85,4	90,0
Английский	1,0	160/209	76,6	75/87	86,2	76,6	86,2
Румынский	2,15	117/209	56,0	63/88	71,6	76,4	85,6
Французский	1,85	125/209	62,5	66/89	74,2	77,6	85,1
Афинский	2,07	147/213	69,0	64/90	71,1	83,6	84,8
Китайский	1,0	167/210	79,6	74/91	81,5	79,6	81,5

	Первонач. процент	Новый процент
Для семи случаев (в общем на 10 190 лет)
Средний процент	80,2	86,4
Стандартное отклонение	3,65	3,33
Исключая шзедский язык (6 языков в общем на 9 170 лет)
Средний процент	79,7	85,4
Стандартное отклонение	3,44	2,09
Для трех случаев по 2000 лет (в общем 6 070 лет)
Средний процент	79,0	85,4
Стандартное отклонение	3,19	0,4

Одно из очевидных преимуществ исправленного списка состоит в том, что индекс сохраняемости повысился на 6%. Но это еще не является особым достижением. Более высокий индекс принесет определенную пользу, если будут расширены рамки исследования в сторону более древних времен.

Более низкий индекс, если он вычислен с не меньшей точностью, позволил бы сделать более тонкие различия во времени, охватывающем сферу его действия.

Говоря абстрактно, желательно было бы иметь последовательный ряд различных опытных списков с более высоким и более низким процентом сохраняемости для того, чтобы они могли отвечать различным нуждам исследования, которые могут возникать без конца. Однако нет возможности подбирать необходимый опытный материал в неограниченном количестве, и поэтому трудно установить более чем две различные шкалы времени.

Если бы это было сделано, оба списка не совпадали бы совершенно. Другими словами, наш новый и старый списки нельзя было бы рассматривать как два параллельных опытных списка, которые должны использоваться в соответствии с исследуемым отрезком времени. Напротив, задача состоит в том, чтобы решить, который из двух является подходящим и точным как список, имеющий относительно высокий процент сохраняемости. Мерой точности, которой мы пользовались в этой работе, является стандартное отклонение, определяемое как квадратный корень из среднего квадратичного отклонений от нормы. (Это не синоним стандартной ошибки, т. е. меры, применявшейся Лизом в его исследовании, которая, по определению, является меньшей частью стандартного отклонения.)

Как правило, список тем надежнее, чем меньше стандартное отклонение.

Приведенные выше цифры показывают, что отклонения в предыдущих показателях процента сохраняемости колеблются в известных, ограничивающих его пределах. Даже данные коптского языка, который на первый взгляд показывает очень низкий процент сохраняемости — 74,9% (исправляем небольшую арифметическую ошибку у Лиза, на которую указали Луи Кот и Альберт Рейд), обусловленные, по нашему мнению, скрытой дивергенцией, могли бы быть согласованы с другими цифрами, не на много повысив стандартное отклонение. Исключение шведского языка, для которого, как мы имеем все основания полагать, был вычислен слишком высокий процент, дает нам только небольшое сокращение отклонения.

Исключение трех других случаев, для которых, по нашим предположениям, были сделаны неточные подсчеты, обеспечивает лишь незначительное улучшение.

Исправленный список резко отделяет неточно вычисленные случаи от других. Рассмотрение языков румынского, французского и афинского греческого дает сходные результаты. Интересно, что эти три случая представляют собой языки, рассмотренные на протяжении периодов времени около 2000 лет. Большая точность нового списка может частично объясняться тем фактом, что ошибки в подсчете, когда вычисление ведется короткими периодами времени, могут исчезать при рассмотрении продолжительных отрезков времени; большая точность достигается также в результате тщательно проведенного вычисления; иногда имеют место оба фактора одновременно. Если включить в рассмотрение коптский, то новый список обусловит отклонение немного меньшее, чем старый список, т. е. около 4 процентов. Исключение шведского вместе с коптским сокращает отклонение почти наполовину. Исключение в дальнейшем трех остальных случаев, где подсчет кажется несколько сомнительным, доводит стандартное отклонение до 0,4 процента. Нельзя придавать этому ободряюще низкому проценту отклонения особо большого значения до тех пор, пока не будут проделаны многочисленные эксперименты. Если эта цифра хоть сколько-нибудь сможет приблизиться к той, которая получится при правильном использовании нового списка, то лексикостатистика приобретет характер почти что точного инструмента. Ввиду того что исправленный опытный список имеет огромные преимущества перед старым, работу по улучшению списка нужно считать необходимой, даже если не будет достигнута заметно большая точность. Но нет оснований сомневаться в том, что определенные улучшения в статистической точности сопровождаются другими улучшениями.

В то же время это побуждает нас искать дальнейших путей к улучшению списка. Более того, мы надеемся провести самое обширное исследование, которое могло бы точно установить возможности и границы лексикостатистического метода.

Таблица 1

Сохраняемость элементов по семантическим группам (в процентах)

а) Личные местоимения		вошь	80
я	100	рыба	66
ты	92	собака	50
мы	92	животное	42
он	70	птица	40
вы	67	п) Человек
они	50	человек	74
б) Вопросительные слова		женщина	71
кто	83	ребенок	50
где	75	мужчина	45
что	74	р) Части тела и вещества
когда	74	кровь	100
как	70	ухо	100
в) Корреляционные слова		рука	100
и	57	язык	100
если	31	зуб	100
потому что	25	ступня	90
г) Пространственные слова		яйцо	84
возле	100	спина	83
в	57	хвост	83
с	51	мясо	77
д) Локализирующие слова		глаз	74
там	88	перо	74
далеко	74	кожа	74
близко	51	кость	71
правый	51	голова	71
здесь	49	рот	68
тот	42	нос	66
этот	34	крыло	66
левый	33	сердце	65
е) Слова, обозначающие движение и покой		жир	56
приходить	100	кишки	55
сидеть	100	живот	50
давать	85	шея	49
лететь	82	волосы	48
стоять	77	печень	40
держать	69	нога	17
падать	67	с) Ощущения и деятельность
плавать	59	пить	92
поворачивать	59	умирать	92
идти	59	слышать	85
бросать	49	видеть	82
тянуть	43	спать	82
плыть	40	жить	75
течь	33	есть	68
лежать	33	знать	59
толкать	17	кусать	57
ж) Действия		бояться	43
мыть	83	думать	33
расщеплять	75	дышать	25
завязывать	74	рвать (тошнить)	19
ударять	69	нюхать	0
вытирать	58	т) Действия, производимые ртом
резать	56	смеяться	92
тереть	56	петь	83
копать	42	сосать	75
чесать	31	кричать	68
сжимать	28	плевать	56
з) Периоды времени		говорить	56
год	100	у) Цвет
день	85	черный	83
ночь	82	зеленый	83
и) Числительные		красный	66
один - десять	100	белый	51
двадцать	83	желтый	51
сто	82	ф) Описательные элементы
к) Количество		старый	100
все	92	сухой	89
мало	74	хороший	83
много	58	новый	82
несколько	40	теплый	79
л) Величина		гнилой	66
широкий	85	холодный	65
толстый	83	острый	58
длинный	82	правильный	50
тонкий	79	прямой	49
узкий	59	гладкий	41
большой	48	плохой	40
маленький	41	мокрый	33
короткий	25	тупой	20
м) Предметы и явления природы		грязный	10
лед	100	х) Родство
соль	100	брат	100
звезда	100	сестра	100
солнце	100	отец	83
ветер	100	мать	83
небо	92	муж	57
облако	83	жена	51
дождь	83	ц) Предметы культуры и культурная деятельность
вода	83	шить	100
море	82	веревка	85
дым	81	стрелять	60
снег	79	охотиться	59
песок	68	варить	58
камень	68	считать	51
гора	67	играть	50
зола	66	одевание	42
земля	66	работать	37
пыль	56	танцевать	33
озеро	56	копье	33
туман	51	вонзать	30
река	51	сражаться	9
огонь	33	ч) Разное
н) Растения и части растений		имя	100
кора	100	другой	92
лист	100	не	83
трава	83	гореть	67
дерево	83	дуть	66
корень	82	замерзать	65
цветок	75	распухать	51
лес	68	дорога	33
семя	66	убивать	25
ягоды (фрукты)	59
палка	27
о) Животный мир
червяк	100
змея	91

Примечания

1. М. Swadesh, Towards greater accuracy in lexicostatistic dating, International Journal of American Linguistics)), vol. XXI, 1955, p. 121-137.

Источник текста - сайт www.classes.ru - Репетитор по английскому языку в Санкт-Петербурге.