Исследование и классификация артефактов археологического памятника Лузанова Сопка-2


АНАЛИЗ И КЛАССИФИКАЦИЯ АРТЕФАКТОВ АРХЕОЛОГИЧЕСКОГО ПАМЯТНИКА ЛУЗАНОВА СОПКА-2


Анализ результатов археологических раскопок производится на данных памятника «Лузанова Сопка-2», который находится в Хорольском районе Приморского края.

Возраст этого памятника 5800 лет. Найденные фрагменты сосудов были изучены, распределены к разным сосудам, в зависимости от толщины стенок и материала изготовления сосудов, и зарисованы. Итак, каждый сосуд может быть представлен одним или несколькими обломками.

Сосуды имеют характерные признаки, которые можно разделить на четыре группы: форма венчика, наличие валика, форма среза венчика, техника орнаментации.

Признаки из групп "форма венчика" и "форма среза венчика" присутствуют на сосуде лишь один раз в отличие от признаков групп "наличие валика" и "техника орнаментации".

Все признаки сосудов представлены графически. Каждый признак имеет свой буквенный и цифровой индекс, что упрощает дальнейшую обработку.


Таблица описания признаков№кодпризнак№кодпризнак1аПрямой венчик12мТреугольники по диагонали2бЗагнутый венчик13нРомбы в треугольнике3вВалик на сосуде14оГребенка вертикальная4гГоризонтальная кромка15пГребенка диагональная5дОкруглая кромка16рЛопатки по горизонтали6еСкошенная внутрь кромка17сЛопатки в треугольнике7жСкошенная наружу кромка18тОтступающая лопатка8зЗаостренная кромка19уОвалы в линию9иОрнамент на кромке20фПрочерченная линия10кРомбы в шахматном порядке21хПрочерченная полукруглая линия11лРомбы в ряд

Все признаки сосудов были закодированы: 1 - если признак присутствует на сосуде, и 0 - если отсутствует, и занесены в таблицу, которая и обрабатывалась.

Выбор основы типологии строится на наиболее информативных признаках. Информативность признаков находится в несколько приемов. Сначала строится таблица со встречаемости всех признаков. Все признаки разделены на 3 группы: венчик, кромка, орнамент. Вторая, третья и четвертая колонки таблицы относятся к выделенным группам. Пятая колонка обозначает количество сосудов имеющих одинаковые сочетания признаков. Всего различных возможных сочетаний 39. В шестой колонке подсчитаны частоты встречаемости признаков, как отношение количества сосудов с одинаковым сочетанием признаков к числу всех сочетаний, и обозначаются P. В седьмой колонке вычисляются P* log2P для соответствующего сочетания признаков.


Таблица

Таблица для определения энтропии для всех групп признаков№Форма венчикаФорма среза венчикаОрнаментЧисло сосудов с i-ым сочетанием признаковЧастота сочетания (P)Pi*log2P1азо60,0710,2702азр30,0350,1703адф40,0470,2084ажи10,0120,0755аеи10,0120,075…………………38бгп10,0120,07539бдр10,0120,075

Далее суммируются данные последней колонки:


.


Аналогично строятся таблицы для определения энтропии распределения сочетаний вариантов признаков без значений признаков "форма венчика"), "форма среза венчика" и "орнамент. В таблицах анализ проводится по двум группам признаков.

Для этих случаев формулы для вычисления энтропии имеют вид:


, ,

.

Далее строится таблица встречаемости на сосудах признаков из группы "форма венчика". В первом столбце таблицы указываются два возможных признака из этой группы: прямой венчик и загнутый венчик, во втором - число сосудов с этими признаками. В третьей и четвертой колонке вычисляются частоты и P*log2P, аналогично описанным выше вычислениям.

Суммируя значения последней колонки, считается H1. Для определения неравномерности распределения сосудов по значениям признака "форма венчика" вычисляются:


, ; ,


где в формуле - идеальное значение энтропии для признака; R1 - коэффициент неравномерности.

Аналогично строятся таблицы встречаемости на сосудах признаков из групп "форма среза венчика" и "орнамент". Для них энтропия и коэффициент неравномерности посчитаны по формулам:


, , .

, , .


В итоге были посчитаны, использую вычисленные выше результаты, коэффициенты информативности (I1, I2, I3) и нормированной информативности (Q1, Q2, Q3) по формулам:


, , , ,

, .


Эти коэффициенты занесены в итоговую таблицу и проанализированы.

Наиболее информативным признаком оказался "орнамент" (Q3 = 0,128). Форма венчика и форма среза венчика менее информативны (Q1 = 0,064, Q2 = 0,101). Как дополнительная характеристика признаков был подсчитан коэффициент неравномерности их распределения (R). В итоге оказалось, что орнамент обладает самой высокой информативностью и самым малым коэффициентом неравномерности (R3 = 0,128). Признак "форма венчика" обладает наименьшим коэффициентом информативности и наибольшей неравномерностью (R1 = 0,574), надо отметить, что это следствие того, что большинство единиц анализа относится к одному значению, т.е. из 23 фрагментов 21 имеют признак "`прямой венчик"', потому появление этого признака на керамике не определяет значения остальных. В свою очередь, так как только два сосуда (сосуд 6 и сосуд 12) имеют признак "загнутый венчик", то возможно эти сосуды будут определены в один кластер, состоящий только из этих двух сосудов.

Таким образом, в группировку введены элементы иерархии, позволяющие упорядочить признаки по степени их значимости (в статистическом смысле). Признак "орнамент", который имеет самую большую информативность и небольшой коэффициент неравномерности, является основанием типологии. Формы венчика и характер формы среза венчика характеризуют вариантные признаки памятника Лузанова Сопка-2.

Для проведения кластерного анализа были выбраны агломеративные иерархические алгоритмы, так как именно они позволяют получить наиболее полное представление о структуре кластеров в виде дендрограммы. В виду того, что не известны методы и меры, используемые для решения такого рода задач, была проведена кластеризация по всем 7 методам, которые реализованы в программе статистического анализа SPSS, для них использовались 25 мер. Число кластеров определялось по динамике изменения порога расщепления (слияния) кластеров. В программе SPSS по каждому методу выводится таблица агломерации, с помощью которой можно оценить число кластеров. Для этого необходимо проследить динамику увеличения расстояний по шагам кластеризации и определить шаг, на котором отмечается резкое возрастание расстояний. Оптимальному числу кластеров соответствует разность между числом объектов и порядковым номером шага, на котором было обнаружено максимальное расстояние.

Проанализировав таблицы агломерации, была построена таблица, в которой отмечено количество кластеров по всем методам и мерам.

Результаты кластеризации, когда получилось 2 и 20 кластеров считаются не верными, потому что это означает, что-либо все сосуды принадлежат одному кластеру, либо каждый сосуд - это отдельный кластер. По этой причине, методы связь внутри групп, ближайший сосед, дальний сосед, кластеринг медиан и метод Уорда исключаются из анализа. По этой же причине исключаются из рассмотрения семь мер: различие размера, вариация, дисперсия, лямбда, Рассел и Рао, Сокал и Снит 2, Сокал и Снит 5.

В большинстве случае анализ оставшихся 2 методов и 18 мер показывает, что сосуды делятся на 10 - 11 кл.

Сравнение результатов иерархических методов было проведено с результатом метода К-средних. Перед выполнением метода К-средних был проведен факторный анализ, для объединения зависимых признаков к меньшему количеству независимых между собой факторов. Таким образом, 21 признак был объединен в 7 факторов. Принадлежность признаков к факторам определяется по матрице вращения.

Матрица вращения состоит из факторных нагрузок. Максимальное абсолютное значение факторной нагрузки указывает на отношение данного признака к фактору, что позволяется разделить признаки на группы.

Для подтверждения правильности распределения признаков по факторам были построены матрица корреляций, используя коэффициент Пирсона, и граф связей признаков.

Граф связей признаков

венчик энтропия пирсон сосуд



Двойной линией в графе соединены признаки, имеющие наибольший коэффициент корреляции, одинарной - наименьший, пунктирной линией - с обратной зависимостью. В графе связей объединяются в группы признаки, исходя из факторного анализа. Как видно из графа, группы не пересекаются между собой, что подтверждает их разделение факторным анализом.

Затем был проведен метод К-средних, использующий вместо признаков полученные значения факторов. В этом методе необходимо указывать количество кластеров. Так как иерархические методы показали, что должно быть 10-11 кластеров, то неиерархическим анализом была произведена кластеризация для такого количества кластеров.

Сравнения результатов иерархических и метода К-средних показывает совпадение разделения на кластеры 18 сосудов из 23, что составляет 78%. Окончательным решение задачи кластеризации является таблица, в которой указаны группы сосудов:


Группы сосудов12345678910Сосуд 7Сосуд4Сосуд8Сосуд6Сосуд13Сосуд22Сосуд1Сосуд2Сосуд3Сосуд17Сосуд14Сосуд26Сосуд9Сосуд12Сосуд15Сосуд23Сосуд18Сосуд27Сосуд28Сосуд19Сосуд20Сосуд21Сосуд25

Наибольшей по количеству сосудов группе соответствуют признаки, присущие памятнику «Лузанова Сопка-2»: «прямой венчик», «заостренная кромка», «орнамент на кромке», «гребенка вертикальная», «гребенка диагональная».

В последних четырех группах присутствуют признаки, которых нет на остальных сосудах, но на них много признаков из основной (многочисленной) группы, что означает, что не сосуд пришел из другой «культуры», а лишь орнаментальный признак.

Также было выявлено, что орнамент на кромке влияет на форму среза венчика.


Список литературы


1.Барсегян А.А. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP.-2-е изд., прераб. и доп.-С-П.,2008.

.Ким Дж.-О. Факторный, дискриминантный и кластерный анализ.-М.: Финансы и статистика, 1989.-215 с.:ил.

.Наследов А. SPSS 15 профессиональный статистический анализ данных.-С-П.,2008.


Теги: Исследование и классификация артефактов археологического памятника Лузанова Сопка-2  Другое  История
Просмотров: 10902
Найти в Wikkipedia статьи с фразой: Исследование и классификация артефактов археологического памятника Лузанова Сопка-2
Назад