древняя грамматика и современный компьютер

Морфей для древнего Греческого

Морфей для древнего Греческого языка не является лингвистической программой. В том смысле, что не использует понятие “язык”, модель которого объясняла и описывала бы наблюдаемые языковые явления. Этот подход оказался весьма плодотворен - Морфей в версии 0.8.5 разпознает составные словофрмы, и (почти) не нуждается в понятии исключений.

лицензия: GNU GPL

Код и пакеты Морфея для Wndows, MacOS и Ubuntu можно загрузить по адресу: https://github.com/mbykov/morpheus-greek/releases/latest

принцип действия - модуль antrax

в тексте (предложении, нескольких предложениях) выделяются неизменяемые слова, “термины”, не требующие дальнейшего анализа. Например, все формы местоимений, артиклей, частиц, все конечные формы не регулярно склоняемых глаголов, etc. Т.к. греки записывали звучащую речь, а не “информативный текст”, они записывали все, что слышали. Например, среди всех слов во фразе εἴ περ γάρ ἐστιν ἡ ψυχὴ ἐν есть только одно слово не-термин, ψυχὴ, а все остальные - частицы, местоимения, артикли и конечная форма глагола “есть”, то есть термины.

оставшиеся изменяемы формы анализируются:

Морфей (модуль antrax - https://github.com/mbykov/antrax) делит словоформу на цепочки всех возможных сегментов (м.б. десятки тысяч цепочек). И затем выбирает наилучшие цепочки, устанавливая соответствия между сегментами. Соответствия могут быть

Т.о. Морфей легко определяет довольно сложные формы, например, προσδιαιρέω => προσ-δι-αιρέω, ἀμφοτερογνώμων => ἀμφοτερ-ο-γνώμων, etc

черный ящик

Наиболее важным соответствием является соответствие между стемом и окончанием. Для установления этого соответствия Морфей имеет специальный модуль. Этот модуль создает базу данных CouchDB по всем словоформам с ресурса https://en.wiktionary.org/wiki/Category:Ancient_Greek_lemmas - это более 300 тысяч словоформ. Эта база данных (‘flex’) служит фильтром, обучаемым по данным с wiktionary.org. Чем-то вроде черного ящика. То, что в нем происходит, нас не интересует, но все тесты по этим данным с помощью созданного фильтра - проходят. Тесты - процесс обратный созданию (обучению) фильтра: для словоформы из обучающего массива по базе flex определяются его морфологические характеристики, которые обязаны совпасть с исходными. При работе с произвольной словоформой не из обучающего набора (т.е. при регулярной работе Морфея) база flex возвращает объект, описывающий требования к словарной статье, соответствующие данной словоформе. По этим требованиям можно найти словарные статьи в имеющихся в Морфее словарях.

Это напоминает работу простейшей обучаемой одноранговой нейросети.

Вдобавок, в базе Flex классифицируется не привычная нам “парадигма”, но отдельный падеж словоформы. Это решение позволило отказаться от неизбежного в лингвистике понятия исключения. Морфей легко и автоматически обрабатывает формы, которые обычно считаются исключениями - например, формы глагола “быть”, формы подобные θρίξ (nom) - τριχός (gen), etc. Это решение позволяет также восстанавливать все формы слова для данной словарной статьи. Если мы все же заглянем в черный ящик, мы увидим как “классические парадигмы”, так и “парадигмы с неожиданными добавлениями”, а во многих случаях вообще “некий ужас”. Поэтому лучше туда не заглядывать, при условии, что все тесты проходят. Использование “черного ящика” вместо “системы парадигм” есть следствие не использования понятия “язык” и отсутствия установки на его (языка) исследование и моделирование.

имена и античная грамматика

Важное следствие: antrax не имеет поэтому отдельно “парадигм существительного” и “парадигм прилагательного”, способы склонения всех типов имен общие. Если словарная статья имеет параметр “род” (совр. существительное), результат получает род из словарной статьи, а если не имеет (совр. прилагательное), то из свойств окончания. Это полностью соответствует античной грамматике.