Восстановление, размещение и датировка древних текстов благодаря сотрудничеству ИИ и историков.
Рождение человеческой письменности ознаменовало собой рассвет История и имеет решающее значение для нашего понимания прошлых цивилизаций и мира, в котором мы живем сегодня. Например, более 2500 лет назад греки начали писать на камне, глиняной посуде и металле, чтобы документировать все, от договоров аренды и законов до календарей и оракулов, давая подробное представление о Средиземноморье. К сожалению, это неполная запись. Многие из сохранившихся надписей были повреждены на протяжении веков или перемещены с их первоначального места. Кроме того, современные методы датирования, такие как радиоуглеродное датированиенельзя использовать на этих материалах, что затрудняет интерпретацию надписей и требует много времени.
В соответствии с Миссия DeepMind решения разведки для развития науки и человечества, мы сотрудничали с Кафедра гуманитарных наук Венецианского университета Ка’Фоскари, Факультет классики Оксфордского университетаи Кафедра информатики Афинского университета экономики и бизнеса изучить, как машинное обучение может помочь историкам лучше интерпретировать эти надписи, что дает более глубокое понимание древней истории и раскрывает потенциал сотрудничества между ИИ и историками.
В бумага опубликовано сегодня в Природа, мы совместно представляем Итаку, первую глубокую нейронную сеть, которая может восстановить недостающий текст поврежденных надписей, определить их первоначальное местоположение и помочь установить дату их создания. Итака названа в честь греческого острова в Гомера Одиссея и основывается и расширяет Пифия, наша предыдущая система, ориентированная на восстановление текста. Наши оценки показывают, что Ithaca достигает 62-процентной точности при восстановлении поврежденных текстов, 71-процентной точности в определении их первоначального местоположения и может датировать тексты с точностью до 30 лет от их наземных диапазонов дат. Историки уже использовали этот инструмент для переоценки важных периодов греческой истории.
Чтобы сделать наши исследования широко доступными для исследователей, преподавателей, сотрудников музеев и других лиц, мы сотрудничаем с Облако Google и Google Искусство и культура запустить бесплатная интерактивная версия Итаки. И чтобы помочь дальнейшим исследованиям, мы также с открытым исходным кодом наш код, предварительно обученная модель и интерактивная записная книжка Colaboratory.
Инструменты для совместной работы
Итака тренируется на крупнейший цифровой набор данных греческих надписей из Гуманитарный институт Паккарда. Обработка естественного языка модели обычно обучаются с использованием слов, потому что порядок, в котором они появляются в предложениях, и отношения между ними обеспечивают дополнительный контекст и значение. Например, «однажды» имеет больше смысла, чем каждый символ или слово по отдельности. Тем не менее, многие из надписей с Итаки, которые интересуют историков, повреждены и часто отсутствуют фрагменты текста. Чтобы убедиться, что наша модель все еще работает при представлении одного из них, мы обучили ее, используя как слова, так и отдельные символы в качестве входных данных. Механизм разреженного внутреннего внимания в ядре модели оценивает эти два входа параллельно, позволяя Итаке оценивать надписи по мере необходимости.
Чтобы максимизировать ценность Итаки как исследовательского инструмента, мы также создали ряд наглядных пособий, чтобы историки могли легко интерпретировать результаты Итаки:
- Гипотезы восстановления: Ithaca генерирует несколько гипотез прогнозирования для задачи восстановления текста, чтобы историки могли выбирать из них, используя свой опыт.
- Географическая принадлежность: Итака демонстрирует свою неопределенность, предоставляя историкам распределение вероятностей по всем возможным прогнозам, а не только по одному результату. В результате он возвращает вероятности для 84 различных древних регионов, представляющих его уровень достоверности. Он визуализирует эти результаты на карте, чтобы пролить свет на возможные лежащие в основе географические связи в древнем мире.
- Хронологическая атрибуция: при датировании текста Итака производит распределение предсказанных дат по всем десятилетиям от 800 г. до н.э. до 800 г. н.э. Это может позволить историкам визуализировать достоверность модели для конкретных диапазонов дат, что может дать ценную историческую информацию.
- Карты значимости: Чтобы передать результаты историкам, Итака использует метод, обычно используемый в компьютерном зрении, который определяет, какие входные последовательности вносят наибольший вклад в прогноз. Вывод выделяет слова разной интенсивностью цвета, которые привели к предсказаниям Итаки об отсутствующем тексте, местоположении и датах.
Вклад в исторические дебаты
Наша экспериментальная оценка показывает, как дизайнерские решения Итаки и средства визуализации облегчают исследователям интерпретацию результатов. Опытные историки, с которыми мы работали, добились 25% точности, работая в одиночку над восстановлением древних текстов. Но при использовании Итаки их производительность увеличивается до 72%, превосходя индивидуальную производительность модели и демонстрируя потенциал сотрудничества человека и машины для улучшения исторической интерпретации, установления относительных датировок исторических событий и даже для участия в текущих методологических дебатах.
Например, в настоящее время историки расходятся во мнениях относительно даты ряда важных событий. афинские указы сделано в то время, когда жили такие известные личности, как Сократ и Перикл. Долгое время считалось, что указы были написаны до 446/445 г. до н.э., хотя новые данные предполагают дату 420-х гг. Хотя это может показаться небольшой разницей, эти декреты имеют основополагающее значение для нашего понимания политической истории классических Афин.
Наш обучающий набор данных содержит более раннюю цифру 446/445 г. до н.э. Чтобы проверить предсказания Итаки, мы переобучили его на наборе данных, который не содержал датированных надписей, а затем представили эти протянутые тексты для анализа. Примечательно, что средняя предполагаемая дата указов на Итаке — 421 г. до н. э., что согласуется с самыми последними прорывами в датировании и показывает, как машинное обучение может способствовать дебатам вокруг одного из самых значительных моментов в истории Греции.
Мы считаем, что это только начало для таких инструментов, как Итака, и потенциал для сотрудничества между машинным обучением и гуманитарными науками. Древняя Греция играет важную роль в нашем понимании Средиземноморья, но это всего лишь часть обширной глобальной картины цивилизаций. С этой целью в настоящее время мы работаем над версиями Итаки, обученными другим древним языкам, и историки уже могут использовать свои наборы данных в текущей архитектуре для изучения других древних систем письма, от аккадский к демотический и иврит к майя. Мы надеемся, что такие модели, как Итака, смогут раскрыть потенциал сотрудничества между ИИ и гуманитарными науками, трансформируя то, как мы изучаем и пишем о некоторых из наиболее значительных периодов в истории человечества.