Оформите заявку на сайте, мы свяжемся с вами в ближайшее
время и ответим на все интересующие вопросы.
Особые алгоритмы позволили экспертам исследовать тексты произведений,
опубликованных на английском языке в 1850-х, 1900-х и 1950-х годах.
Модифицированная математическая функция выдала информацию о том, как отличаются
слова и предложения в текстах разного времени. Позже удалось выявить взаимосвязь
изменений — посредством сервиса Google Ngram, исследовавшего книги из базы Google
Books.
Можно было высчитать количество лексем, которые есть в одном тексте, но отсутствуют
в другом, либо определить частотность использования конкретных слов. Ученые выбрали
второй путь — и были вознаграждены открытием.
Посредством расстояния Йенсена — Шеннона (Jensen-Shannon divergence) обнаружены
идентичные и похожие отрывки текста (последовательности символов), а также
отличающиеся. Специалисты поняли, что анализируемые произведения различаются
прежде всего теми словами, которые встречаются очень редко.
Эксперты утверждают, что выводы верны не только для английского, но и для испанского
и русского языков.