04.09.2013
Автор: Светлана Васильевна

Google N-gram и эволюция языка

Google N-gram.jpeg

Современные цифровые технологии позволяют отслеживать частоту употребления отдельных слов в книгах, начиная от 1500 года. Оцифровав 5,2 миллиона книг, корпорация Google совместно с учеными из Гарварда создали проект N-gram. Он начал целое направление исследований - культуромику, т.е. исследования развития языка и культуры с помощью анализа оцифрованных текстов.

За всю историю человечества написаны миллионы книг. Понятно, что прочитать даже небольшой процент из них уходит далеко за пределы человеческих возможностей. Современные цифровые технологии, однако, предоставили возможность отслеживать частоту употребления отдельных слов в книгах, начиная от 1500 года и до сих пор.

Оцифровав 5,2 миллиона книг (4% из всего количества созданных человечеством), специалисты корпорации Google совместно с учеными Гарвардского университета создали проект N-gram, который содержит базу из более 500 миллиардов слов на английском, испанском, русском, французском, немецком, китайском языках. Проект начал целое направление исследований - культуромику, суть которой в исследовании развития иностранного языка Speak Up и культуры с помощью анализа оцифрованных текстов.

При помощи Google N-gram можно, например, увидеть, как количество употреблений слова «женщины» во 2-й половине 1980-х годов опередило слово «мужчины»; как имена знаменитостей в 20 веке «затухали» вдвое быстрее, чем в 19 -м; как технологические сроки для широкого утверждения требовали в среднем 66 лет в 1800 и только 27 лет - в 1880-м и т.п.



Не нашли подходящую информацию? Не беда! Воспользуйтесь поиском на сайте в верхнем правом углу.