Общество

Векторное представление слов показало, как изменилось отношение к женщинам и азиатам

5 апреля 2018 0

мир, слова, текст, карта

 

Лингвистика уже давно использует математические методы, чтобы определить закономерности в развитии естественных языков. Недавнее исследование в журнале Proceedings of the National Academy of Sciences показало, как метод векторного представления слов помогает увидеть отражение общественных изменений в языке. Например женской эмансипации или уменьшения нетерпимости к этническим меньшинствам.

Что такое векторное представление слов?

Векторное представление слов (word embedding) позволяет сопоставить их с некими векторами и при этом оценить семантическую близость. Как это понять на практике? Если у вас есть слова «мама» и «папа», и вы составите для каждого из них многомерный вектор, используя определенный корпус текстов, то обнаружите, что эти векторы находятся очень близко друг к другу. Это сигнализирует о том, что семантика взятых слов похожа — оба обозначают родителей.

Составление векторных моделей происходит при помощи машинного обучения. Человек не в состоянии обработать весь массив текстов, необходимый для того, чтобы вывести корректные семантические связи между словами. Тексты тоже должны быть на абы какими. Чтобы модель соответствовала требованиям социологического анализа, лучше брать новостные заметки, публицистику, статьи на «Википедии», а не художественную литературу. Иначе может вдруг оказаться, что вектор слова «заводной» более близок к вектору слова «апельсин», чем «механизм».

Что модель может сказать о гендерных и национальных стереотипах?

Ученые из Стэнфордского университета решили проверить, как метод векторного представления слов может послужить для оценки исторических тенденций и социальных изменений. Для конкретики они взяли тему гендерных и национальных стереотипов. Чтобы проанализировать то, как они изменялись, ученые использовали корпус текстов, написанных в США в течение века, начиная с 1910 года. На их основе было проведено машинное обучение и получена векторная модель. Затем результаты представления слов сравнили с демографическими данными за каждый период.

Что интересного увидели ученые? Во-первых, была обнаружена корреляция между векторными моделями и распространенными среди женщин профессиями. Если в начале века гендерный уклон в профессиях был высок, то с 50-х годов он начал заметно снижаться. Это явно связано с развитием феминистского движения в тот период. Оно также повлияло на семантическую близость прилагательных и слов, обозначающих женщин. В 1910-х годах такими прилагательными были «мечтательная» и «милая», в 1950-х — «безвкусная» и «согласная», в 1990-х — «искусственная» и «ненатуральная». Такие же корреляции нашлись для представителей этнических меньшинств, в данном случае азиатов. В соответствующие периоды прилагательные менялись со слов с более негативной семантикой («завистливые») к словам с менее негативной («сдержанные»).

Исследование доказывает, что любые перемены в обществе отражаются на языке его представителей. В перспективе методы анализа, подобные word embedding, могут быть полезны для изучения различных исторических эпох и откроют множество ранее неизвестных нюансов.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Рассказать друзьям

0 Комментариев

Подписаться на рассылку

Комментарии

Войти с помощью 

Присоединяйтесь к нам в социальных сетях

В наших группах вы можете узнать много нового и интересного, а так же - принять участие в опросах и конкурсах

Присоединиться
Присоединиться