Краткость – сестра таланта: нейросети читают за наc

Сегодня мы со всех сторон окружены информацией, а если верить одному из исследований американских ученых, то некоторые люди проводят за проверкой электронной почты и чтением различных текстов до 6 часов в день. А это значительно снижает продуктивность в выполнении более существенных задач. Для того чтобы не потонуть в океане из ежедневных потоков текстовой информации, группа специалистов из исследовательского проекта Массачусетского технологического института Salesforce разработала алгоритм, который, по их заверениям, будет моментально обрабатывать текст, оставляя только главные положения.

Авторы алгоритма отмечают принципиальное отличие этой разработки от предыдущих технологий по автоматическому сокращению текстов. А именно: использование метода машинного обучения и свойств нейросетей. Дело в том, что программы по созданию резюмированных блоков информации, которые просто используют язык исходного текста, весьма негибки. А методики генерирования условно «нового» языка зачастую порождают бессвязные предложения.

Технологии же компьютерного обучения учатся выделять повторяющиеся формулировки и определять, являются ли они ключевыми или это ненужные, избыточные фразы, исключив которые, можно существенно разгрузить текст. Поэтому программа должна четко понимать контекст, в котором информация находится, и постепенно вырабатывать наиболее оптимальный способ вычленения сути из него. Эту систему разработчики сравнивают с воображаемой ситуацией, когда студент пытается сдать один и тот же экзамен: во время каждой новой попытки он меняет свою стратегию так, чтобы сдать лучше, чем в прошлый раз, и при этом он все лаконичнее и быстрее излагает материал.

С помощью этого алгоритма, по словам разработчиков, мы сможем существенно экономить время, затрачиваемое на чтение любых текстов. В перспективе эта технология позволит осваивать больше информации за меньший промежуток времени, что будет востребовано студентами, организациями по предоставлению коммуникационных услуг и практически каждым офисным сотрудником.

Экспертное мнение

Сергей Викторович Кулешов, доктор технических наук, заведующий лабораторией автоматизации научных исследований Санкт-Петербургского института информатики и автоматизации РАН

«Фактически эту же самую задачу мы решили еще 5 лет назад. Однако в нашей разработке мы не задействовали механизмы нейросети, и созданный нами алгоритм был ориентирован на сокращение научных и технических текстов, из которых можно действительно убрать повторения без потери в смысловом сообщении текста. Для этого мы использовали статистические алгоритмы и технологию семантического поиска.

Данная же разработка, претендующая на универсальность, сама по себе имеет право на существование, но все-таки нельзя гарантировать, что этому алгоритму удастся обойти субъективность во всех текстах. Совершенно точно известно, что такие автоматические программы по сокращению информации плохо работают на художественных текстах. Дело в том, что в них мало повторений, ведь авторы стремятся использовать синонимы, различные живые конструкции. Поэтому у программы американских специалистов, вероятно, обнаружатся пределы для широкого применения».

ПОХОЖИЕ СТАТЬИ

Новые статьи