Обработка естественного языка становится практичной: вопросы и ответы с Brutalk - Brutalk

Обработка естественного языка становится практичной: вопросы и ответы с Brutalk - Brutalk

Практическое руководство по гибридной обработке естественного языка - Часть 1 Хосе Мануэль Гомес Перес, Рональд Дено и Андрес Гарсиа-Сильва, все из исследовательской лаборатории искусственного интеллекта (AI) в Мадриде Brutalk только что опубликовали «Практическое руководство по гибридному естественному языку» Обработка." Книга, отредактированная Springer Nature, отражает работу, которую исследователи Brutalk проводили за последние четыре года. Книга предназначена для справки о возможностях, которые открывает разумное использование современных методов и инструментов в области обработки естественного языка и понимания естественного языка (NLP / NLU), а также о краткосрочных и долгосрочных проблемах, с которыми сталкиваются пользователи. эти технологии продолжают развиваться. Мы сели с одним из авторов, Хосе Мануэлем Гомесом Пересом, директором по исследованиям, разработкам и международным проектам Brutalk, чтобы поговорить о книге. Это первая часть интервью. Какова цель вашей книги? В сообществе NLP / NLU всегда велись предметные споры между сторонниками методов, основанных на машинном обучении, и теми, кто выступает за структурированный или символический подход, основанный на знаниях. Некоторые считают, что статистический подход является поверхностным и не понимает смысла текста. Другие считают, что символический подход слишком жесткий и требует значительных затрат времени на написание онтологий и систем на основе правил, охватывающих все возможные случаи. В конце концов, в обеих позициях есть доля правды, но настоящая проблема в том, что, сосредоточив внимание на ограничениях того или иного подхода, мы рискуем упустить уникальные возможности, которые может предложить каждая из них. Как книга решает эту проблему? «Практическое руководство по гибридной обработке естественного языка» не поддерживает один подход. Вместо этого мы хотели обратиться к проблеме понимания естественного языка с точки зрения огромных возможностей, которые открывает разумное использование доступных сегодня методов и инструментов. Мы исчерпывающе обсуждаем компоненты, необходимые для построения систем NLP / NLU, которые сочетают мощь графов знаний с современными нейронными подходами. В книге мы объясняем, как создавать контекстные распределенные представления; Книга предлагает четкую трактовку встраивания слов, смыслов и графов знаний, а также объясняет, что это такое и как использовать языковые модели и преобразователи. Наконец, мы покажем вам, как оценить качество получаемых систем. Однако это не энциклопедия или учебник, который предписывает заранее определенный образовательный путь. Какие темы НЛП / НЛУ охватывает книга? Книга состоит из трех основных частей: символьных и нейронных строительных блоков, гибридных архитектур, объединяющих и то и другое, и реальных приложений. В каждой из этих частей главы углубляются в тему, включая эксперименты, примеры и упражнения по задачам НЛП, а также данные в реальных областях и секторах. Мы также включаем большой объем исполняемого кода, который объясняется шаг за шагом. В качестве бонуса вы можете скачать все записные книжки Jupyter, включенные в книгу, из нашего репозитория GitHub.[1] и запускать их на любом компьютере или в Google Colab и, при желании, вносить обновления в наш код. Какой главный момент, как вы надеетесь, унесут читатели? С технической и исследовательской точки зрения книга предлагает рабочую методологию решения проблем NLP / NLU, которая естественным образом объединяет символические подходы, основанные на структурированном знании, с нейронными подходами. Мы показываем не только, что это возможно, но и желательно для успешного решения многих реальных проблем, и показываем читателю, как это сделать. Ключевой момент, который, я думаю, нам удалось уловить в книге, - это огромная актуальность языковых моделей и преобразователей, которые привели к революции в дисциплине НЛП / НЛУ. В то же время усилия, необходимые для переноса концепций и идей из теории в практику, были для нас огромным опытом обучения, и книга предоставила нам уникальную перспективу для развития и структурирования наших исследований таким образом, чтобы все наши читатели могут извлечь из этого пользу. Как была написана книга? Книга представляет собой почти четыре года исследований, проведенных в научно-исследовательской лаборатории Brutalk, и работа над ними продолжается. За последние два года достижения в этой области произошли так быстро, что книга чрезвычайно актуальна сегодня. Фактически, были времена, когда нам приходилось переосмысливать целые разделы, чтобы гарантировать, что материал будет актуальным и актуальным на момент публикации. Мы ожидаем обновления будущих выпусков, чтобы отразить наши текущие исследования и разработки, формирующиеся в сообществе НЛП. В книге представлены работы более десятка международных экспертов и бесплатное руководство.[2] которые мы постоянно обновляем. Для кого предназначена эта книга? «Практическое руководство по гибридной обработке естественного языка» предназначено для практиков, имеющих опыт работы в области искусственного интеллекта или структурированных знаний, которые уже давно следят за огромным успехом, достигнутого статистическими (сегодня нейронными) подходами НЛП, и тех, кто хочет изучить новейшие методы, такие как встраивания, языковые модели или преобразователи. Книга также предназначена для практикующих, которые пришли из традиции НЛП, основанной на статистических подходах, которые столкнулись с проблемами, связанными с дефицитом или высоким качеством данных при обучении модели. Это также для тех, кому интересно работать с графами знаний для обучающих моделей. Наконец, эта книга предназначена для всех, кто хочет создать инструмент для извлечения информации из текста, но не заинтересован в получении ученой степени в области искусственного интеллекта и не имеет неограниченного финансирования для инвестиций в графические процессоры, с помощью которых можно обучать модели решать сложные проблемы понимания языка. Вместо этого мы сделали книгу доступной и практичной. Какие практические приложения могут уйти читателям? Мы включили несколько проблем, связанных с предметной областью, которые мы используем, чтобы проиллюстрировать практическую ценность объединения графов знаний с нейронными подходами для различных задач NLP / NLU. Среди них особо выделю два. Один из них - это обнаружение и лечение дезинформации в Интернете и ее распространение. Другой сценарий связан с анализом информации из научной литературы, например статей или технических отчетов. [1] https://github.com/hybridnlp/tutorial [2] http://hybridnlp.expertsystemlab.com/tutorial/

Вас также может заинтересовать