Помечтаем, что на лингвистику пролился бы золотой дождь: десятки, сотни миллиардов долларов на протяжении нескольких десятилетий. Пришли бы делать карьеру самые талантливые в поколении молодые люди, кафедры были бы оснащены сверхмощными компьютерами и анализаторами, для рутинной работы можно было бы привлечь миллионы операторов, лаборантов и участников экспериментов. Экспедиции можно было бы снаряжать с почти безграничным снабжением.
Каких бы глобальных результатов, по вашему мнению, можно было бы достичь?
Новое оружие массового поражения.
Цитата: _Swetlana от декабря 3, 2015, 23:56
Новое оружие массового поражения.
НЛП-бомба :o
Чтобы на лингвистику пролился золотой дождь, надо сделать что-то впечатляющее военных. Когда в едва народившихся экспертных системах сделали автопилот, то на них пролился золотой дождь.
Цитата: alant от декабря 4, 2015, 00:06НЛП-бомба :o
Это уже давно изобретено и работает. Почти в каждом доме стоит, а то и не по одной.
Цитата: Bhudh от декабря 4, 2015, 00:40
Цитата: alant от декабря 4, 2015, 00:06НЛП-бомба :o
Это уже давно изобретено и работает. Почти в каждом доме стоит, а то и не по одной.
Не стопроцентное поражение.
На остальные проценты приходятся другие типы лингвовооружения.
Цитата: _Swetlana от декабря 3, 2015, 23:56
Новое оружие массового поражения.
Мелко мыслите. Оружие создаётся за бюджетные деньги. Это мизерный процент от объёма частных спекулятивных капиталов, ищущих, куда бы вложиться, инвестироваться.
Описали бы все живые языки нормально! Надо всё записать. Многотомные словари по всему.
Результатом будет увеличение живого веса лингвиста более чем на 10 кг.
Цитата: Bhudh от декабря 4, 2015, 02:37
На остальные проценты приходятся другие типы лингвовооружения.
Лингвофорум :yes:
нанолингвистика, как вам? 8-)
Цитата: Nevik Xukxo от декабря 4, 2015, 07:53
Надо всё записать. Многотомные словари
На бумаге?! Какой ужас...
Завтра ЭВМ будут в формфакторе нейросетей, вживлённых под кожу головы, и соединяющих мозг он-лайн с облаками информации.
Будут массово востребованы учебные базы и симуляторы навыков профессий, включая профессию синхронного переводчика.
А у лингвистов нет электронных моделей стандартных языков с точностью, хотя бы, десять в минус шестой степени; нет семантической разметки стандартных языков; нет моделей распознания звуков речи.
Цитата: Rusiok от декабря 3, 2015, 23:31
Каких бы глобальных результатов, по вашему мнению, можно было бы достичь?
Золотой дождь, пролившийся на лингвистику, приведёт к таким глобальным результатам: зачахнет экономика, финансы, образование (кроме лингвистического), медицина, оборона и вообще всё-всё-всё, кроме лингвистики. Но потом без еды и всего прочего вымрут и расплодившиеся в огромнейших количествах лингвисты, сжимая в холодеющих руках огромные бесполезные тома лингвистической литературы... :'(
Цитата: Rusiok от декабря 4, 2015, 11:00
у лингвистов нет электронных моделей стандартных языков с точностью, хотя бы, десять в минус шестой степени; нет семантической разметки стандартных языков; нет моделей распознания звуков речи.
согласен, именно этим и следовало бы заняться. Если мы наконец-то добьёмся качественного машинного перевода текста и звука, это будет настоящий прорыв.
Кроме этого, есть некоторые языки, даже под 10 миллионов носителей, которые очень слабо изучены, почти без полных и всеобъемлющих работ по грамматике. Вообще, обычно языки без государственности изучаются хуже, я бы туда направил часть усилий. Например, кто, что и где написал про кашкайский язык (больше миллиона говорящих)?
Необходим полный электронный корпус всех лингвистических произведений, с перекрёстными гиперссылками (а ссылок в этой научной литературе под половину общего текста...), чтобы не надо было копаться в этимологических словарях с какими-то глухими ссылками на лейпцигский журнал 1857 г., а просто открыть и прочитать, а что же конкретно там было написано (и с переводом на родной язык, естественно) и какую именно аргументацию приводил тот или иной автор.
Причём если инфа достаточно краткая, на ссылку можно повесить всплывающую подсказку с ней.
Цитата: Rusiok от декабря 4, 2015, 11:00
На бумаге?! Какой ужас...
На глиняных табличках!
Цитата: Bhudh от декабря 4, 2015, 11:57
Необходим полный электронный корпус всех лингвистических произведений, с перекрёстными гиперссылками
С этим надо поосторожнее. Обязательна оценка соответствия современным требованиям к научности и необходимая категория допуска пользователей. А то можно в массы понапускать таких изуверских суеверий, бредней и псевдонауки, по сравнению с которыми нордическая теория арийства покажется невинной романтикой
Цитата: Rusiok от декабря 4, 2015, 07:33
Цитата: _Swetlana от декабря 3, 2015, 23:56
Новое оружие массового поражения.
Мелко мыслите. Оружие создаётся за бюджетные деньги. Это мизерный процент от объёма частных спекулятивных капиталов, ищущих, куда бы вложиться, инвестироваться.
Несообразности говорите. Закон 20/80 знаете?
Кто, по-вашему, будет финансировать 80% теоретических исследований, от которых в обозримом будущем не будет никакой отдачи? Спекулянты-перекупщики? И с чего вы решили, что от достижений в области лингвистики должна быть какая-то польза?
Цитата: Rusiok от декабря 3, 2015, 23:31
Помечтаем, что на лингвистику пролился бы золотой дождь: десятки, сотни миллиардов долларов на протяжении нескольких десятилетий. Пришли бы делать карьеру самые талантливые в поколении молодые люди, кафедры были бы оснащены сверхмощными компьютерами и анализаторами, для рутинной работы можно было бы привлечь миллионы операторов, лаборантов и участников экспериментов. Экспедиции можно было бы снаряжать с почти безграничным снабжением.
Каких бы глобальных результатов, по вашему мнению, можно было бы достичь?
А разве сейчас это не так?
как пессимист и мизантроп предсказываю: весь золотой дождь разворуют, а на остатки напечатают 100500 ненужных словарей, организуют 100500 конференций и съездов и все завалят нафиг словоблудием. :no:
Цитата: Mishka_Fofer от декабря 4, 2015, 16:58
как пессимист и мизантроп предсказываю: весь золотой дождь разворуют, а на остатки напечатают 100500 ненужных словарей, организуют 100500 конференций и съездов и все завалят нафиг словоблудием. :no:
+1. Но привес каждого отдельно взятого лингвиста в килограммах обязательно проявит себя.
И вообще, мне показалось, сабжмейкер не понимает, что значительный результат в одной из областей науки - это не результат ее исключительного финансирования, а следствие многих факторов.
Цитата: Mishka_Fofer от декабря 4, 2015, 16:58
напечатают 100500 ненужных словарей
Мне непонятно, как словари могут быть ненужными. :what: Даже если они получатся хуже существующих, всё равно удобно иметь под рукой несколько словарей для сравнения.
Цитата: Rusiok от декабря 4, 2015, 12:47С этим надо поосторожнее. Обязательна оценка соответствия современным требованиям к научности и необходимая категория допуска пользователей.
Считаете, в
Indogermanische Forschungen (https://en.wikipedia.org/wiki/Indogermanische_Forschungen) паслись фрики?
Тогда нужно срочно закрывать https://archive.org/details/texts (https://archive.org/details/texts), где выложены отдельные начальные выпуски!‥ Хотя что это я... Наши родные власти этот сайт уже успешно заблочили. Видимо, предпочитают превентивные меры...
Цитата: I. G. от декабря 4, 2015, 17:09
значительный результат в одной из областей науки - это не результат ее исключительного финансирования, а следствие многих факторов.
Какие ещё другие факторы нужны для результата? Правда, не понимаю. Может, существует фундаментальный запрет на моделирование языка, вроде законов сохранения или принципа неопределённости в физике или теоремы Гёделя о неполноте в математике?
Цитата: Rusiok от декабря 5, 2015, 20:23
Цитата: I. G. от декабря 4, 2015, 17:09
значительный результат в одной из областей науки - это не результат ее исключительного финансирования, а следствие многих факторов.
Какие ещё другие факторы нужны для результата?
Преставьте себе, что посадят кучу ученых и скажут, вот вам неограниченное количество денег, изобретайте что-то крутое. Но при этом никто не знает, что. И самое главное, когда. Сколько туда придет псевдоученых, чтобы получать деньги, нечего не делая? И останется ли место для настоящих гениев? :no:
Вы идеализируете человеческую природу.
Цитата: Basil от февраля 26, 2016, 23:02
И самое главное, когда. Сколько туда придет псевдоученых, чтобы получать деньги, нечего не делая?
Ну тәк они же потом и по шее получать будут. В природе всё уравновешено. :yes:
Цитата: Wolliger Mensch от февраля 26, 2016, 23:05
Цитата: Basil от февраля 26, 2016, 23:02
И самое главное, когда. Сколько туда придет псевдоученых, чтобы получать деньги, нечего не делая?
Ну тәк они же потом и по шее получать будут. В природе всё уравновешено. :yes:
Для этого надо определить критерии успеха/неуспеха. А в нашем случае неизвестно, что нужно изобрести/создать и когда.
Цитата: Basil от февраля 26, 2016, 23:08
А в нашем случае неизвестно, что нужно изобрести/создать и когда.
это вообще особенность НИР в любой сфере знания. там, где результат заранее известен - науки нет.
Цитата: Basil от февраля 26, 2016, 23:08
Цитата: Wolliger Mensch от февраля 26, 2016, 23:05
Цитата: Basil от февраля 26, 2016, 23:02
И самое главное, когда. Сколько туда придет псевдоученых, чтобы получать деньги, нечего не делая?
Ну тәк они же потом и по шее получать будут. В природе всё уравновешено. :yes:
Для этого надо определить критерии успеха/неуспеха. А в нашем случае неизвестно, что нужно изобрести/создать и когда.
Есть же научные премии. Есть научные статьи, их критика и цитирование.
Цитата: Basil от февраля 26, 2016, 23:08
Для этого надо определить критерии успеха/неуспеха. А в нашем случае неизвестно, что нужно изобрести/создать и когда.
Это обычное явление: учёный будет работать на гранты вместе со псевдоучёными. И учёного может получиться, а может не получиться, у псевдоучёного никогда не получится. Природу вещей не обманешь.
Цитата: Basil от февраля 26, 2016, 23:02
Цитата: Rusiok от декабря 5, 2015, 20:23
Цитата: I. G. от декабря 4, 2015, 17:09
значительный результат в одной из областей науки - это не результат ее исключительного финансирования, а следствие многих факторов.
Какие ещё другие факторы нужны для результата?
Преставьте себе, что посадят кучу ученых и скажут, вот вам неограниченное количество денег, изобретайте что-то крутое. Но при этом никто не знает, что. И самое главное, когда. Сколько туда придет псевдоученых, чтобы получать деньги, нечего не делая? И останется ли место для настоящих гениев? :no:
Вы идеализируете человеческую природу.
Для прорыва в лингвистике надо, чтобы был прорыв в целом в гуманитарных (связанных с человеком) отраслях, а его пока нет.
На что должен быть похож прорыв в гуманитарных отраслях?
Цитата: Python от февраля 27, 2016, 21:43
На что должен быть похож прорыв в гуманитарных отраслях?
На сколько-нибудь божеское объяснение работы мозга в целом и как там язык живет в частности.
Цитата: I. G. от февраля 28, 2016, 12:02
Цитата: Python от февраля 27, 2016, 21:43
На что должен быть похож прорыв в гуманитарных отраслях?
На сколько-нибудь божеское объяснение работы мозга в целом и как там язык живет в частности.
Этим другая наука занимается.
Цитата: VagneR от февраля 28, 2016, 12:05
Цитата: I. G. от февраля 28, 2016, 12:02
Цитата: Python от февраля 27, 2016, 21:43
На что должен быть похож прорыв в гуманитарных отраслях?
На сколько-нибудь божеское объяснение работы мозга в целом и как там язык живет в частности.
Этим другая наука занимается.
:fp: :fp: :fp:
Хоть бы что-нибудь почитали, ей-богу!
Цитата: I. G. от февраля 28, 2016, 12:11
Цитата: VagneR от февраля 28, 2016, 12:05
Этим другая наука занимается.
:fp: :fp: :fp:
Хоть бы что-нибудь почитали, ей-богу!
Не останавливайтесь. (http://www.kolobok.us/smiles/standart/popcorm1.gif)
Цитата: Wolliger Mensch от февраля 28, 2016, 12:15
Цитата: I. G. от февраля 28, 2016, 12:11
Цитата: VagneR от февраля 28, 2016, 12:05
Этим другая наука занимается.
:fp: :fp: :fp:
Хоть бы что-нибудь почитали, ей-богу!
Не останавливайтесь. (http://www.kolobok.us/smiles/standart/popcorm1.gif)
Извините, вынуждена. "Три часа - обед!"
Для тех, кто в тундре: https://ru.wikipedia.org/wiki/Нейролингвистика
Цитата: I. G. от февраля 28, 2016, 12:11
:fp: :fp: :fp:
Хоть бы что-нибудь почитали, ей-богу!
Почитала.
ЦитироватьНейролингви́стика (от греч.νεῦρον — нерв, лат.lingua — язык) — отрасль психологической науки.
Цитата: VagneR от февраля 28, 2016, 12:36
Цитата: I. G. от февраля 28, 2016, 12:11
:fp: :fp: :fp:
Хоть бы что-нибудь почитали, ей-богу!
Почитала.
ЦитироватьНейролингви́стика (от греч.νεῦρον — нерв, лат.lingua — язык) — отрасль психологической науки.
А дальше?
Прикладная лингвистикаКомпьютерная лингвистика
Лингвистическая экспертиза
Усвоение языка
Языковое тестирование
Развитие речи
Прескриптивизм
Антропологическая лингвистика
Нейролингвистика
Психолингвистика
Стилистика
Переводоведение
Вы первый раз это все видите?
Это на ЛФ какой-то дикий крен в вопросы "А как Вы произносите тефтели" и "Сколько ларингалов было в прачукотском языке". Все эти проблемы в современной лингвистике вообще на периферии.
И.Г., успокойтесь, пожалуйста, с вами очень трудно вести диалог.
Цитата: VagneR от февраля 28, 2016, 12:48
И.Г., успокойтесь, пожалуйста, с вами очень трудно вести диалог.
Ну а к чему была Ваша фраза, если Вы не разбираетесь вообще?
Что Вы хотели ей сказать?
Нейролингвистика, когнитивная лингвистика, психолингвистика - бурно развивающиеся направления последних десятилетий, которые как раз занимаются этими проблемами. В вузах, конечно же, в наших, вся история лингвистики останавливается на структурализме, и потом студенты свято уверены, что все остальное "этим другая наука занимается".
У нас и компьютерная лингвистика — раздел компьютерных наук. Поэтому читаешь статьи программистов на тему обработки языка и думаешь: «А в лингвистике-то они что понимают?».
Цитата: Bhudh от февраля 28, 2016, 13:23
У нас и компьютерная лингвистика — раздел компьютерных наук. Поэтому читаешь статьи программистов на тему обработки языка и думаешь: «А в лингвистике-то они что понимают?».
Да, читала я как-то на Хабре подобные статьи.
Автора спросили, что-то про прагматику, и он не понял, чего он него хотят.
Цитата: I. G. от февраля 28, 2016, 12:51
Цитата: VagneR от февраля 28, 2016, 12:48
И.Г., успокойтесь, пожалуйста, с вами очень трудно вести диалог.
Ну а к чему была Ваша фраза, если Вы не разбираетесь вообще?
Что Вы хотели ей сказать?
Допустим, я не разбираюсь. Почему между хамить и объяснить вы выбираете первое?
Цитата: I. G. от февраля 28, 2016, 12:51
Нейролингвистика, когнитивная лингвистика, психолингвистика - бурно развивающиеся направления последних десятилетий, которые как раз занимаются этими проблемами.
Вот именно, что последних десятилетий, потому что ноги у них растут из нейрофизиологии и нейропсихологии, которые не перестают заниматься проблемами языка и речи, а лингвистические направления так и остаются пограничными вариантами. В принципе, я только это и хотела сказать.
Вот именно что так и не поняли ничего. Когнитивная лингвистика никакого отношения к нейрофизиологии не имеет, и это не "пограничное состояние", у неё уши растут из хомскианства, куда уж более лингвистичному быть?
Психолингвистика - это совсем не психология, общее там, скорее, эксперимент как основной метод и статистическая обработка. Все это "вызревало" в самой лингвистике достаточно долго, а у нас до сих пор "пограничные отрасли" в виде разговоров про Брока и Вернике.
Цитата: Bhudh от февраля 28, 2016, 13:23
У нас и компьютерная лингвистика — раздел компьютерных наук. Поэтому читаешь статьи программистов на тему обработки языка и думаешь: «А в лингвистике-то они что понимают?».
и слава богу!
Цитировать"Every time I fire a linguist, the performance of the speech recognizer goes up"
:D
серьезное продвижение вперед может обеспечить научный синтез. ну тут собсно последние сообщения и посвящены вопросам "на стыке лингвистике с..."
можно еще состыковать-таки палеолингвистику с...
1) исторической демографией;
2) исторической этнологией;
3) исторической психологией;
4) исторической еще-что-нибудью.
а мы все топчемся на уровне говорящих горшков и гаплогрупп. история языка должна быть ближе к истории его носителей. при этом говорить о становлении какого-то целостного направления по этому вектору можно будет только при наличии исследований по разным диким экзотическим языкам - тогда лишь могут разъясниться какие-то общие закономерности и тенденции. пока такими вещами занимаются только клесовы и чудиновы. ну и глоттохронология, которая недалеко от них ушла. причем довольно успешно (для себя), при отсутствии конкуренции-то.
Цитата: Rusiok от декабря 3, 2015, 23:31Каких бы глобальных результатов, по вашему мнению, можно было бы достичь?
нормальный переводчик хотя бы сделали, а не этот тупой гуглотолмач.
Цитата: I. G. от февраля 28, 2016, 12:22
Для тех, кто в тундре: https://ru.wikipedia.org/wiki/Нейролингвистика
Вы просто употребили слово
божеское объяснение. Поэтому к вам и придираются. Нам нужно не божеское, а научное объяснение.
Цитата: I. G. от февраля 28, 2016, 12:51
Нейролингвистика, когнитивная лингвистика, психолингвистика - бурно развивающиеся направления последних десятилетий, которые как раз занимаются этими проблемами.
Перечислите пару важнейших достижений, если не сложно.
Цитата: Bhudh от февраля 28, 2016, 13:23
У нас и компьютерная лингвистика — раздел компьютерных наук. Поэтому читаешь статьи программистов на тему обработки языка и думаешь: «А в лингвистике-то они что понимают?».
Так и наоборот та же беда, читаешь статью филолога про автоматизированный перевод и думаешь, они вообще в алгоритмах что-нибудь понимают? :-[
Цитата: Basil от февраля 29, 2016, 22:46Так и наоборот та же беда, читаешь статью филолога про автоматизированный перевод и думаешь, они вообще в алгоритмах что-нибудь понимают?
Почитайте книги Ива́нова «Хеттский язык» и «Санскрит», порадуетесь за
филологов лингвистов.
Цитата: Bhudh от февраля 29, 2016, 22:50
Цитата: Basil от февраля 29, 2016, 22:46Так и наоборот та же беда, читаешь статью филолога про автоматизированный перевод и думаешь, они вообще в алгоритмах что-нибудь понимают?
Почитайте книги Ива́нова «Хеттский язык» и «Санскрит», порадуетесь за филологов лингвистов.
Я много лет работал именно в области автоматизированного перевода. Мне не привыкать. ;D
Если эсперанто получит государственную поддержку, он без финансовых затрат вытеснит английский.
Цитата: maratonisto от мая 23, 2016, 20:24
Если эсперанто получит государственную поддержку, он без финансовых затрат вытеснит английский.
а что от этого получит лингвистика, кроме деградации основных используемых инструментов и понятий?
Цитата: smith371 от мая 23, 2016, 20:25
Цитата: maratonisto от мая 23, 2016, 20:24
Если эсперанто получит государственную поддержку, он без финансовых затрат вытеснит английский.
а что от этого получит лингвистика, кроме деградации основных используемых инструментов и понятий?
Не понял, где Вы видите деградацию. А приобретёт лингвистика небывалый опыт применения планового языка.
Цитата: maratonisto от мая 23, 2016, 20:33
Цитата: smith371 от мая 23, 2016, 20:25
Цитата: maratonisto от мая 23, 2016, 20:24
Если эсперанто получит государственную поддержку, он без финансовых затрат вытеснит английский.
а что от этого получит лингвистика, кроме деградации основных используемых инструментов и понятий?
Не понял, где Вы видите деградацию.
набор морфологических категорий в "активном действии" резко сузится. например, английский обладает хоть и обрезанными, но таки падежами. чувствуете логику?
Цитата: smith371 от мая 23, 2016, 20:40
набор морфологических категорий в "активном действии" резко сузится. например, английский обладает хоть и обрезанными, но таки падежами. чувствуете логику?
в эсперанто имеется хотя бы один настоящий падеж в отличие от английского с его недопадежами. Чувствуете логику? ;)
Цитата: BormoGlott от мая 27, 2016, 22:07
Чувствуете логику? ;)
да. квадратно-гнездовую ;)
Взято с хабра (https://habr.com/ru/post/108992/).
NLP: проверка правописания — взгляд изнутри (часть 3)
Искусственный интеллект
Natural Language Processing
*
( Часть 1, Часть 2) В прошлый раз я преждевременно упомянул токенизацию; теперь можно поговорить и о ней, а заодно и о маркировке частей речи (POS tagging).
Предположим, мы уже выловили все ошибки (какие догадались выловить) на уровне анализа текста регулярными выражениями. Стало быть, пора переходить на следующий уровень, на котором мы будем работать с отдельными словами предложения. Разбиением на слова занимается модуль токенизации. Даже в столь простой задаче есть свои подводные камни. Я даже не говорю о языках вроде китайского и японского, где даже вычленение отдельных слов текста нетривиально (иероглифы пишут без пробелов); в английском или в русском тоже есть над чем подумать. Например, входит ли точка в слово-сокращение или представляет собой отдельный токен? («др.» — это один токен или два?) А имя человека? «J. S. Smith» — сколько здесь токенов? Конечно, по каждому пункту можно принять волевое решение, но в дальнейшем оно может привести к различным последствиям, и это надо иметь в виду.
Примерно так я рассуждал на начальных этапах нашего проекта, теперь же склоняюсь к тому, что в задачах обработки текстов частенько приходится подчиняться решениям других людей. Это будет уже ясно на примере маркировки частей речи.
Маркировка частей речи
Зная разбиение предложения на слова, можно уже искать по тексту часто встречающиеся опечатки. Например, переправлять «egg yoke» на «egg yolk» (эта опечатка, видимо, так популярна, что о ней даже упоминает Википедия). Но настоящий прогресс по сравнению с регулярными выражениями обеспечивает маркировка частей речи, то есть сопоставление каждому слову текста его части речи:
«I love big dogs.» -> «I_PRP love_VBP big_JJ dogs_NNS ._.»
В этом примере используются следующие маркеры: PRP — местоимение; VBP — глагол настоящего времени, единственного лица, не третьего числа; JJ — прилагательное; NNS — существительное во множественном числе. Ну а точка — это просто точка.
Зная части речи отдельных слов, можно формулировать более сложные паттерны ошибок. Например, «DT from» -> «DT form». Маркер DT обозначает «определяющее слово» — артикль или указатели вроде this/that. Если в тексте встретилось сочетание «the from» или «this from», скорее всего, это опечатка, и имелся в виду не предлог from, а «форма» — form. Можно ещё хитрее: «MD know VB» -> «MD now VB». Здесь идёт отлов опечатки «know вместо now» — паттерн «модальный глагол + know + глагол». Под него попадает, скажем, фраза «I can know say something more».
Само собой, несложно реализовать простейшие операции, такие как «или» («если встретилось то или это») и отрицание («встретилось не это»). Именно на таких выражениях работает уже упомянутая система LanguageTool. Поскольку распространяется она по лицензии LGPL, я решил перенести все её правила в нашу систему. Почему бы и нет? Люди проделали большую работу, было бы глупо не воспользоваться результатами, коли разрешают. Об ограничениях этого подхода мы ещё поговорим, а пока вернёмся к маркировке частей речи.
Наиболее популярный на сегодня способ POS-разметки сводится к той же самой задаче классификации, на сей раз уже в полном варианте. Мы даём на вход обучающемуся алгоритму слово и его контекст — обычно начальные и конечные символы слова, а также данные о предыдущих словах предложения — сами эти слова и соответствующие им части речи. Также мы сообщаем часть речи слова в текущем контексте, и алгоритм эту информацию запоминает. Если теперь подать на вход контекст, алгоритм сможет сделать разумную догадку о части речи.
Здесь тоже частенько используют модель максимальной энтропии. Хотя можно бы и поиграться с другими алгоритмами. Например, существует разработка на основе support vector machines ( SVMTool).
Аннотированные корпусы, великие и ужасные
В прошлый раз я не заострял на этом внимание, но теперь уж точно пора. Чтобы POS tagger заработал, его нужно натренировать на большой коллекции текстов, где каждому слову приписан тег части речи. Тогда возникает резонный вопрос: а где ж эту коллекцию взять?
Такие коллекции («аннотированные корпусы») существуют, хотя их не так много. Чаще всего встречается POS-маркировка, реже — глубокое аннотирование, то есть маркировка синтактико-семантических связей между словами в предложении. Крупнейший глубоко аннотированный корпус английского языка называется Penn Treebank и содержит почти три миллиона слов. Хорошие корпусы существуют также для немецкого и русского — это из тех, что я лично изучал.
Теперь подумаем вот о чём. Существуют языковые тонкости, относительно которых различные лингвисты придерживаются различных мнений. Например, сколько падежей в русском языке? Ответ школьника — шесть, однако я могу назвать, по крайней мере, восемь-девять. В английском языке какой частью речи является слово book в сочетании book market? Я бы сказал, что это прилагательное, но можно отстаивать и трактовку как «существительного в роли прилагательного».
Таким образом, можно по-разному размечать текст, исходя из каких-либо лингвистических или практических соображений. К сожалению, наши соображения вряд ли воплотятся в итоговой системе, ибо пользуясь готовым корпусом, мы вынужденно принимаем правила игры его разработчиков. Если я тренирую POS tagger на корпусе Penn Treebank, придётся смириться, что «book» в роли прилагательного всё равно трактуется как существительное. Кому не нравится — может создавать свой собственый корпус и размечать его по своему усмотрению.
Аналогично, в Penn Treebank знак препинания всегда является отдельным токеном, поэтому запись «etc.» — это два токена, а «J. S. Smith» — пять токенов, даже если это соглашение для меня неудобно. Выбора нет. Это, кстати, к вопросу о наличии лингвистов в проекте. Если бы у меня были неограниченные бюджеты и куча времени, можно было бы попытаться сделать полностью свою систему, воплощающую наши взгляды на проверку правописания. Однако в реальных условиях существующие NLP инструменты и текстовые корпусы направляют действия по достаточно чёткому маршруту, оставля не так уж и много простора для фантазии.
Да, ещё замечание. Естественно, готовые коллекции содержат корректные тексты, лишённые явных грамматических ошибок. Что это значит для нас? Ну, возьмём тот же POS tagger. Сначала мы его тренируем на корректных текстах (где он никогда не видит сочетаний вроде «I has»), а потом используем его для маркировки слов в текстах с ошибками. Будет ли он столь же хорош в новых условиях? Да кто ж его знает; но создавть корпус с типичными ошибками ради тренировки разметчика для нас слишком большая роскошь.
Продолжим в следующей части.
У Grammarly есть рабочий коммерческий продукт и уже давно. Написан на лиспе кстати.