Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Компьютерная лингвистика

Автор RawonaM, декабря 17, 2010, 19:56

0 Пользователи и 1 гость просматривают эту тему.

RawonaM

Тут я подумал, что недостаточно внимания у нас на форуме уделяется сабжу, поэтому решил, что по мере моего изучения области (в чем я полный профан) буду пополнять форум этой тематикой. Предлагаю всем, понимающим в этой области, принимать активное участие. У нас было несколько тем на эту тему, если кто помнит, то укажите, можем создать раздел и перенести все туда. Недавно myst спрашивал насчет мастрид по этой теме, никто не ответил, значит либо никто не знает либо поленились ответить. Может теперь он и сам знает ответ, то было бы неплохо его услышать.

Сам я немножко покопался в нете и пришел к выводу, что самый лучший на данный момент вводный курс:
SPEECH and LANGUAGE PROCESSING
An Introduction to Natural Language Processing,
Computational Linguistics, and Speech Recognition
by Daniel Jurafsky and James H. Martin

Первое издание 2000-го года легко нагугливается на скачку, а второе, 2009-го, я не нашел, но уже заказал с Амазона. Это очень бурно развивающаяся область, поэтому 9 лет имеют огромное значение.

Первая глава в PDF есть у автора на сайте, что весьма познавательно и дает общее представление о чем вообще речь, рекомендую всем, даже не интересующимся облаюстью, прочитать для общего развития.

Дальше. Мне очень нравится приступать сразу к практике и вот как раз в этих целях нашелся интересный проект: Natural Language Toolkit, у которого даже есть классная книга http://www.nltk.org/book. Пдф книги легко находится в нете. Проект этот серьезный и по нему преподаются курсы в вузах по всему миру. Как только ознакомлюсь, напишу отчет или введение.

Artemon

Прочитал весь пост. Что такое компьютерная лингвистика - осталось загадкой.
Можно ли, так сказать, в общих чертах для тех, кому по пдфкам рыться в лом? :)
За разнообразие в мире языков: //vk.com/lingvomir
    [li]Чёрное и белое - лишь условные абстракции. Но жить, навешивая ярлыки, куда проще.[/li]
    [li]Green ideas и глокая куздра сообщают, что главное – принцип. Слова меняются, модели остаются.[/li]
    [li]Хорошо кишинёвскому сыну тайца и египтянки.[/li]
    [li]Ругая эсперанто, предлагайте альтернативы. Многие в вашей стране смотрят голливудские фильмы без перевода?[/li]
    [li]Живой язык = мёртвый конланг + армия и флот.[/li]
    [li]Центру нужны единое мнение, единый язык и смиренные налогоплательщики.[/li]

hurufu

Цитата: Artemon от декабря 18, 2010, 01:36
Прочитал весь пост. Что такое компьютерная лингвистика - осталось загадкой.
Можно ли, так сказать, в общих чертах для тех, кому по пдфкам рыться в лом? :)
Разработка компьютерных систем способных анализировать человеческий язык.
В NLT используется метаразметка текста.

RawonaM

Цитата: hurufu от декабря 18, 2010, 07:02
Разработка компьютерных систем способных анализировать человеческий язык.
И синтезировать тоже.

hurufu, вы в этой области работаете или как-то связаны?

Цитата: Artemon от декабря 18, 2010, 01:36
Прочитал весь пост. Что такое компьютерная лингвистика — осталось загадкой.
Я думаю, что лучше, чем уже написано, я не напишу, поэтому процитирую :)

(wiki/en) Computational_linguistics
ЦитироватьComputational linguistics is an interdisciplinary field dealing with the statistical and/or rule-based modeling of natural language from a computational perspective. This modeling is not limited to any particular field of linguistics. Traditionally, computational linguistics was usually performed by computer scientists who had specialized in the application of computers to the processing of a natural language. Computational linguists often work as members of interdisciplinary teams, including linguists (specifically trained in linguistics), language experts (persons with some level of ability in the languages relevant to a given project), and computer scientists. In general, computational linguistics draws upon the involvement of linguists, computer scientists, experts in artificial intelligence, mathematicians, logicians, philosophers, cognitive scientists, cognitive psychologists, psycholinguists, anthropologists and neuroscientists, among others.

Несколько противоречиво определение на русской Википедии:
(wiki/ru) Компьютерная_лингвистика
ЦитироватьКомпью́терная лингви́стика (также: математи́ческая или вычисли́тельная лингви́стика, англ. computational linguistics) — направление искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков.

Компьютерная лингвистика частично пересекается с обработкой естественных языков. Однако в последней акцент делается не на абстрактные модели, а на прикладные методы описания и обработки языка для компьютерных систем.

Если говорить в общем, то полем деятельности является разработка алгоритмов и прикладных программ для обработки языковой информации.

По большому счету компьютерная лингвистика занимается компьютерной обработкой естественного языка. Чем еще она занимается, я пока не знаю.

(wiki/en) Natural_language_processing
ЦитироватьNatural language processing (NLP) is a field of computer science and linguistics concerned with the interactions between computers and human (natural) languages.[1] In theory, natural-language processing is a very attractive method of human-computer interaction. Natural language understanding is sometimes referred to as an AI-complete problem, because natural-language recognition seems to require extensive knowledge about the outside world and the ability to manipulate it.

NLP has significant overlap with the field of computational linguistics, and is often considered a sub-field of artificial intelligence.

Modern NLP algorithms are grounded in machine learning, especially statistical machine learning. Research into modern statistical NLP algorithms requires an understanding of a number of disparate fields, including linguistics, computer science, and statistics. For a discussion of the types of algorithms currently used in NLP, see the article on pattern recognition.

(wiki/ru) Обработка_естественного_языка
ЦитироватьОбработка естественного языка (Natural Language Processing, NLP) — общее направление искусственного интеллекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза естественных языков. Применительно к искусственному интеллекту анализ означает понимание языка, а синтез — генерацию грамотного текста. Решение этих проблем будет означать создание более удобной формы взаимодействия компьютера и человека.

myst



RawonaM

Цитата: myst от декабря 18, 2010, 10:54
Я себе вот какую книгу надыбал: http://web.archive.org/web/20080125103030/http://www.gelbukh.com/clbook/
Выглядит неплохо, спасибо :)
Тока зачем из вебархива? Вот же сам сайт http://www.gelbukh.com/clbook/ :)

myst

Цитата: RawonaM от декабря 18, 2010, 11:21
Выглядит неплохо, спасибо :)
Тока зачем из вебархива? Вот же сам сайт http://www.gelbukh.com/clbook/ :)
Пути гугления неисповедимы. :)

myst

Цитата: RawonaM от декабря 17, 2010, 19:56
Тут я подумал, что недостаточно внимания у нас на форуме уделяется сабжу, поэтому решил, что по мере моего изучения области (в чем я полный профан) буду пополнять форум этой тематикой.
Не недостаточно, а вообще позорно никакое.

myst

Цитата: RawonaM от декабря 17, 2010, 19:56
Недавно myst спрашивал насчет мастрид по этой теме, никто не ответил, значит либо никто не знает либо поленились ответить.
Так значит ты её видел! :negozhe:

myst

Мне сейчас позарез нужен семантический компаратор предложений для английского языка.

RawonaM

Цитата: myst от декабря 18, 2010, 11:29
Мне сейчас позарез нужен семантический компаратор предложений для английского языка.
Начни разбирать NLTK, вроде как должно все быть.

RawonaM

Цитата: myst от декабря 18, 2010, 11:24
Не недостаточно, а вообще позорно никакое.
Согласен. Надо это исправлять. Тут много программирующих лингвистов и лингвистирующих программистов.

myst

Цитата: RawonaM от декабря 18, 2010, 11:34
Начни разбирать NLTK, вроде как должно все быть.
Я себе GATE две недели назад скачал. Но это рисёч, а хочется готовеньким полакомиться пока. :)

myst

Ещё мне надо таблицу глагольного и предложного управления для русского языка.

RawonaM

Цитата: myst от декабря 18, 2010, 12:09
Я себе GATE две недели назад скачал. Но это рисёч, а хочется готовеньким полакомиться пока. :)
Интересненько :)


RawonaM

Гут  ;up: Завтра в рабочее время буду разбираться. В субботу нельзя.  ;D



hurufu

Цитата: RawonaM от декабря 18, 2010, 09:31
Цитата: hurufu от декабря 18, 2010, 07:02
Разработка компьютерных систем способных анализировать человеческий язык.
И синтезировать тоже.

hurufu, вы в этой области работаете или как-то связаны?
Вообще-то я математик. А компьютерной лингвистикой только увлекаюсь... (даже очень). Но я еще слишком мало прочитал книг на эту тему, что бы излагать какие-нибудь свои идеи подробнее.

С удовольствием буду следить за развитием темы.  :srch:

Bhudh

Цитата: Natural language processing (NLP)
Нехорошую они себе аббревиатуру выбрали. Она уже занята...
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

RawonaM

Цитата: Bhudh от декабря 18, 2010, 21:32
ЦитироватьNatural language processing (NLP)
Нехорошую они себе аббревиатуру выбрали. Она уже занята...
Это никому не мешает, области не пересекаются.

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

RawonaM

Цитата: Bhudh от декабря 18, 2010, 22:16
Просто в России тяжко пропагандировать буде...
Не понял. В России есть к.л., ее не надо пропаг.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр