Тут я подумал, что недостаточно внимания у нас на форуме уделяется сабжу, поэтому решил, что по мере моего изучения области (в чем я полный профан) буду пополнять форум этой тематикой. Предлагаю всем, понимающим в этой области, принимать активное участие. У нас было несколько тем на эту тему, если кто помнит, то укажите, можем создать раздел и перенести все туда. Недавно myst спрашивал насчет мастрид по этой теме, никто не ответил, значит либо никто не знает либо поленились ответить. Может теперь он и сам знает ответ, то было бы неплохо его услышать.
Сам я немножко покопался в нете и пришел к выводу, что самый лучший на данный момент вводный курс:
SPEECH and LANGUAGE PROCESSING
An Introduction to Natural Language Processing,
Computational Linguistics, and Speech Recognition
by Daniel Jurafsky and James H. Martin
(http://www.cs.colorado.edu/~martin/slp.html)
Первое издание 2000-го года легко нагугливается на скачку, а второе, 2009-го, я не нашел, но уже заказал с Амазона. Это очень бурно развивающаяся область, поэтому 9 лет имеют огромное значение.
Первая глава в PDF (http://www.cs.colorado.edu/%7Emartin/SLP/Updates/1.pdf) есть у автора на сайте, что весьма познавательно и дает общее представление о чем вообще речь, рекомендую всем, даже не интересующимся облаюстью, прочитать для общего развития.
Дальше. Мне очень нравится приступать сразу к практике и вот как раз в этих целях нашелся интересный проект: Natural Language Toolkit (http://www.nltk.org/), у которого даже есть классная книга http://www.nltk.org/book. Пдф книги легко находится в нете. Проект этот серьезный и по нему преподаются курсы в вузах по всему миру. Как только ознакомлюсь, напишу отчет или введение.
Прочитал весь пост. Что такое компьютерная лингвистика - осталось загадкой.
Можно ли, так сказать, в общих чертах для тех, кому по пдфкам рыться в лом? :)
Цитата: Artemon от декабря 18, 2010, 01:36
Прочитал весь пост. Что такое компьютерная лингвистика - осталось загадкой.
Можно ли, так сказать, в общих чертах для тех, кому по пдфкам рыться в лом? :)
Разработка компьютерных систем способных анализировать человеческий язык.
В NLT используется метаразметка текста.
Цитата: hurufu от декабря 18, 2010, 07:02
Разработка компьютерных систем способных анализировать человеческий язык.
И синтезировать тоже.
hurufu, вы в этой области работаете или как-то связаны?
Цитата: Artemon от декабря 18, 2010, 01:36
Прочитал весь пост. Что такое компьютерная лингвистика — осталось загадкой.
Я думаю, что лучше, чем уже написано, я не напишу, поэтому процитирую :)
(wiki/en) Computational_linguistics (http://en.wikipedia.org/wiki/Computational_linguistics)
ЦитироватьComputational linguistics is an interdisciplinary field dealing with the statistical and/or rule-based modeling of natural language from a computational perspective. This modeling is not limited to any particular field of linguistics. Traditionally, computational linguistics was usually performed by computer scientists who had specialized in the application of computers to the processing of a natural language. Computational linguists often work as members of interdisciplinary teams, including linguists (specifically trained in linguistics), language experts (persons with some level of ability in the languages relevant to a given project), and computer scientists. In general, computational linguistics draws upon the involvement of linguists, computer scientists, experts in artificial intelligence, mathematicians, logicians, philosophers, cognitive scientists, cognitive psychologists, psycholinguists, anthropologists and neuroscientists, among others.
Несколько противоречиво определение на русской Википедии:
(wiki/ru) Компьютерная_лингвистика (http://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80%D0%BD%D0%B0%D1%8F_%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0)
ЦитироватьКомпью́терная лингви́стика (также: математи́ческая или вычисли́тельная лингви́стика, англ. computational linguistics) — направление искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков.
Компьютерная лингвистика частично пересекается с обработкой естественных языков. Однако в последней акцент делается не на абстрактные модели, а на прикладные методы описания и обработки языка для компьютерных систем.
Если говорить в общем, то полем деятельности является разработка алгоритмов и прикладных программ для обработки языковой информации.
По большому счету компьютерная лингвистика занимается компьютерной обработкой естественного языка. Чем еще она занимается, я пока не знаю.
(wiki/en) Natural_language_processing (http://en.wikipedia.org/wiki/Natural_language_processing)
ЦитироватьNatural language processing (NLP) is a field of computer science and linguistics concerned with the interactions between computers and human (natural) languages.[1] In theory, natural-language processing is a very attractive method of human-computer interaction. Natural language understanding is sometimes referred to as an AI-complete problem, because natural-language recognition seems to require extensive knowledge about the outside world and the ability to manipulate it.
NLP has significant overlap with the field of computational linguistics, and is often considered a sub-field of artificial intelligence.
Modern NLP algorithms are grounded in machine learning, especially statistical machine learning. Research into modern statistical NLP algorithms requires an understanding of a number of disparate fields, including linguistics, computer science, and statistics. For a discussion of the types of algorithms currently used in NLP, see the article on pattern recognition.
(wiki/ru) Обработка_естественного_языка (http://ru.wikipedia.org/wiki/%D0%9E%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%B5%D1%81%D1%82%D0%B5%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0)
ЦитироватьОбработка естественного языка (Natural Language Processing, NLP) — общее направление искусственного интеллекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза естественных языков. Применительно к искусственному интеллекту анализ означает понимание языка, а синтез — генерацию грамотного текста. Решение этих проблем будет означать создание более удобной формы взаимодействия компьютера и человека.
RawonaM, ты вот раньше где был? :)
Компьютерная лингвистика #0 (http://lingvoforum.net/index.php/topic,29767.0.html)
И ни одного ответа ведь. :(
Я себе вот какую книгу надыбал: http://web.archive.org/web/20080125103030/http://www.gelbukh.com/clbook/
Цитата: myst от декабря 18, 2010, 10:54
Я себе вот какую книгу надыбал: http://web.archive.org/web/20080125103030/http://www.gelbukh.com/clbook/
Выглядит неплохо, спасибо :)
Тока зачем из вебархива? Вот же сам сайт http://www.gelbukh.com/clbook/ :)
Цитата: RawonaM от декабря 18, 2010, 11:21
Выглядит неплохо, спасибо :)
Тока зачем из вебархива? Вот же сам сайт http://www.gelbukh.com/clbook/ :)
Пути гугления неисповедимы. :)
Цитата: RawonaM от декабря 17, 2010, 19:56
Тут я подумал, что недостаточно внимания у нас на форуме уделяется сабжу, поэтому решил, что по мере моего изучения области (в чем я полный профан) буду пополнять форум этой тематикой.
Не недостаточно, а вообще позорно никакое.
Цитата: RawonaM от декабря 17, 2010, 19:56
Недавно myst спрашивал насчет мастрид по этой теме, никто не ответил, значит либо никто не знает либо поленились ответить.
Так значит ты её видел! :negozhe:
Мне сейчас позарез нужен семантический компаратор предложений для английского языка.
Цитата: myst от декабря 18, 2010, 11:29
Мне сейчас позарез нужен семантический компаратор предложений для английского языка.
Начни разбирать NLTK, вроде как должно все быть.
Цитата: myst от декабря 18, 2010, 11:24
Не недостаточно, а вообще позорно никакое.
Согласен. Надо это исправлять. Тут много программирующих лингвистов и лингвистирующих программистов.
Цитата: RawonaM от декабря 18, 2010, 11:34
Начни разбирать NLTK, вроде как должно все быть.
Я себе GATE (http://gate.ac.uk/releases/gate-6.0-build3764-ALL/doc/tao/split.html) две недели назад скачал. Но это рисёч, а хочется готовеньким полакомиться пока. :)
Ещё мне надо таблицу глагольного и предложного управления для русского языка.
Цитата: myst от декабря 18, 2010, 12:09
Я себе GATE две недели назад скачал. Но это рисёч, а хочется готовеньким полакомиться пока. :)
Интересненько :)
Тогда вот ещё ссылки:
http://nlp.stanford.edu/software/lex-parser.shtml
http://code.google.com/p/factorie/
http://mallet.cs.umass.edu/
http://opennlp.sourceforge.net/README.html
http://www.scalanlp.org/
http://dragon.ischool.drexel.edu/features.asp
:)
Гут ;up: Завтра в рабочее время буду разбираться. В субботу нельзя. ;D
А я вот работаю. :)
Постоянно натыкаюсь на такую фигню: http://ieeexplore.ieee.org/Xplore/login.jsp?url=http://ieeexplore.ieee.org/iel2/540/3969/00150436.pdf?arnumber=150436&authDecision=-203 (http://ieeexplore.ieee.org/Xplore/login.jsp?url=http%3A%2F%2Fieeexplore.ieee.org%2Fiel2%2F540%2F3969%2F00150436.pdf%3Farnumber%3D150436&authDecision=-203)
Копирасты! :wall:
Цитата: RawonaM от декабря 18, 2010, 09:31
Цитата: hurufu от декабря 18, 2010, 07:02
Разработка компьютерных систем способных анализировать человеческий язык.
И синтезировать тоже.
hurufu, вы в этой области работаете или как-то связаны?
Вообще-то я математик. А компьютерной лингвистикой только увлекаюсь... (даже очень). Но я еще слишком мало прочитал книг на эту тему, что бы излагать какие-нибудь свои идеи подробнее.
С удовольствием буду следить за развитием темы. :srch:
Цитата: Natural language processing (NLP)
Нехорошую они себе аббревиатуру выбрали. Она уже занята...
Цитата: Bhudh от декабря 18, 2010, 21:32
ЦитироватьNatural language processing (NLP)
Нехорошую они себе аббревиатуру выбрали. Она уже занята...
Это никому не мешает, области не пересекаются.
Просто в России тяжко пропагандировать буде...
Цитата: Bhudh от декабря 18, 2010, 22:16
Просто в России тяжко пропагандировать буде...
Не понял. В России есть к.л., ее не надо пропаг.
К.л. это computational linguistics.
А я за NLP, которое не NLP.
Цитата: Bhudh от декабря 18, 2010, 22:31
А я за NLP, которое не NLP.
Да я понял. И к.л. нлп у вас тоже есть, так что ниче страшного. Ассоциации исчезнут, у кого они были. :)
Хотя СС ведь никогда не обозначало Советский Союз, вроде, именно из-за двусмысленности. :)
Неужели ты думаешь, что когда придумывают термин (а этому термину возможно больше лет, чем тому НЛП), думаю как он будет пропагандироваться в России? :)
Блин, из-за опечатки три раза перечитывал. Да ещё и скобки эти!
Цитата: Bhudh от декабря 18, 2010, 22:59
Блин, из-за опечатки три раза перечитывал. Да ещё и скобки эти!
Да, зОбавно получилось :) Сам три раза перечитывал тока шо. :)
Вот новость от IBM вспомнил.
http://www-03.ibm.com/press/us/en/pressrelease/27324.wss (http://www-03.ibm.com/press/us/en/pressrelease/27324.wss)
Ведь возможность компьютера играть в Jeopardy! (http://ru.wikipedia.org/wiki/Jeopardy!) входит в круг тем КЛ. m i right?
Цитата: hurufu от декабря 19, 2010, 01:20
Ведь возможность компьютера играть в Jeopardy! входит в круг тем КЛ. m i right?
Конечно.
Изучаю NLTK. Приколола функция generate(), она из текста строит рандомальный текст в том же регистре :)
Например:
Цитировать
text3: The Book of Genesis
>>> text3.generate()
Building ngram index...
In the same day , to me thou hast spoken . And when Jacob had pitched
his tent beyond the tower , which is on the left hand upon his broth
and he made him ruler over all that befell unto them . And he said ,
It must not be numbered for multitude . And he said , These men are
peaceable with us . And Joseph gathered up all the trees that were
with him , saying , Unto thy seed shall be kept in prison , a man to
my wounding , and dwell the and they
>>> text3.generate()
In the cave that is therein was from Mesha , as he made him a good way
off , even unto Lasha . These are the dukes of Edom ; these were the
sons of Israel , saying , Where is the shepherd , the God of Abraham
his father and his mother , and kings shall come to poverty . And it
came to pass after these things the word of the Hebrews ; for Manasseh
was the firstborn went in unto me , neither is it that compasseth the
whole earth . And he dwelt in Egypt ,
>>> text3.generate()
In the selfsame day entered Noah , and set him without the city , even
me also , the father of Canaan , which she spake unto them in Israel
in lying with Jacob into Egypt ; for I will swear . And Abraham said
unto her father in the next year . When that year was ended , they
brought it to rain upon the earth . And the famine was over all that
were with his brethren with him . And he went in unto them , and oxen
, and spoiled even all that moveth upon the
Цитироватьtext5: Chat Corpus
>>> text5.generate()
Building ngram index...
now im that phone perv guy lets hope not U121 PART yes true dat PART
Ha . aaaaaaaaaaaaaaaaa ! I do not type in all CAPS , it 's supposed to
answer it oh okikes just kidding JOIN does not matter to me , ever
smiles sheesh were attracted to the crazy room ... lol :-) hello all
hi U48 and U49 wb U50 hey U15 hi U52 U52 evening U52 :) wb U53 lmao
U13 yw ty U20 hi U3 MODE #40sPlus + o U132 . 12 (((((.. 4 U95 .. 12
))))) U102 hey U102 hi U35 ask
>>> text5.generate()
now im left with this gay name . . ACTION doesnt take comments in chat
. hi U34 just never use fabric softener PART . ACTION sighs at pm
..... shakes head * 37 m wv brb PART Yarrrr . PART JOIN hi JOIN People
are having trouble deciding whether or not three four Hi all any
ladies wana chat with 27 - m - canada with cam girls pm me ? I grew up
in ohio U19 ? hahahahaaa lol U6 hiya . ACTION hugs U20 . aw yum child
development lol i think so actually . * tosses
>>> text5.generate()
now im lost i agree bi or lez gurls pm me if u tryin to chat ? PART
PART JOIN took care of the evening - LIVE ) cool ... is sorta lost
hello U19 ! PART why you moving U73 .... its progressive without being
too smart lol tc U26 hi U53 hi U53 hiya U43 U9 hi everyone ty lol U0
do u hav a big stick U41 . ACTION spins Lil Wyte ~ I know right ( not
U58 boo hoo ) lol U7 it will point nobody knows .... PART Round and
round it goes .....
Разгребая закладки, нашёл то, что никак не мог нагуглить. :)
http://www.agfl.cs.ru.nl/ — тулкит для создания парсеров естественных языков.
Там есть готовый парсер английского (онлайновый вариант (http://www.agfl.cs.ru.nl/EP4IR/english.html)).
Правда, мне на жабе надо. :(
Хакнуть можно?
Тулкит, парсер.
Чтоб получить код.
http://www-speech.sri.com/projects/srilm/
Пасибо, будем изучать после NLTK. Да и книжу Журафского никак не дождусь.
Что за книжка?
Цитата: RawonaM от декабря 17, 2010, 19:56
Сам я немножко покопался в нете и пришел к выводу, что самый лучший на данный момент вводный курс:
SPEECH and LANGUAGE PROCESSING
An Introduction to Natural Language Processing,
Computational Linguistics, and Speech Recognition
by Daniel Jurafsky and James H. Martin
А адрес где? :)
Какой адрес?
Книги. :donno:
Цитата: myst от декабря 23, 2010, 14:20
Книги. :donno:
Что такое адрес книги? Ссылка, что ли?
Дык в первом сообщении же написано и по твоей последней ссылке как раз на нее ссылаются.
Ну, тормознул, бывает. :)
Цитата: myst от декабря 23, 2010, 14:52
Ну, тормознул, бывает. :)
Главное чтоб не часто :)
Где существуют аспирантуры по этим дисциплинам?
Пока искал че-то по смежной теме, нашел много вкусного. В принципе отсюда можно попасть на все остальное:
http://vineetyadav.wordpress.com/2010/02/17/natural-language-processing-tools/
:)
Это хоросо. :)
Вот еще: http://www.rvb.ru/soft/catalogue/index.html
Короче, я открываю раздел, попереношу туда темы.
Я тебе сразу хотел это предложить, но постеснялся. :)
Да я сначала создал, потом вспомнил свой принцип, что утром темы, вечером раздел :) Щас смотрю тем есть достаточно, просто мы не уделали должного внимания :)
Усе короче, куча тем оказывается набралось: http://lingvoforum.net/index.php/board,280.0.html