Алгоритм поиска общих частей строк

Алексей Гринь · апреля 14, 2009, 22:55

Цитата: "myst" от
Я и сам могу набросать, была бы идея.

Ждите

Ömer · апреля 14, 2009, 22:57

Вырезаете из каждого слова всевозможные куски длинной не меньше, чем вам нужно, и добавляете их в хеш-таблицу (Hashtable/Dictionary в C#, hash_map в C++), где ключ - это сама подстрока, а значение - её встречаемость.

И потом пробегаетесь по хеш-таблице и отображаете её содержимое.

Алексей Гринь · апреля 14, 2009, 23:01

Цитата: "svarog" от
Вырезаете из каждого слова всевозможные куски длинной не меньше, чем вам нужно

Скока ж памяти и времени всё это вырезать
нужны inplace сравнивания, и уже когда нужно - вырезания в хеш, что я щас иделаю

myst · апреля 14, 2009, 23:02

Цитата: "svarog" от
Вырезаете из каждого слова всевозможные куски длинной не меньше, чем вам нужно, и добавляете их в хеш-таблицу (Hashtable/Dictionary в C#, hash_multimap в C++), где ключ - это сама подстрока, а значение - её встречаемость.

Так и сделаю. Спасибо.

Алексей Гринь · апреля 14, 2009, 23:03

Цитата: "myst" от
Так и сделаю. Спасибо.

На чём собираешьтеся?

myst · апреля 14, 2009, 23:03

Цитата: "Алексей Гринь" от
Скока ж памяти

Не больше 100 мегабайт, я думаю.

myst · апреля 14, 2009, 23:05

Цитата: "Алексей Гринь" от
На чём собираешьтеся?

На чём обычно — на clisp'е. Если будет сильно тормозит, на жабе перепишу.

собираешьтеся — это политкорректный вариант?

Алексей Гринь · апреля 14, 2009, 23:06

Цитата: "Алексей Гринь" от
Скока ж памяти и времени всё это вырезать
нужны inplace сравнивания, и уже когда нужно - вырезания в хеш, что я щас иделаю

хотя нет, в сишарпе не прокатит, обращение к чару из строки слишком дорогое в НЕТе удовольствие

Цитата: "myst" от
собираешьтеся — это политкорректный вариант?

угу

Цитата: "myst" от
На чём обычно — на clisp'е. Если будет сильно тормозит, на жабе перепишу.

короче, давайешьте (

) конкурс - я пишу свою версию, постишь базу, и засекаем у кого по времени быстрее

myst · апреля 14, 2009, 23:08

Цитата: "Алексей Гринь" от
короче, давайешьтеся () конкурс - я пишу свою версию, постишь базу, и засекаем у кого по времени быстрее

Сравнение эффективности хэшей в C#, CLISP и Java?

Алексей Гринь · апреля 14, 2009, 23:11

Цитата: "myst" от
Сравнение эффективности хэшей в C#, CLISP и Java?

ну и алгоритмов - я не буду заниматься вырезанием в память всех возможных комбинаций, только тех, что нужно

Алексей Гринь · апреля 14, 2009, 23:12

Базу прошу сразу залить куда-нибудь, я возможно скоро готов )

Алексей Гринь · апреля 14, 2009, 23:45

Не, я пас, всё таки обращение к строкам в НЕТе очень медленное

Трогать сипопу неохота.

myst · апреля 14, 2009, 23:54

Цитата: "Алексей Гринь" от
ну и алгоритмов - я не буду заниматься вырезанием в память всех возможных комбинаций, только тех, что нужно

А каких нужно?

Алексей Гринь · апреля 15, 2009, 00:04

Цитата: "myst" от
А каких нужно?

сравниваются строки без выделений памяти и если находится общее, вырезается и суётся в хештаблицу
это для тех, кто памятью бережёт
правда, реализация получилась оч медленная -- а оптимизиорвать в лом

посмотрим как выйдет у вас)

myst · апреля 15, 2009, 00:12

Цитата: "Алексей Гринь" от
Базу прошу сразу залить куда-нибудь, я возможно скоро готов )

Список слов: http://www.artint.ru/projects/frqlist/words.num.zip

myst · апреля 15, 2009, 00:12

Цитата: "Алексей Гринь" от
посмотрим как выйдет у вас)

Мы вроде перешли на ты, нет?

Ömer · апреля 15, 2009, 12:50

Цитата: Алексей Гринь от апреля 15, 2009, 00:04
правда, реализация получилась оч медленная -- а оптимизиорвать в лом

Это вы перемудрили

Я только что реализовал тот простейший вариант что описывал, 10 строчек кода и работает мгновенно.

Вот верхняя часть таблицы результатов для подстрок длинной десять:
ологически 34
аспростран 31
распростра 31
интересова 30
значительн 29
станавлива 29
ительность 28
ологическо 25
следовател 25
определенн 24
сопровожда 24
соответств 23
государств 22
представля 22
естественн 21
обыкновенн 21
иологическ 20
офессионал 20
профессион 20
рофессиона 20

Неинтересная статистика, потому что в базе идут вместе со словом и его словоформы -- они, группируясь, и дают высокую встречаемость.

myst, а для чего это, если не секрет?

myst · апреля 15, 2009, 13:12

На CLISP'е ≈50 секунд (в месте с выводом) и <30 Мбайт памяти. Я думал будет гораздо хуже.

myst · апреля 15, 2009, 13:21

Цитата: "svarog" от
Неинтересная статистика, потому что в базе идут вместе со словом и его словоформы -- они, группируясь, и дают высокую встречаемость.

Самая что ни на есть интересная.

Правда, мне ещё надо частоту словоформы учесть, но это ерунда.

Цитата: "svarog" от
myst, а для чего это, если не секрет?

Я занимаюсь машинописью по одной методичке. Возникли у меня сомнения в оптимальности упражнений на «слоги». Всё-таки написана она была четверть века назад.

Ömer · апреля 15, 2009, 14:53

Цитата: myst от Я занимаюсь машинописью по одной методичке. Возникли у меня сомнения в оптимальности упражнений на «слоги». Всё-таки написана она была четверть века назад.

А , тогда, если я правильно понимаю, можно просто идти по тексту, вырезая из каждого слова подстрочки и складывая их в хеш-таблицу.

Цитата: svarogдля подстрок длинной десять

Ух, гадкое слово.

myst · апреля 15, 2009, 15:02

Цитата: "svarog" от
А , тогда, если я правильно понимаю, можно просто идти по тексту, вырезая из каждого слова подстрочки и складывая их в хеш-таблицу.

Не, задача — отобрать самые частотные кусочки слов и сделать из них упражения. В общем-то, она уже почти решена.

Ömer · апреля 15, 2009, 15:23

Ну, так и есть - если кусочки выдирать сразу из текста, а не из базы слов, то частотность их в тексте учитывается автоматически.

myst · апреля 15, 2009, 17:11

Цитата: "svarog" от
Ну, так и есть - если кусочки выдирать сразу из текста, а не из базы слов, то частотность их в тексте учитывается автоматически.

Эта база слов — частотный словарь. В нём данные о частотности слов уже есть.

Ömer · апреля 15, 2009, 18:16

Понятно. И как, в методичке правильные упражнения?

myst · апреля 15, 2009, 18:22

Цитата: svarog от апреля 15, 2009, 18:16
Понятно. И как, в методичке правильные упражнения?

У меня тут грабли с таблицей стилей форума вылезли...

Руки до полученной статистики ещё не дошли.

Лингвофорум

Алгоритм поиска общих частей строк

Алексей Гринь

Ömer

Алексей Гринь

myst

Алексей Гринь

myst

myst

Алексей Гринь

myst

Алексей Гринь

Алексей Гринь

Алексей Гринь

myst

Алексей Гринь

myst

myst

Ömer

myst

myst

Ömer

myst

Ömer

myst

Ömer

myst

Быстрый ответ