Алгоритм поиска общих частей строк

myst · апреля 14, 2009, 19:59

Как я понял, у нас на форуме есть действующие программисты.

Ищу сабж. Пока безрезультатно. Где рыть?

Алексей Гринь · апреля 14, 2009, 20:00

На примере? Не воткну.

O · апреля 14, 2009, 20:05

http://computers.plib.ru/programming/Assembler/Pr/Index7.htm

GaLL · апреля 14, 2009, 20:12

Цитата: myst от апреля 14, 2009, 19:59
Как я понял, у нас на форуме есть действующие программисты.
Ищу сабж. Пока безрезультатно. Где рыть?

В смысле, наибольшую общую подстроку двух строк?

myst · апреля 14, 2009, 20:14

Цитата: "O" от
http://computers.plib.ru/programming/Assembler/Pr/Index7.htm

Ну зачем же сразу в клуп садо-мазо-то отправлять?

myst · апреля 14, 2009, 20:20

Объясняю.

Есть, значит, у нас список строк: предприниматель, законодатель, предстать, верстать, устать.
Нужна функция, выдающая список общих частей, а также информацию, у скольких строк данная общая часть встречается. В нашем случае это будут: пред (2), атель (2), стать (3).
Примерно так.

злой · апреля 14, 2009, 20:28

man grep

Алексей Гринь · апреля 14, 2009, 20:37

Если массивы данных не большие - всё просто, почарово сравнивать, не вижу проблемы.
Если массивы гигабайтные, то там да, без мудрёного алгоритма не обойтись

O · апреля 14, 2009, 21:05

Цитата: Алексей Гринь от апреля 14, 2009, 20:37
почарово сравнивать

Настоящие лингвисты не работают с однобайтными кодировками! 8)

Алексей Гринь · апреля 14, 2009, 21:13

Цитата: "O" от
Настоящие лингвисты не работают с однобайтными кодировками! 8)

У настоящих лингвистов чар определён в 2-4 байта 8)
В C# например так.

O · апреля 14, 2009, 21:31

Цитата: Алексей Гринь от апреля 14, 2009, 21:13
В C# например так.

Но ведь писателю на С# не нужно искать никаких алгоритмов. Пользуются теми, которые зашиты в библиотеку, а другими — не положено!

Алексей Гринь · апреля 14, 2009, 21:33

Цитата: "O" от
Но ведь писателю на С# не нужно искать никаких алгоритмов. Пользуются теми, которые зашиты в библиотеку, а другими — не положено!

С чего это вдруг? Что за бред?

O · апреля 14, 2009, 21:37

Цитата: Алексей Гринь от апреля 14, 2009, 21:33
С чего это вдруг? Что за бред?

Ага, смайликов не замечаем, да?

Алексей Гринь · апреля 14, 2009, 21:39

Цитата: "O" от
Ага, смайликов не замечаем, да?

Не нужно искать алгоритмы, если во фреймворке нет даже класса Set, оный наличествует в большинстве библиотек общего назначения для "хацкерного" СиПоПа?
8)

Алексей Гринь · апреля 14, 2009, 21:42

Не очень просто понимаю юмор фразы. Практически у всех языков есть стандартные библиотеки с уже готовыми алгоритмами. СиШарп не исключение.

myst · апреля 14, 2009, 22:10

Цитата: "злой" от
man grep

Подробнее, пжалста. Возможно, я не умею его готовить.

myst · апреля 14, 2009, 22:13

Цитата: "Алексей Гринь" от
Если массивы данных не большие - всё просто, почарово сравнивать, не вижу проблемы.

Это ж не просто сравнение. Да и изобретать самокат тоже лень. Хочется готовенького.

GaLL · апреля 14, 2009, 22:15

Цитата: myst от апреля 14, 2009, 20:20
Объясняю.
Есть, значит, у нас список строк: предприниматель, законодатель, предстать, верстать, устать.
Нужна функция, выдающая список общих частей, а также информацию, у скольких строк данная общая часть встречается. В нашем случае это будут: пред (2), атель (2), стать (3).
Примерно так.

Но ведь здесь есть много других подстрок, например, -пр-.

myst · апреля 14, 2009, 22:19

Цитата: "GaLL" от
Но ведь здесь есть много других подстрок, например, -пр-.

Я же не робат — всё не углядел.

Длину кусочков я планирую задавать в параметрах.

GaLL · апреля 14, 2009, 22:21

Просто постановка задачи неясна.

И, как правильно заметил Алексей Гринь, важен объем обрабатываемой информации.

GaLL · апреля 14, 2009, 22:24

Цитата: myst от апреля 14, 2009, 22:19
Длину кусочков я планирую задавать в параметрах.

Если, например, надо посчитать статистику для кусков конкретной длины k, то это можно эффективно сделать при помощи хэширования. Получится линейный относительно суммарной длины всех слов алгоритм.

myst · апреля 14, 2009, 22:45

Цитата: "GaLL" от
Просто постановка задачи неясна.

Как?! Всё ещё не ясна?!

Цитата: "GaLL" от
И, как правильно заметил Алексей Гринь, важен объем обрабатываемой информации.

Размер входного списка около 70 000 слов.

myst · апреля 14, 2009, 22:46

Цитата: "GaLL" от
Если, например, надо посчитать статистику для кусков конкретной длины k, то это можно эффективно сделать при помощи хэширования. Получится линейный относительно суммарной длины всех слов алгоритм.

Так-так! А подробнее?

Алексей Гринь · апреля 14, 2009, 22:51

Цитата: "myst" от
Размер входного списка около 70 000 слов.

Это для себя нужно?
Если так, могу набросать быдлоалгоритм, который будет работать долго, но сделает своё дело

myst · апреля 14, 2009, 22:54

Цитата: "Алексей Гринь" от
Это для себя нужно?

Да.

Цитата: "Алексей Гринь" от
Если так, могу набросать быдлоалгоритм, который будет работать долго, но сделает своё дело

Я и сам могу набросать, была бы идея.

Лингвофорум

Алгоритм поиска общих частей строк

myst

Алексей Гринь

O

GaLL

myst

myst

злой

Алексей Гринь

O

Алексей Гринь

O

Алексей Гринь

O

Алексей Гринь

Алексей Гринь

myst

myst

GaLL

myst

GaLL

GaLL

myst

myst

Алексей Гринь

myst

Быстрый ответ