Предлагаю разрабатывать вместе какой-нибудь лингвистический софт (можно Open Source), чтобы было полезно и в использовании и в практике программирования.
Также жду идей от всех форумчан, какую программу хотелось бы иметь в своем распоряжении.
Если не найдется хорошая идея, то можно написать свой скрипт форума. 8)
Очень хотелось бы иметь текстовый редактор для Pocket PC, с поддержкой юникода.
Цитата: "shravan" от
Очень хотелось бы иметь текстовый редактор для Pocket PC, с поддержкой юникода.
А чем Word плох?
Нет таблицы символов.
Если будете что-то на Python делать, мог бы поучаствовать в какой-то степени (особенно, если в случае веба - Django, в случае GUI - wxPython). За последний десяток лет тяжеловесы вроде C++, Java, C# порядком утомили велеречивостью конструкций.
предлагаю сделать транслит/online клавиатуру для всех языков :)
Как насчет программы распознавания текста из отсканенного материала? Например, имеется словарь в pdf. Надо создать базу данных. С возможностью добавлять символы для других языков. Я сам программировал когда-то на C++/Java.
Ага, точно, хотя бы шрифты под файнридер сделать которые можно легко под текст подгонять, чтобы распознавало легко...
Цитата: ou77 от августа 16, 2007, 09:20
Ага, точно, хотя бы шрифты под файнридер сделать которые можно легко под текст подгонять, чтобы распознавало легко...
Я думаю, куда насущнее сделать файнридер, чтобы распознавал уже существующие книги.
уже существующий файнридер вполне распознает, ему надо только языки догружать, вот их и надо написать...
Да только програмистов всёравно нету здесь, а если есть, то не станут писать, так что разговор ниочём.
Цитата: ou77 от августа 16, 2007, 10:32
уже существующий файнридер вполне распознает, ему надо только языки догружать, вот их и надо написать...
Да только програмистов всёравно нету здесь, а если есть, то не станут писать, так что разговор ниочём.
Существующий лингвистический тексты не распознает. Его можно обучать, но только распознавать отдельные символы, точно сопадающие с эталоном, — в отсканированных текстах пискелизация знаков может быть самая разнообразная, — быстрее вручную набрать.
я ему из юникода вставлял - понимал, например ять распознавал (хотя и не отображал его)
Цитата: ou77 от августа 16, 2007, 10:55
я ему из юникода вставлял - понимал, например ять распознавал (хотя и не отображал его)
Да, и с уникодом он не дружит.
он его распознаёт и отличает, и по-моему потом даже передает в ворд, только что не отображает - квадратики вместо...
(но в ворд возможно тоже в виде квадратиков передает)
Я не говорил, что не понимает, я сказал, что не дружит. Что, вообще очень странно для такой программы.
Цитата: "shravan" от
Нет таблицы символов.
Кстати, таблица символов есть в Экселе. А что вам нужно вводить через таблицу символов и как часто?
В Pocket PC нет возможности набирать (и читать) тексты на многих языках. Надо обязательно устанавливать поддержку для этих языков, а она есть далеко не для всех и съедает много места в памяти. Таблица символов, наподобие вордовской или SC Unipad позволила бы вводить символы других языков, ничего не меняя.
Цитата: "shravan" от
В Pocket PC нет возможности набирать (и читать) тексты на многих языках. Надо обязательно устанавливать поддержку для этих языков, а она есть далеко не для всех и съедает много места в памяти.
Чтобы читать нужно установить подходящий шрифт, а чтобы вводить символы - ввод с клавиатуры. Или вы смогли бы через таблицу символов набрать арабский текст, к примеру?
Цитата: "shravan" от
Таблица символов, наподобие вордовской или SC Unipad позволила бы вводить символы других языков, ничего не меняя.
Экселовскую посмотрели? Menu->Insert->Symbol...
Ничего не меняя не получится, потому что шрифты, которые идут в стандартной поставке, содержат мало символов. Установите Arial Unicode и тогда можно будет видеть почти любые языки и вводить почти любые символы через эту функцию.
Для языков с обратным направлением письма (справа-налево) все равно придется специально устанавливать поддержку. Arial Unicode не поможет, т.к. направление набора текста останется прежним.
Экселевскую таблицу символов посмотрел. Это действительно неплохое подспорье, но почему бы не сделать возможным использование такой же таблицы в текстовом редакторе, а не только в Экселе? Согласитесь, не очень удобно набирать текст в Экселе, а потом копировать его в буфер и переносить в Ворд?
А вообще меня удивляет отсутствие интереса форумчан к обсуждаемой теме. Неужели никто кроме меня и вас не пользуется PDA? И неужели пользователей этих девайсов не коробит отсутствие в них возможности набирать тексты на разных языках?
Коробит. Поэтому и не пользуются.
Цитата: RawonaM от августа 15, 2007, 11:20
Предлагаю разрабатывать вместе какой-нибудь лингвистический софт (можно Open Source), чтобы было полезно и в использовании и в практике программирования.
Также жду идей от всех форумчан, какую программу хотелось бы иметь в своем распоряжении.
Если не найдется хорошая идея, то можно написать свой скрипт форума. 8)
Человек!!! Ты просто читаешь мои мысли. Я сижу, думаю, где бы найти программиста для разработки программы по интерпретации сравнительно-исторических данных. (Сам учил в школе бейсик, потом еле-еле паскаль в вузе, но дальше этого не продвинулся...) А сейчас возникла ситуация, когда это понадобилось.
Суть: имеется таблица (матрица) слов в разных языках (html), записанных в фонетической форме. Программа берет каждый символ в каждом слове и посимвольно (пофонемно) сравнивает его с другим словом в другой ячейке по определенному (тщательно продуманному) алгоритму. В конце, программа подсчитывает степень фонемной близости разных слов и выводит среднее арифметическое для каждой пары языков и записывает их в диагональную матрицу сравнения. В результате можно автоматически подсчитать степень фонетической близости различных языков и выстроить древо вероятного генетического ветвления языков. Последние, кто делали что-то подобное публиковались в журнале Nature пару лет назад.
Если заинтересует и если получится, половина нобелевки твоя :-)
Насколько я понимаю, в подобных сравнениях приходится сопоставлять и слова, немного отличающиеся по смыслу? Напр., рус. «ло́шадь» и укр. «лоша́» (жеребенок). Есть сходство и по смыслу, и по внешнему виду, но точного соответствия нет. Если в процессе исследования приходится сравнивать подобные пары, это представляет особую сложность для автоматического поиска — компьютер ведь не понимает смысла слов, он просто сопоставляет теѯт слова и текст описания слова.
Цитата: Darkstar от августа 20, 2007, 14:07
Цитата: RawonaM от августа 15, 2007, 11:20
Предлагаю разрабатывать вместе какой-нибудь лингвистический софт (можно Open Source), чтобы было полезно и в использовании и в практике программирования.
Также жду идей от всех форумчан, какую программу хотелось бы иметь в своем распоряжении.
Если не найдется хорошая идея, то можно написать свой скрипт форума. 8)
Человек!!! Ты просто читаешь мои мысли. Я сижу, думаю, где бы найти программиста для разработки программы по интерпретации сравнительно-исторических данных. (Сам учил в школе бейсик, потом еле-еле паскаль в вузе, но дальше этого не продвинулся...) А сейчас возникла ситуация, когда это понадобилось.
Суть: имеется таблица (матрица) слов в разных языках (html), записанных в фонетической форме. Программа берет каждый символ в каждом слове и посимвольно (пофонемно) сравнивает его с другим словом в другой ячейке по определенному (тщательно продуманному) алгоритму. В конце, программа подсчитывает степень фонемной близости разных слов и выводит среднее арифметическое для каждой пары языков и записывает их в диагональную матрицу сравнения. В результате можно автоматически подсчитать степень фонетической близости различных языков и выстроить древо вероятного генетического ветвления языков. Последние, кто делали что-то подобное публиковались в журнале Nature пару лет назад.
Если заинтересует и если получится, половина нобелевки твоя :-)
Ну так список Сводеша давно существует (правда нобелевку он не получил, нет нобелевской премии по языкознанию)
Только правильно ли сопоставлять именно фонетическое звучание? Там даже точно родственные языки буду не совсем совпадать, а сравнятся быстрее субстаты, я тут предлагал где-то сделать такой "новый список Сводеша" - записать интернациональные слова в фонетической транскрипции и сравнить в разных языках, большее совпадение получим в языках с близким субстатом (Предположение строится на том, что мол фонетика меняется в последнюю очередь в случае ассимиляции)
Все это интересное обсуждение, но мне нужен программист :-) (Или хотя бы человек, который бы научил, посоветовал и т.д.)
Есть у меня уже сокр. список Сводеша по 30 ИЕ группам, есть, я знаю, что делаю...
Цитата: "Darkstar" от
Все это интересное обсуждение, но мне нужен программист :-) (Или хотя бы человек, который бы научил, посоветовал и т.д.)
А что конкретно вам нужно? Каков алгоритм, есть ли исходные данные, что должно быть на выходе — отчёты, графики, что-то иное?
Ну вкратце, я уже описал выше. На выходе могут быть совершенно сырые числовые данные (отчеты, графике можно и самому построить). Исходные данные есть в формате html (при необходимости можно переписать в любой другой). Мне для начала нужен каркас программы для сравнения символьного элемента (условно) aacdb в i-м столбце матрицы 40x30 элементов с похожим элементом (условно) cacdс в той же самой строке в каждом из всех остальных 29 столбцов. И далее все оставшиеся столбцы поочередно друг с другом. Т.е. всего получится, если не ошибаюсь, (40x30)/2 + 40/2 cравнений, численные результаты которых удобно записать в половинку симметрической матрицы выходных данных. Понимаете?
Я это уже наскоро вручную делаю, но программа сделает это более объективно.
Точного алгоритма самого сравнения aacdb/cacdс пока нет. Но для начала возьмем какой-нибудь простейший, тупейший алгоритм (типа a=a выводится 1, если не равно, то выводится 0 и в симметрическую матрицу записывается числовой вектор результатов сравнения (0, 1, 0, 0, 0).
Т.е. на выходе будет половинка симметрической матрицы, элементами которой являются вектора результатов сравнения. Для матрицы 3x3 это будет выглядеть как-то так:
(1, 0, 1, 1), (0, 0, 0), (1,0,1,0)
(0, 0, 0, 1), (0, 0, 0, 1, 1)
(1,1)
Ну что ж, довольно интересно. Могу попробовать помочь вам, написав такое на Python. Язык хорош тем, что один из самых быстро понимаемых даже новичком и на нём можно писать быстрей чем на большинстве других. Мне потребуются какие-либо исходные данные, можно в форме html или xml таблицы, чтобы на них отлаживать и ответы на уточнающие вопросы, которые будут возникать по ходу разработки. Если так годится, дайте знать, я вам в личку кину мой емейл адрес, — перешлёте один-два файла с исходной таблицей, и те дополнительные раз'яснения и уточнения, которые посчитаете нужным.
А на нем cgi-скрипты для инета пишут? Я еще хотел научиться...
Поправка: Там на выходе не векторы, потому что нужно еще среднее арифметическое всех векторов найти, но это отдельно...
Окей, пришлю адрес :-)
Да, cgi скрипты на нём можно писать довольно просто. Вообще среди учёных он популярен (по крайней мере, на западе). Официальный сай языка http://python.org/
Если задачу правильно расписать о описать и самому понять как она функционирует, просто написать нормальным человеческим языком алгоритм функционирования - то написать программу будет легче.
Вообще всем желающим делать программное обеспечение - быть программистом не обязательно, главное знать что ты хочешь и уметь это объяснить. В конечном счёте любая программа на компьютере может быть представлена в виде абстрактного алгоритма.
Я изучаю ADA, C++ (в универе) и Delphi (сам), в школе был Бейсик, после школы Паскаль. Сам делал только словарики, программы-"деклинаторы" (т.е. ты вводишь слово и программа тебе его склоняет или спрягает по заданному типу), сложных программ не делал ещё, но если какие мысли серъёзные найдутся, с удовольствием поучаствую в обсуждении.
Цитата: Lei Ming Xia (reloaded) от августа 16, 2007, 07:05
предлагаю сделать транслит/online клавиатуру для всех языков :)
хоть и слишком поздно, тема ушла в небытие, я поддерживаю предложение :yes:
Цитата: "arseniiv" от
хоть и слишком поздно, тема ушла в небытие, я поддерживаю предложение :yes:
А я не поняла задачу... Что мы хотим иметь на выходе?
Как понял я, это должна быть страница, с кнопками с бувами (или например иероглифами), и наверно где-нибудь со сслыками для смены языка. Чтобы вводить текст на каком-нибудь языке онлайн. Все эти нажатия на кнопки собираются где-нибудь внизу, и оттуда копируете текст.
Сначала будет, например, один язык, а потом добавятся другие
А, так это "легче прощего", как говорится)
С буквами когда. С иероглифами так не выйдет, там особая система для ввода.
Только вот, не замучаетесь ли на кпопки тыкать, вводя каждый символ?
ну, это я не знаю...
не моя идея, но именно "буквенное" "легче прощего" я больше и имею ввиду
а иероглифы разве не просто в строчку вводятся? Ну, при соотвествующем ПО пользователя, они могут и справа налево, и сверху вниз, но вроде к ним же никакие знаки не добавляются? чтобы вводить их в одну строку - тогда кнопки работают. Но наверно их слишком много для кнопок
Цитата: "arseniiv" от
а иероглифы разве не просто в строчку вводятся? Ну, при соотвествующем ПО пользователя, они могут и справа налево, и сверху вниз, но вроде к ним же никакие знаки не добавляются? чтобы вводить их в одну строку - тогда кнопки работают. Но наверно их слишком много для кнопок
Вот о чём и речь.
Даже элементарных кандзи 1,945. Вместить их на клавиатуру, даже виртуальную, просто не реально. Они вводятся не так, как обычные буквенные символы, а специальным образом.
А вот для каны вполне реально сделать такую клавиатуру, а также транслитератор в обе стороны.
А иероглифы обычно да, вводятся в строчку. Но могут ещё сверху вниз слева направо — традиционный порядок.
хотелось бы, чтобы программеры озадачились бы вот этим:
http://lingvoforum.net/index.php/topic,9145.0.html (http://lingvoforum.net/index.php/topic,9145.0.html) 8)
Цитата: Dana от сентября 30, 2008, 14:28
Цитата: "arseniiv" от
а иероглифы разве не просто в строчку вводятся? Ну, при соотвествующем ПО пользователя, они могут и справа налево, и сверху вниз, но вроде к ним же никакие знаки не добавляются? чтобы вводить их в одну строку - тогда кнопки работают. Но наверно их слишком много для кнопок
Вот о чём и речь.
Даже элементарных кандзи 1,945. Вместить их на клавиатуру, даже виртуальную, просто не реально. Они вводятся не так, как обычные буквенные символы, а специальным образом.
А вот для каны вполне реально сделать такую клавиатуру, а также транслитератор в обе стороны.
А иероглифы обычно да, вводятся в строчку. Но могут ещё сверху вниз слева направо — традиционный порядок.
так это уже все давным-давно придумано http://www.lvoff.com/ (http://www.lvoff.com/)
Цитата: captain Accompong от сентября 30, 2008, 15:22
хотелось бы, чтобы программеры озадачились бы вот этим:
http://lingvoforum.net/index.php/topic,9145.0.html (http://lingvoforum.net/index.php/topic,9145.0.html) 8)
ну а где же текст? там его нет... :donno:
Цитата: arseniiv от сентября 30, 2008, 15:48
Цитата: captain Accompong от сентября 30, 2008, 15:22
хотелось бы, чтобы программеры озадачились бы вот этим:
http://lingvoforum.net/index.php/topic,9145.0.html (http://lingvoforum.net/index.php/topic,9145.0.html) 8)
ну а где же текст? там его нет... :donno:
читайте внимательнее
http://lingvoforum.net/index.php/topic,9145.msg139250.html#msg139250 (http://lingvoforum.net/index.php/topic,9145.msg139250.html#msg139250)
и там, вообще-то, речь идет о дешифровке письменности
я думал, речь шла о подсчёте частот встречаемости фонем
Цитата: arseniiv от сентября 30, 2008, 15:58
я думал, речь шла о подсчёте частот встречаемости фонем
ну, для этого как бы программеры не нужны, это можно самому сделать в легкую имея много айнских текстов на разных диалектах, ручку и бумагу :)
но только этот подсчет частотности нам мало что даст, потому что надпись слишком короткая и повторяющиеся знаки в ней могут передавать и совсем не самые частотные фонемы
в идеале, чтобы решить ту проблему с айнской письменностью необходимо следующее:
1. вычислительный центр, чтобы тупо перебрать все возможные варианты последовательно присваивая каждой графеме каждое фонетическое значение,
2. штат специалистов-айноведов, которые просматривали бы получившиеся варианты,
3. время
Цитата: "captain Accompong" от
в идеале, чтобы решить ту проблему с айнской письменностью необходимо следующее:
1. вычислительный центр, чтобы тупо перебрать все возможные варианты последовательно присваивая каждой графеме каждое фонетическое значение,
2. штат специалистов-айноведов, которые просматривали бы получившиеся варианты,
3. время
А программисты здесь с какого боку? Тупой перебор и студент-гуманитарий осилит.
Цитата: myst от сентября 30, 2008, 16:53
Цитата: "captain Accompong" от
в идеале, чтобы решить ту проблему с айнской письменностью необходимо следующее:
1. вычислительный центр, чтобы тупо перебрать все возможные варианты последовательно присваивая каждой графеме каждое фонетическое значение,
2. штат специалистов-айноведов, которые просматривали бы получившиеся варианты,
3. время
А программисты здесь с какого боку? Тупой перебор и студент-гуманитарий осилит.
что значит с какого боку? с такого, чтобы написать прогу, которая сразу бы отсеивала непригодные варианты :)
Цитата: "myst" от
А программисты здесь с какого боку? Тупой перебор и студент-гуманитарий осилит.
Ха-ха. Работал я когда-то пару лет преподом информатики. Поражали меня отличники гуманитарии, которые банальный цикл понять не могли, типа:
For I = 1 To 5
....
Next
Хотя ведь, это чистой воды лингвистика ;)
Цитата: "captain Accompong" от
что значит с какого боку? с такого, чтобы написать прогу, которая сразу бы отсеивала непригодные варианты
У Вас же в пункте 2 для этого штат специалистов-айноведов запланирован? :eat:
А если серьёзно, давайте ТЗ. Если по объёму работы выйдет не много, я мог бы накидать прототип. Но прежде, чем что-то писа́ть, есть смысл узнать, нет ли в природе подобных программ.
Цитата: myst от сентября 30, 2008, 17:44
Цитата: "captain Accompong" от
что значит с какого боку? с такого, чтобы написать прогу, которая сразу бы отсеивала непригодные варианты
У Вас же в пункте 2 для этого штат специалистов-айноведов запланирован? :eat:
А если серьёзно, давайте ТЗ. Если по объёму работы выйдет не много, я мог бы накидать прототип. Но прежде, чем что-то писа́ть, есть смысл узнать, нет ли в природе подобных программ.
подождите, может быть, что там вариантов то совсем-совсем немного будет, так что и вручную можно будет все просчитать, и это будет даже быстрее, чем с прогой, но, в случае чего, мы обязательно к вам обратимся :UU:
Цитата: myst от сентября 30, 2008, 17:44
Цитата: "captain Accompong" от
что значит с какого боку? с такого, чтобы написать прогу, которая сразу бы отсеивала непригодные варианты
У Вас же в пункте 2 для этого штат специалистов-айноведов запланирован? :eat:
балин, это ж идеальные условия... где вы у нас (да и не только у нас) видели штат - целый институт состоящий из одних айноведов? :D
Цитата: "captain Accompong" от
балин, это ж идеальные условия... где вы у нас (да и не только у нас) видели штат - целый институт состоящий из одних айноведов?
Ну, я даже не знаю... :??? Может, Вы за десятерых? ;-)
Цитата: "jvarg" от
Хотя ведь, это чистой воды лингвистика
Где же тут лингвистика?