Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

максимальная длина слов в разных языках

Автор Гвость, марта 13, 2012, 10:03

0 Пользователи и 1 гость просматривают эту тему.

Гвость

каков размер границы длинны знаков описывающих сущность?

например знаю что в среднем в русском это число: 6 знаков

допустим максимум в русском 15
то есть остальные длинные слова исключаются как нечастотные


вопрос вот окуда - допустим необходимо очень экономить каждый байт
задается максимальнодопутимая длина кодирования



есть ли сравнения этих показателей для разных языков - кто знаыть?

RawonaM

Цитата: Гвость от марта 13, 2012, 10:03
то есть остальные длинные слова исключаются как нечастотные
Тогда нужно сначала установить максимальную учитывающуюся частотность.

VRWAWV

опять вопрос никто не понял                   :-\


спрошу проще - какое самое длинное числом букв предложение целое в полиситетических  чукчей там разных горцев-индейцев

просто - зафиксировано в книге гиннеса самое длинное слово ?


autolyk

Цитата: RawonaM от марта 15, 2012, 08:30
Нужно точное определение слова.
Это невозможно, т.к. в разных языках оно разное.
Атэц Әүүәл not welcome in this topic

ManowaR

есть слова состоящие из букв - каким то объемом знаков кодируется пространство символов
в русском языке в среднем 6 - я бы хотел знать максимум какой
и какая частотность количества букв
это первый вопрос
если еще и в сравнении с другими языками - еще лучше

бывают языки где все слова предложения сливаются в одно мегаслово - инкорпорирующие полисинтетические...
какав размер таких слов-предложений

и третий вопрос о иероглифических языках типа китайского или японского
в них тоже знаки объеденяются в предложение - каков максимальный размер в знаках типичного большого предложения

вопрос с поправкой на то что рассматириваются относительно простые предложения односложные, в которых не дублируются актанты



ManowaR

Цитата: autolyk от марта 15, 2012, 09:02
Цитата: RawonaM от марта 15, 2012, 08:30
Нужно точное определение слова.
Это невозможно, т.к. в разных языках оно разное.

определение слова:
слово это знак который кодируется знаками-буквами
слово-знак это часть большого слова-предложения

вопроса два:
1) длинна слов в буквах-знаках
2) длина предложения в словах-знаках
верхний предел разумный какой? для разных языков

mnashe

Цитата: ManowaR от марта 15, 2012, 09:10
определение слова:
слово это знак который кодируется знаками-буквами
слово-знак это часть большого слова-предложения
Этилоксиэтилпарафенилендиаминсульфат (36 букв) — слово? :what:
Адепт единственного числа и безродового склонения
שָׁלוֹם עֲלֵיכֶם!

Вадимий

Цитата: mnashe от марта 15, 2012, 11:37
Этилоксиэтилпарафенилендиаминсульфат (36 букв) — слово? :what:
Этилоксиэтилпарафенилендиаминсульфатами (39 букв) считается?
Этилоксиэтилпарафенилендиаминсульфатствовать (44 буквы) считается?

Вадимий

Offtop
Консонантная письменность не мешает ивриту для химической номенклатуры? а то всякие там сульфаты vs сульфиты и проч.

mnashe

Цитата: Вадимий от марта 15, 2012, 11:55
Этилоксиэтилпарафенилендиаминсульфатами (39 букв) считается?
Не получится. Это конкретное вещество (ЦПВ-2, использовалось для проявления цветной фотобумаге в советском / восточногерманском процессе), а не класс веществ.

Цитата: Вадимий от марта 15, 2012, 11:55
Этилоксиэтилпарафенилендиаминсульфатствовать (44 буквы) считается?
Тем более.

Можно обойтись тв.п. ед.ч. — 38.
Адепт единственного числа и безродового склонения
שָׁלוֹם עֲלֵיכֶם!

mnashe

Цитата: Вадимий от марта 15, 2012, 11:58
Консонантная письменность не мешает ивриту для химической номенклатуры? а то всякие там сульфаты vs сульфиты и проч.
В данном случае нет, поскольку ударный уже давно передаётся mater lectionis י.
Адепт единственного числа и безродового склонения
שָׁלוֹם עֲלֵיכֶם!

Вадимий

В немецком можно таких слов понасоздавать — закачаешься. То же числительное. В вике было где-то, так что можно почитать (я всё равно могу где-нибудь наляпать).

В ложбане длина собственных слов теоретически неограниченная. Для примера:
jbojevysofkemsuzgugje'ake'eborkemfaipaltrusi'oke'ekemgubyseltru «Ложбанская Советская Федеративная Социалистическая Республика» (63 символа, из них 4 апострофа). А измерить среднюю длину слова в ложбане — это интересно! Вроде даже есть книги на ложбане (хотя бы одну я знаю), вот можно проанализировать.

В польском, подозреваю, будет довольно большая средняя длина из-за всяких там rz да szcz. А а найти одно из максимальных по длине слово в начальной форме — тоже, думаю, увлекательно.




murator

Цитата: Гвость от марта 13, 2012, 10:03
каков размер границы длинны знаков описывающих сущность?

например знаю что в среднем в русском это число: 6 знаков

допустим максимум в русском 15
то есть остальные длинные слова исключаются как нечастотные


вопрос вот окуда - допустим необходимо очень экономить каждый байт
задается максимальнодопутимая длина кодирования



есть ли сравнения этих показателей для разных языков - кто знаыть?
Возьмите какой-нибудь большой текст типа "Войны и мира", распарсите его на слова, и посмотрите распределение их длин. Выбросьте n% самых длинных и получите нужную квантиль.
И так для каждого языка.


antbez

Наверно, нужно отделить термины от не-терминов. Термины часто являются композитами (если в языке допускается композиция).
Quae medicamenta non sanant, ferrum sanat, quae ferrum non sanat, ignis sanat.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр