Author Topic: максимальная длина слов в разных языках  (Read 6524 times)

0 Members and 1 Guest are viewing this topic.

Гвость

  • Guest
каков размер границы длинны знаков описывающих сущность?

например знаю что в среднем в русском это число: 6 знаков

допустим максимум в русском 15
то есть остальные длинные слова исключаются как нечастотные


вопрос вот окуда - допустим необходимо очень экономить каждый байт
задается максимальнодопутимая длина кодирования



есть ли сравнения этих показателей для разных языков - кто знаыть?

Offline RawonaM

  • Posts: 42923
то есть остальные длинные слова исключаются как нечастотные
Тогда нужно сначала установить максимальную учитывающуюся частотность.

VRWAWV

  • Guest
опять вопрос никто не понял                   :-\


спрошу проще - какое самое длинное числом букв предложение целое в полиситетических  чукчей там разных горцев-индейцев

просто - зафиксировано в книге гиннеса самое длинное слово ?

Offline RawonaM

  • Posts: 42923
Нужно точное определение слова.

Offline autolyk

  • Posts: 8498
  • Gender: Male
Нужно точное определение слова.
Это невозможно, т.к. в разных языках оно разное.
Атэц Әүүәл not welcome in this topic

ManowaR

  • Guest
есть слова состоящие из букв - каким то объемом знаков кодируется пространство символов
в русском языке в среднем 6 - я бы хотел знать максимум какой
и какая частотность количества букв
это первый вопрос
если еще и в сравнении с другими языками - еще лучше

бывают языки где все слова предложения сливаются в одно мегаслово - инкорпорирующие полисинтетические...
какав размер таких слов-предложений

и третий вопрос о иероглифических языках типа китайского или японского
в них тоже знаки объеденяются в предложение - каков максимальный размер в знаках типичного большого предложения

вопрос с поправкой на то что рассматириваются относительно простые предложения односложные, в которых не дублируются актанты



Нужно точное определение слова.
Это невозможно, т.к. в разных языках оно разное.

определение слова:
слово это знак который кодируется знаками-буквами
слово-знак это часть большого слова-предложения

вопроса два:
1) длинна слов в буквах-знаках
2) длина предложения в словах-знаках
верхний предел разумный какой? для разных языков

Offline mnashe

  • Administrator
  • *
  • Posts: 44074
  • Gender: Male
определение слова:
слово это знак который кодируется знаками-буквами
слово-знак это часть большого слова-предложения
Этилоксиэтилпарафенилендиаминсульфат (36 букв) — слово? :what:
שָׁלוֹם עֲלֵיכֶם!

Offline Вадимий

  • Posts: 15019
  • Gender: Male
Этилоксиэтилпарафенилендиаминсульфат (36 букв) — слово? :what:
Этилоксиэтилпарафенилендиаминсульфатами (39 букв) считается?
Этилоксиэтилпарафенилендиаминсульфатствовать (44 буквы) считается?

Offtop
Консонантная письменность не мешает ивриту для химической номенклатуры? а то всякие там сульфаты vs сульфиты и проч.

Offline mnashe

  • Administrator
  • *
  • Posts: 44074
  • Gender: Male
Этилоксиэтилпарафенилендиаминсульфатами (39 букв) считается?
Не получится. Это конкретное вещество (ЦПВ-2, использовалось для проявления цветной фотобумаге в советском / восточногерманском процессе), а не класс веществ.

Этилоксиэтилпарафенилендиаминсульфатствовать (44 буквы) считается?
Тем более.

Можно обойтись тв.п. ед.ч. — 38.
שָׁלוֹם עֲלֵיכֶם!

Консонантная письменность не мешает ивриту для химической номенклатуры? а то всякие там сульфаты vs сульфиты и проч.
В данном случае нет, поскольку ударный уже давно передаётся mater lectionis י.
שָׁלוֹם עֲלֵיכֶם!

Offline Вадимий

  • Posts: 15019
  • Gender: Male
В немецком можно таких слов понасоздавать — закачаешься. То же числительное. В вике было где-то, так что можно почитать (я всё равно могу где-нибудь наляпать).

В ложбане длина собственных слов теоретически неограниченная. Для примера:
jbojevysofkemsuzgugje'ake'eborkemfaipaltrusi'oke'ekemgubyseltru «Ложбанская Советская Федеративная Социалистическая Республика» (63 символа, из них 4 апострофа). А измерить среднюю длину слова в ложбане — это интересно! Вроде даже есть книги на ложбане (хотя бы одну я знаю), вот можно проанализировать.

В польском, подозреваю, будет довольно большая средняя длина из-за всяких там rz да szcz. А а найти одно из максимальных по длине слово в начальной форме — тоже, думаю, увлекательно.

Не получится. <...> Тем более.
Ну ты понял, что я имел в виду.


Offline Karakurt

  • Posts: 20040
  • Gender: Male
И тут длиной меряются.
͡° ͜つ ͡°

Offline murator

  • Posts: 2071
  • Gender: Male
каков размер границы длинны знаков описывающих сущность?

например знаю что в среднем в русском это число: 6 знаков

допустим максимум в русском 15
то есть остальные длинные слова исключаются как нечастотные


вопрос вот окуда - допустим необходимо очень экономить каждый байт
задается максимальнодопутимая длина кодирования



есть ли сравнения этих показателей для разных языков - кто знаыть?
Возьмите какой-нибудь большой текст типа "Войны и мира", распарсите его на слова, и посмотрите распределение их длин. Выбросьте n% самых длинных и получите нужную квантиль.
И так для каждого языка.

Offline Sudarshana

  • Posts: 6015
  • Gender: Male
прапра...∞...прабабушка же

Offline antbez

  • Posts: 4936
  • Gender: Male
Наверно, нужно отделить термины от не-терминов. Термины часто являются композитами (если в языке допускается композиция).
Quae medicamenta non sanant, ferrum sanat, quae ferrum non sanat, ignis sanat.

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
Type the letters shown in the picture
Listen to the letters / Request another image
Type the letters shown in the picture:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: