каков размер границы длинны знаков описывающих сущность?
например знаю что в среднем в русском это число: 6 знаков
допустим максимум в русском 15
то есть остальные длинные слова исключаются как нечастотные
вопрос вот окуда - допустим необходимо очень экономить каждый байт
задается максимальнодопутимая длина кодирования
есть ли сравнения этих показателей для разных языков - кто знаыть?
Цитата: Гвость от марта 13, 2012, 10:03
то есть остальные длинные слова исключаются как нечастотные
Тогда нужно сначала установить максимальную учитывающуюся частотность.
опять вопрос никто не понял :-\
спрошу проще - какое самое длинное числом букв предложение целое в полиситетических чукчей там разных горцев-индейцев
просто - зафиксировано в книге гиннеса самое длинное слово ?
Нужно точное определение слова.
Цитата: RawonaM от марта 15, 2012, 08:30
Нужно точное определение слова.
Это невозможно, т.к. в разных языках оно разное.
есть слова состоящие из букв - каким то объемом знаков кодируется пространство символов
в русском языке в среднем 6 - я бы хотел знать максимум какой
и какая частотность количества букв
это первый вопрос
если еще и в сравнении с другими языками - еще лучше
бывают языки где все слова предложения сливаются в одно мегаслово - инкорпорирующие полисинтетические...
какав размер таких слов-предложений
и третий вопрос о иероглифических языках типа китайского или японского
в них тоже знаки объеденяются в предложение - каков максимальный размер в знаках типичного большого предложения
вопрос с поправкой на то что рассматириваются относительно простые предложения односложные, в которых не дублируются актанты
Цитата: autolyk от марта 15, 2012, 09:02
Цитата: RawonaM от марта 15, 2012, 08:30
Нужно точное определение слова.
Это невозможно, т.к. в разных языках оно разное.
определение слова:
слово это знак который кодируется знаками-буквами
слово-знак это часть большого слова-предложения
вопроса два:
1) длинна слов в буквах-знаках
2) длина предложения в словах-знаках
верхний предел разумный какой? для разных языков
Цитата: ManowaR от марта 15, 2012, 09:10
определение слова:
слово это знак который кодируется знаками-буквами
слово-знак это часть большого слова-предложения
Этилоксиэтилпарафенилендиаминсульфат (36 букв) — слово? :what:
Цитата: mnashe от марта 15, 2012, 11:37
Этилоксиэтилпарафенилендиаминсульфат (36 букв) — слово? :what:
Этилоксиэтилпарафенилендиаминсульфатами (39 букв) считается?
Этилоксиэтилпарафенилендиаминсульфатствовать (44 буквы) считается?
Консонантная письменность не мешает ивриту для химической номенклатуры? а то всякие там сульфаты vs сульфиты и проч.
Цитата: Вадимий от марта 15, 2012, 11:55
Этилоксиэтилпарафенилендиаминсульфатами (39 букв) считается?
Не получится. Это конкретное вещество (
ЦПВ-2, использовалось для проявления цветной фотобумаге в советском / восточногерманском процессе), а не класс веществ.
Цитата: Вадимий от марта 15, 2012, 11:55
Этилоксиэтилпарафенилендиаминсульфатствовать (44 буквы) считается?
Тем более.
Можно обойтись тв.п. ед.ч. — 38.
Цитата: Вадимий от марта 15, 2012, 11:58
Консонантная письменность не мешает ивриту для химической номенклатуры? а то всякие там сульфаты vs сульфиты и проч.
В данном случае нет, поскольку ударный
уже давно передаётся mater lectionis י.
В немецком можно таких слов понасоздавать — закачаешься. То же числительное. В вике было где-то, так что можно почитать (я всё равно могу где-нибудь наляпать).
В ложбане длина собственных слов теоретически неограниченная. Для примера:
jbojevysofkemsuzgugje'ake'eborkemfaipaltrusi'oke'ekemgubyseltru «Ложбанская Советская Федеративная Социалистическая Республика» (63 символа, из них 4 апострофа). А измерить среднюю длину слова в ложбане — это интересно! Вроде даже есть книги на ложбане (хотя бы одну я знаю), вот можно проанализировать.
В польском, подозреваю, будет довольно большая средняя длина из-за всяких там rz да szcz. А а найти одно из максимальных по длине слово в начальной форме — тоже, думаю, увлекательно.
Цитата: mnashe от марта 15, 2012, 12:02
Не получится. <...> Тем более.
Ну ты понял, что я имел в виду.
(wiki/ru) Эйяфьядлайёкюдль (http://ru.wikipedia.org/wiki/%D0%AD%D0%B9%D1%8F%D1%84%D1%8C%D1%8F%D0%B4%D0%BB%D0%B0%D0%B9%D1%91%D0%BA%D1%8E%D0%B4%D0%BB%D1%8C)
(wiki/ru) Самые_длинные_и_короткие_географические_названия (http://ru.wikipedia.org/wiki/%D0%A1%D0%B0%D0%BC%D1%8B%D0%B5_%D0%B4%D0%BB%D0%B8%D0%BD%D0%BD%D1%8B%D0%B5_%D0%B8_%D0%BA%D0%BE%D1%80%D0%BE%D1%82%D0%BA%D0%B8%D0%B5_%D0%B3%D0%B5%D0%BE%D0%B3%D1%80%D0%B0%D1%84%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5_%D0%BD%D0%B0%D0%B7%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F)
(wiki/ru) Категория:Самые_длинные_слова (http://ru.wikipedia.org/wiki/%D0%9A%D0%B0%D1%82%D0%B5%D0%B3%D0%BE%D1%80%D0%B8%D1%8F:%D0%A1%D0%B0%D0%BC%D1%8B%D0%B5_%D0%B4%D0%BB%D0%B8%D0%BD%D0%BD%D1%8B%D0%B5_%D1%81%D0%BB%D0%BE%D0%B2%D0%B0)
И тут длиной меряются.
Цитата: Гвость от марта 13, 2012, 10:03
каков размер границы длинны знаков описывающих сущность?
например знаю что в среднем в русском это число: 6 знаков
допустим максимум в русском 15
то есть остальные длинные слова исключаются как нечастотные
вопрос вот окуда - допустим необходимо очень экономить каждый байт
задается максимальнодопутимая длина кодирования
есть ли сравнения этих показателей для разных языков - кто знаыть?
Возьмите какой-нибудь большой текст типа "Войны и мира", распарсите его на слова, и посмотрите распределение их длин. Выбросьте n% самых длинных и получите нужную квантиль.
И так для каждого языка.
прапра...∞...прабабушка же
Наверно, нужно отделить термины от не-терминов. Термины часто являются композитами (если в языке допускается композиция).