Посоветуйте программу для подсчета количества слов в тексте

Toman · октября 6, 2013, 16:04

Цитата: Славен от октября 6, 2013, 15:36
Освойте программу приведенную выше, и замените набор букв на тот который вам нужен

Ваша программа считает слова общей кучей, т.е. выдаёт результат в виде одного числа. А насколько я понял из одной фразы топикстартера, на выходе нужен вовсе даже словарь встречаемости с числом вхождений каждой найденной в тексте словоформы. Так что такая простая программа всё же не годится. А как раз для словарей в Перле есть удобное синтаксическое средство - "хеши" - так там называются собственно словари.

Цитата: Devorator linguarum от октября 6, 2013, 15:43
Да зачем такие сложности с границей слова? Критерии стандартные: пробел, конец строки, знаки препинания, кавычки.

Никаких сложностей - я именно это и имел в виду. Я просто к тому, что в существующем виде моя программа и эти критерии игнорирует, а вместо этого берёт подстроки заданной заранее длины, поэтому прямо в этом виде она вам не подойдёт.

Но если интересно, можете посмотреть её, она тоже маленькая (а могла бы быть ещё меньше, если бы не подразумевала каких-то дальнейших планов, суть которых я уже не помню, но уши которых торчат в закомментированном фрагменте):

Код Выделить


#!/usr/bin/perl

$max_word_size=4;

while(<STDIN>){
	$text.=$_;
}

$len=length($text);

for($s=1;$s<=$max_word_size;++$s){
	for($i=0;$i<=($len-$s);++$i){
		$subs=substr($text,$i,$s);
#		$parent_subs=substr($subs,0,$s-1);
#		if($parent_subs eq ''){
#			$parent_subs="\'";	
#		}
#		$wl{$parent_subs}.="\t$subs";
		++$wc{$subs};
	}
}

@hkeys=keys %wc;
@standart_sorted_keys= sort @hkeys;

foreach $k (@standart_sorted_keys){
	(length($k)==$max_word_size) && (print $k."\t".$wc{$k}."\n");
}

Toman · октября 6, 2013, 16:28

Цитата: Bhudh от октября 6, 2013, 16:02
Простите, а что для Вас "объёмный текст"⁈

Да хотя бы даже одна страница текста.

Цитата: Bhudh от октября 6, 2013, 16:02
Мой транслитератор древнегреческого в латиницу (причём не с одним прогоном) Илиаду+Одиссею только что транслитерировал за 4,5 секунды.

Браузерный, на джаваскрипте? Ну, значит, это я так криво написал, наверное. Или правила транслитерации алгоритмически слишком сложны оказались.

Bhudh · октября 6, 2013, 16:34

Цитата: Toman от октября 6, 2013, 16:28Браузерный, на джаваскрипте?

Браузерный, на джаваскрипте, не шибко-то оптимизированный.

Spoiler: function ⇓⇓⇓

Код Выделить

var greekTrplDiphthongsI = "αἰεἰοἰαἱεἱοἱαἲεἲοἲαἳεἳοἳαἴεἴοἴαἵεἵοἵαἶαἷεἶεἷοἶοἷυἰυἱυἲυἳυἴυἵυἶυἷΑἰΕἰΟἰΑἱΕἱΟἱΑἲΕἲΟἲΑἳΕἳΟἳΑἴΕἴΟἴΑἵΕἵΟἵΑἶΑἷΕἶΕἷΟἶΟἷΥἰΥἱΥἲΥἳΥἴΥἵΥἶΥἷ";
var latinTrplDiphthongsI = "ˀaiˀeeˀoihaiheehoiˀaìˀeèˀoìhaìheèhoìˀaíˀeéˀoíhaíheéhoíˀáiháiˀéehéeˀóihóiˀuihuiˀuìhuìˀuíhuíˀúihúiˀaiˀeeˀoihaiheehoiˀaìˀeèˀoìhaìheèhoìˀaíˀeéˀoíhaíheéhoíˀáiháiˀéehéeˀóihóiˀuihuiˀuìhuìˀuíhuíˀúihúi";
var greekTrplDiphthongsU = "αὐεὐοὐαὑεὑοὑαὒεὒοὒαὓεὓοὓαὔεὔοὔαὕεὕοὕαὖαὗεὖεὗοὖοὗγχ";
var latinTrplDiphthongsU = "ˀauˀeuˀoohauheuhooˀaùˀeùˀoòhaùheùhoòˀaúˀeúˀoóhaúheúhoóˀáuháuˀéuhéuˀóóhóóŋkʰ";
var greekDblDiphthongs =   "αῖεῖοῖαῦεῦοῦειεὶείουοὺούγγγκ";
var latinDblDiphthongs =   "áiéeóiáuéuóoeeeèeéoooòoóŋɡŋk";
var greekQuadPolyLetters = "ᾆᾇᾎᾏᾐᾑᾒᾓᾔᾕᾖᾗᾘᾙᾚᾛᾜᾝᾞᾟᾠᾡᾢᾣᾤᾥᾦᾧᾨᾩᾪᾫᾬᾭᾮᾯ";
var latinQuadTrans =       "ˀáaiháaiˀáaiháaiˀææihææiˀæǣihæǣiˀæǽihæǽiˀǽæihǽæiˀææihææiˀæǣihæǣiˀæǽihæǽiˀǽæihǽæiˀwwihwwiˀwẁihwẁiˀwẃihwẃiˀẃwihẃwiˀwwihwwiˀwẁihwẁiˀwẃihwẃiˀẃwihẃwi";
var greekTrplPolyLetters = "ᾂᾃᾄᾅἆἇᾀᾁᾷᾊᾋᾌᾍἎἏᾈᾉἠἡἢἣἤἥἦἧῃῂῄῇἨἩἪἫἬἭἮἯῌἶἷἾἿὖὗὟὠὡὢὣὤὥῳῲῴῷὦὧὨὩὪὫὬὭὮὯῼ";
var latinTrplTrans =       "ˀàihàiˀáiháiˀáaháaˀaihaiáaiˀàihàiˀáiháiˀáaháaˀaihaiˀææhææˀæǣhæǣˀæǽhæǽˀǽæhǽæææiæǣiæǽiǽæiˀææhææˀæǣhæǣˀæǽhæǽˀǽæhǽæææiˀíihíiˀíihíiˀúuhúuhúuˀwwhwwˀwẁhwẁˀwẃhwẃwwiwẁiwẃiẃwiˀẃwhẃwˀwwhwwˀwẁhwẁˀwẃhwẃˀẃwhẃwwwi";
var greekDblPolyLetters  = "ἀἁἂἃἄἅᾶᾳᾲᾴἈἉἊἋἌἍᾼἐἑἒἓἔἕἘἙἚἛἜἝηὴήῆΗῊΉἰἱἲἳἴἵῖῗἸἹἺἻἼἽὀὁὂὃὄὅὈὉὊὋὌὍῤῥῬὐὑὒὓὔὕῦῧὙὛὝωὼώῶΩῺΏ";
var latinDblTrans =        "ˀahaˀàhàˀáhááaaiàiáiˀahaˀàhàˀáháaiˀeheˀèhèˀéhéˀeheˀèhèˀéhéæææǣæǽǽææææǣæǽˀihiˀìhìˀíhííiíiˀihiˀìhìˀíhíˀohoˀòhòˀóhóˀohoˀòhòˀóhóʰrrhhrˀuhuˀùhùˀúhúúuúuhuhùhúwwwẁwẃẃwwwwẁwẃ";
var greekMonoPolyLetters = "ὰάᾺΆὲέῈΈὶίῒΐῚΊὸόῸΌὺύῢΰῪΎάέήίϊΐόύϋΰώΆΈΉΊΌΎΏᾰᾱῐῑῠῡ·"; //θΘφΦχΧ
var latinMonoTrans =       "àáàáèéèéìíìíìíòóòóùúùúùúáéǽíiíóúuúẃáéǽíóúẃăāĭīŭū,";
var greekLetters = "αβγδεζικλμνξοπρςστυψΑΒΓΔΕΖΙΚΛΜΝΞΟΠΡΣΤΥΨ";
var latinLetters = "abɡdeziklmnšoprsstučabɡdeziklmnšoprstuč";
var greekbr = "\n";
function grk2tr(str) {
	var ms_start = new Date().getTime();
	str = str.replace(RegExp(greekbr,'g'),'<br />');
	str = str.replace(RegExp('[0-9]+([^\). ])','g'),'$1');
	str = str.replace(RegExp('(', |᾽, |' |᾽ |'|᾽)','g'),'');
	for (var i=0,l=0; i < greekTrplDiphthongsI.length; i+=2,l+=3) {
		str = str.replace(RegExp(greekTrplDiphthongsI.substr(i,2),'gi'),latinTrplDiphthongsI.substr(l,3));
	}
	for (var i=0,l=0; i < greekTrplDiphthongsU.length; i+=2,l+=3) {
		str = str.replace(RegExp(greekTrplDiphthongsU.substr(i,2),'gi'),latinTrplDiphthongsU.substr(l,3));
	}
	for (var i=0,l=0; i < greekDblDiphthongs.length; i+=2,l+=2) {
		str = str.replace(RegExp(greekDblDiphthongs.substr(i,2),'gi'),latinDblDiphthongs.substr(l,2));
	}
	for (var i=0,l=0; i < greekQuadPolyLetters.length; i++,l+=4) {
		str = str.replace(RegExp(greekQuadPolyLetters[i],'gi'),latinQuadTrans.substr(l,4));
	}
	for (var i=0,l=0; i < greekTrplPolyLetters.length; i++,l+=3) {
		str = str.replace(RegExp(greekTrplPolyLetters[i],'gi'),latinTrplTrans.substr(l,3));
	}
	for (var i=0,l=0; i < greekDblPolyLetters.length; i++,l+=2) {
		str = str.replace(RegExp(greekDblPolyLetters[i],'gi'),latinDblTrans.substr(l,2));
	}
	for (var i=0; i < greekMonoPolyLetters.length; i++) {
		str = str.replace(RegExp(greekMonoPolyLetters[i],'gi'),latinMonoTrans[i]);
	}
	for (var i=0; i < greekLetters.length; i++) {
		str = str.replace(RegExp(greekLetters[i],'gi'),latinLetters[i]);
	}
	str = str.replace(RegExp('[θΘ]','g'),'tʰ');
	str = str.replace(RegExp('[φΦ]','g'),'pʰ');
	str = str.replace(RegExp('[χΧ]','g'),'kʰ');
	str = str.replace(RegExp('ǣ','g'),'æ̀');
	str = str.replace(RegExp('ẃ','g'),'ɔ́');
	str = str.replace(RegExp('ẁ','g'),'ɔ̀');
	str = str.replace(RegExp('w','g'),'ɔ');
	str = str.replace(RegExp('š','g'),'ks');
	str = str.replace(RegExp('š','g'),'x');
	str = str.replace(RegExp('č','g'),'ps');
	
	var ms_stop = new Date().getTime();
	alert(ms_stop-ms_start);
	return str;
}

Toman · октября 6, 2013, 17:03

Цитата: Bhudh от октября 6, 2013, 16:34
Браузерный, на джаваскрипте, не шибко-то оптимизированный.

Ой, какой малюсенький, на регекспах-то! Свой я тоже хотел в сообщение запихать - да не смог, ограничение размера сообщения не позволяет.
Могу вставить, для примера, только часть - только из латиницы в кириллицу. Регекспами воспользоваться, конечно, можно было бы. Но не знаю, удобно ли.

Spoiler ⇓⇓⇓

Код Выделить


var cyr_letters_small= new Array
("а","б","в","г","д","е","ё","ж","з","и","й","к","л","м","н","о","п","р","с","т",
"у","ф","х","ц","ч","ш","щ","ъ","ы","ь","э","ю","я");
var cyr_letters_cap= new Array
("А","Б","В","Г","Д","Е","Ё","Ж","З","И","Й","К","Л","М","Н","О","П","Р","С","Т",
"У","Ф","Х","Ц","Ч","Ш","Щ","Ъ","Ы","Ь","Э","Ю","Я");

var lat_letters_small= new Array
("a","b","c","d","e","f","g","h","i","j","k","l","m","n","o","p","q","r","s","t",
"u","v","w","x","y","z");
var lat_letters_cap= new Array
("A","B","C","D","E","F","G","H","I","J","K","L","M","N","O","P","Q","R","S","T",
"U","V","W","X","Y","Z");

var in_arr;

function lat2cyr_output(){
	t_out=document.rustranslit.text_out;
	t_out.value="";
	preform_in_arr();
	for(var i=0;in_arr[i];++i){
		lat2cyr_index(i);
		adjust_result_ucase_index(i);
		t_out.value+=in_arr[i].result;
	}
}

function cyr2lat_output(){
	t_out=document.rustranslit.text_out;
	t_out.value="";
	preform_in_arr();
	for(var i=0;in_arr[i];++i){
		cyr2lat_index(i);
		adjust_result_ucase_index(i);
		t_out.value+=in_arr[i].result;
	}
}

function preform_deinsect(){
	t_out=document.rustranslit.text_out;
	preform_in_arr();
	for(var i=0;in_arr[i];++i){
		lat2cyr_index(i);
		adjust_result_ucase_index(i);
	}
	for(var i=0;rec=in_arr[i];++i){
		t_out.value+=(rec.original_char+'  ');
		t_out.value+=(rec.printable_class+'  ');
		t_out.value+=(rec.ucase+'  ');
		t_out.value+=(rec.letterclass+'  ');
		t_out.value+=(rec.cyr_letter+'  ');
		t_out.value+=(rec.lat_letter+'  ');
		t_out.value+=(rec.result);
		t_out.value+=('\n');
	}
}

function preform_in_arr(){
	t_in=document.rustranslit.text_in;
	in_arr=new Array;
	for(var i=0;lett=t_in.value.substr(i,1);++i){
		in_arr[i]=new Object;
		preform_rec(in_arr[i],lett);
	}
}

function preform_rec(rec,c){
	rec.original_char=c;
	rec.printable_class=get_char_printable_class(c);
	rec.ucase=get_char_ucase(c);
	rec.letterclass=get_char_letterclass(c);
	rec.cyr_letter=get_char_cyr_letter(c);
	rec.lat_letter=get_char_lat_letter(c);
}

function adjust_result_ucase_index(index){
	var rec=in_arr[index];

	if(rec.result==''&&rec.ucase==1){
		if(in_arr[index+1].letterclass=='C'||in_arr[index+1].letterclass=='L'){
			in_arr[index+1].ucase=1;
		}
	}
	
	if((rec.letterclass!='C')&&(rec.letterclass!='L')) return;

	var post1=index<=(in_arr.length-2)?in_arr[index+1]:0;
	rec_ucase=rec.ucase;
	post_ucase=post1?post1.ucase:-1;
	var ucase_type="bb";
	if(rec_ucase==1){
		if(post_ucase==0){
			ucase_type="Bb";
		}else{
			ucase_type="BB";
		}
	}

	var res_new='';
	for(var p=0;p<rec.result.length;++p){
		var c=rec.result.substr(p,1);
		for(var i=0;cyr_letters_small[i]||lat_letters_small[i];++i){
			if( c==cyr_letters_small[i]){
				res_new+=(ucase_type=='BB')||(ucase_type=='Bb'&&p==0)?cyr_letters_cap[i]:c;
			}else if(c==lat_letters_small[i]){
				res_new+=(ucase_type=='BB')||(ucase_type=='Bb'&&p==0)?lat_letters_cap[i]:c;
			}
		}
	}
	rec.result=res_new;
}

function lat2cyr_index(index){
	var rec=in_arr[index];
	var pre3=index>=3?in_arr[index-3]:0;
	var pre2=index>=2?in_arr[index-2]:0;
	var pre1=index>=1?in_arr[index-1]:0;
	var post1=index<=(in_arr.length-2)?in_arr[index+1]:0;
	var post2=index<=(in_arr.length-3)?in_arr[index+2]:0;
	var post3=index<=(in_arr.length-4)?in_arr[index+3]:0;

	var j_post_regvowel=false;
	var j_post_iy=false;
	var j_pre_regvowel_j=false;
	var j_pre_jercondition=false;

	switch (rec.lat_letter){ // letters here only lowercase!
		case 'a':
			switch(pre1.lat_letter){
				case 'i':
				case 'j':
					rec.result='я';return;
				default:
					rec.result='а';return;
			}
		case 'b':
			rec.result='б';return;
		case 'c':
			switch(post1.lat_letter){
				case 'h':
					rec.result='ч';return;
				default:
					rec.result='дж';return;
			}
		case 'd':
			switch(post1.lat_letter){
				case 'h':
					rec.result='дз';return;
				default:
					rec.result='д';return;
			}
		case 'e':
			switch(pre1.lat_letter){
				case 'i':
				case 'j':
					rec.result='е';return;
				default:
					rec.result='э';return;
			}
		case 'f':
			rec.result='ф';return;
		case 'g':
			switch(post1.lat_letter){
				case 'h':
					rec.result='гх';return;
				case 'q':
					rec.result='гъ';return;
				default:
					rec.result='г';return;
			}
		case 'h':
			rec.result='';return;
		case 'i':
			switch(pre1.lat_letter){
				case 'y':
				case 'i':// only second 'i' yields russian cyrillic 'i'
				case 'j':// 'ji' - in Russian there isn't such a letter, while in Ukrainian it is :)
					rec.result='и';return;
				// consonants and pseudoconsonants accepting "yeri"
				case 'b':
				case 'c':
				case 'd':
				case 'f':
				case 'g':
				case 'h':
				case 'k':
				case 'l':
				case 'm':
				case 'n':
				case 'p':
				case 'q':
				case 'r':
				case 's':
				case 't':
				case 'v':
				case 'w':
				case 'x':
				case 'z':
				default: // if one set single 'i' where it shouldn't stay,
					// he get maybe some crazy results...
					switch(post1.lat_letter){
						// vowel
						case 'a':// "..bia.."
						case 'e':// "..bie.."
						case 'o':// "..bio.."
						case 'u':// "..biu.." - all null
						case 'i':// "..bii.." - also null for the first 'i'
							rec.result='';return;
						case 'y':// "..biy.." - incorrect at all, but what to do.. We should translit it as incorrect as one has written it :)
						default:
							rec.result='ь';return;
					}

			}
		case 'j':// the most complex letter!
			// It must be omitted if it stays in patterns such as "bije", "biji(y)",
			// "byje", "byji(y)", "eje", " je", but should not be omitted in patterns
			// such as "*jb", "bj*", " ji(y)", "eji(y)"
			// So, at first threat "*jb" situation
			switch (post1.lat_letter){
				case 'i':
				case 'y':
					j_post_iy=true;break;
				case 'a':
				case 'e':
				case 'o':
				case 'u':
					j_post_regvowel=true;break;
				case 'j':// 'j' here is also a consonant
				case 'b':
				case 'c':
				case 'd':
				case 'f':
				case 'g':
				case 'h':
				case 'k':
				case 'l':
				case 'm':
				case 'n':
				case 'p':
				case 'q':
				case 'r':
				case 's':
				case 't':
				case 'v':
				case 'w':
				case 'x':
				case 'z':
				default:
					rec.result='й';return;
			}
			switch(pre1.lat_letter){
				case 'b':// here 'j' will not be used as consonant!
				case 'c':
				case 'd':
				case 'f':
				case 'g':
				case 'h':
				case 'k':
				case 'l':
				case 'm':
				case 'n':
				case 'p':
				case 'q':
				case 'r':
				case 's':
				case 't':
				case 'v':
				case 'w':
				case 'x':
				case 'z':
					rec.result='й';return;
				case 'i':
				case 'y':
					switch(pre2.lat_letter){
						case 'b':// here 'j' will also not be used as normal consonant!
						case 'c':
						case 'd':
						case 'f':
						case 'g':
						case 'h':
						case 'k':
						case 'l':
						case 'm':
						case 'n':
						case 'p':
						case 'q':
						case 'r':
						case 's':
						case 't':
						case 'v':
						case 'w':
						case 'x':
						case 'z':
							j_pre_jercondition=true;break;
						case 'j':
						case 'i':
						case 'y':
						case 'a':// this is also incorrect, but...
						case 'e':
						case 'o':
						case 'u':
						default:
							j_pre_regvowel_j=true;break;
					} break;
				case 'j':
				case 'a':
				case 'e':
				case 'o':
				case 'u':
				default:// empty space is equal to regular vowel before 'j'
					j_pre_regvowel_j=true;break;

			}
			if(j_post_regvowel){
				if(j_pre_regvowel_j){
					rec.result='';return;
				}else if(j_pre_jercondition){
					rec.result='';return;
				}else{
					rec.result='й';return;
				}
			}else if(j_post_iy){
				if(j_pre_regvowel_j){
					rec.result='й';return;
				}else if(j_pre_jercondition){
					if(post1.lat_letter=='y'){
						rec.result='й';return;
					}else{
						rec.result='';return;
					}
				}else{
					rec.result='й';return;
				}
			}else{
				rec.result='й';return;
			}

		case 'k':
			switch(post1.lat_letter){
				case 'q':
					rec.result='къ';return;
				default:
					rec.result='к';return;
			}
		case 'l':
			rec.result='л';return;
		case 'm':
			rec.result='м';return;
		case 'n':
			rec.result='н';return;
		case 'o':
			switch(pre1.lat_letter){
				case 'i':
				case 'j':
					rec.result='ё';return;
				default:
					rec.result='о';return;
			}
		case 'p':
			rec.result='п';return;
		case 'q':
			switch(pre1.lat_letter){
				case 'k':
				case 'g':
				case 'x':
					rec.result='';return;
				default:
					rec.result='къ';return;
			}
		case 'r':
			rec.result='р';return;
		case 's':
			switch(post1.lat_letter){
				case 'h':
					switch(post2.lat_letter){
						case 'h':
							rec.result='щ';return;
						default:
							rec.result='ш';return;
					}
				default:
					rec.result='с';return;
			}
		case 't':
			switch(post1.lat_letter){
				case 'h':
					rec.result='ц';return;
				default:
					rec.result='т';return;
			}
		case 'u':
			switch(pre1.lat_letter){
				case 'i':
				case 'j':
					rec.result='ю';return;
				default:
					rec.result='у';return;
			}
		case 'v':
			rec.result='в';return;
		case 'w':
			rec.result='w';return;
		case 'x':
			switch(post1.lat_letter){
				case 'q':
					rec.result='хъ';return;
				case 'h':
					rec.result='h';return;
				default:
					rec.result='х';return;
			}
			rec.result='х';return;
		case 'y':
			switch(pre1.lat_letter){
				case 'y':
				case 'i':// it's wild, but we will do it is such a manner!
				case 'j':// 'jy' - in Russian there isn't such a letter
					rec.result='ы';return;
				// consonants and pseudoconsonants accepting "yer"
				case 'b':
				case 'c':
				case 'd':
				case 'f':
				case 'g':
				case 'h':
				case 'k':
				case 'l':
				case 'm':
				case 'n':
				case 'p':
				case 'q':
				case 'r':
				case 's':
				case 't':
				case 'v':
				case 'w':
				case 'x':
				case 'z':
				default: // if one set single 'y' where it shouldn't stay,
					// he get maybe some crazy results...
					switch(post1.lat_letter){
						case 'y':// "..byy.." 
							rec.result='';return;
						default:
							rec.result='ъ';return;
					}

			}
		case 'z':
			switch(post1.lat_letter){
				case 'h':
					rec.result='ж';return;
				default:
					rec.result='з';return;
			}




		default: // not a latin letter
			rec.result=rec.cyr_letter||rec.original_char;return;
	}
}

function get_char_printable_class(c){
	for(var i=0;cyr_letters_cap[i];++i){
		if( c==cyr_letters_cap[i]) return 'C';
	}
	for(var i=0;cyr_letters_small[i];++i){
		if( c==cyr_letters_small[i]) return 'c';
	}
	for(var i=0;lat_letters_cap[i];++i){
		if( c==lat_letters_cap[i]) return 'L';
	}
	for(var i=0;lat_letters_small[i];++i){
		if( c==lat_letters_small[i]) return 'l';
	}
	return 'N';
}

function get_char_ucase(c){
	for(var i=0;cyr_letters_cap[i];++i){
		if( c==cyr_letters_cap[i]) return 1;
	}
	for(var i=0;cyr_letters_small[i];++i){
		if( c==cyr_letters_small[i]) return 0;
	}
	for(var i=0;lat_letters_cap[i];++i){
		if( c==lat_letters_cap[i]) return 1;
	}
	for(var i=0;lat_letters_small[i];++i){
		if( c==lat_letters_small[i]) return 0;
	}
	return -1;
}

function get_char_letterclass(c){
	for(var i=0;cyr_letters_cap[i];++i){
		if( c==cyr_letters_cap[i]) return 'C';
	}
	for(var i=0;cyr_letters_small[i];++i){
		if( c==cyr_letters_small[i]) return 'C';
	}
	for(var i=0;lat_letters_cap[i];++i){
		if( c==lat_letters_cap[i]) return 'L';
	}
	for(var i=0;lat_letters_small[i];++i){
		if( c==lat_letters_small[i]) return 'L';
	}
	return 'N';
}

function get_char_cyr_letter(c){
	for(var i=0;cyr_letters_cap[i];++i){
		if( c==cyr_letters_cap[i]) return cyr_letters_small[i];
	}
	for(var i=0;cyr_letters_small[i];++i){
		if( c==cyr_letters_small[i]) return cyr_letters_small[i];
	}
}

function get_char_lat_letter(c){

	for(var i=0;lat_letters_cap[i];++i){
		if( c==lat_letters_cap[i]) return lat_letters_small[i];
	}
	for(var i=0;lat_letters_small[i];++i){
		if( c==lat_letters_small[i]) return lat_letters_small[i];
	}
}

Bhudh · октября 6, 2013, 17:18

Toman · октября 6, 2013, 17:40

Думаете, был существенно более простой вариант реализовать ту же функциональность?

Bhudh · октября 6, 2013, 17:51

Цитата: Toman от октября 6, 2013, 17:40Думаете, был существенно более простой вариант реализовать ту же функциональность?

1) В моём коде ровно та же функциональность. Достаточно поменять строки.
2) Судя по ~~велосипеду~~ коду, Вам ничего неизвестно про оператор in.

Toman · октября 6, 2013, 18:12

Цитата: Bhudh от октября 6, 2013, 17:51
1) В моём коде ровно та же функциональность. Достаточно поменять строки.

Вы уверены в этом? Впрочем, да, теоретически так сделать, разумеется, можно - но вот только проблема - какова будет длина этих строк? Изначально-то я хотел тоже примерно так поступить - точнее, просто стырить код с сайта //translit.ru, и подсунуть туда свои сочетания вместо ихних. Ан нет, не получилось. Таблица простых замен получилась бы монструозной - ещё больше моего транслитератора (и, вероятно, больше любого текста, подлежащего транслитерации), и для генерации этой таблицы всё равно пришлось бы писать вспомогательную программу.

Цитата: Bhudh от октября 6, 2013, 17:51
2) Судя по ~~велосипеду~~ коду, Вам ничего неизвестно про оператор in.

Для чего вы предлагали бы его применить в этом коде??? Вы предлагаете кодировать фактически булевы переменные посредством существования или несуществования у объекта свойства с некоторым именем??? Но это выглядело бы как какой-то изврат, имхо, трудночитаемый. Или для проверки границ массива? Но и там это не дало бы никакого существенного сокращения кода. Вот если бы надо было составлять словарь (что как раз хочет топикстартер), то операции а-ля перловый хеш бы реально пригодились. Но у меня ж тут нет словарей.

arseniiv · октября 6, 2013, 18:23

элемент in массив, не?

Toman · октября 6, 2013, 18:38

Цитата: arseniiv от октября 6, 2013, 18:23
элемент in массив, не?

Индекс_элемента in массив. Ну и что нам с него толку? Массив[индекс_элемента] даёт (в конкретно моём случае - где нет значимых нулей или пустых строк в массиве) такой же годный логический результат на предмет того, есть ли в массиве (ненулевой) элемент под таким-то номером.

Bhudh · октября 6, 2013, 19:00

Цитата: Toman от октября 6, 2013, 18:38Индекс_элемента in массив.

Ключ_элемента in объект. Для массива оператор in не сработает.

arseniiv · октября 6, 2013, 19:06

Ладно, другое.

function makePredicate(list) {
var d = {};
var len = list.length;
for (i = 0; i < len; i++)
d[list] = true;
function predicate(elem) {
return d[elem];
}
return predicate;
}

Использование:

var isCapital = makePredicate("ABCDEFG...")
// ...
... isCapital(c) ...

Это работает, по крайней мере, быстрее, чем циклы по массивам.

Toman · октября 6, 2013, 19:08

Цитата: Bhudh от октября 6, 2013, 19:00
Для массива оператор in не сработает.

По вашей же ссылке прямым текстом написано, что сработает. Вообще, НЯП, в джаваскрипте каких-то отдельных массивов нет, они такие же "объекты", как и прочие. Просто в качестве ключей при создании используются целые числа.

Bhudh · октября 6, 2013, 19:16

Цитата: Toman от октября 6, 2013, 19:08По вашей же ссылке прямым текстом написано, что сработает.

А, это я не так выразился. Не сработает поиск значения как ключа, бо ключ там как раз число.

Bhudh · октября 6, 2013, 19:19

Цитата: Toman от октября 6, 2013, 19:08Вообще, НЯП, в джаваскрипте каких-то отдельных массивов нет, они такие же "объекты", как и прочие.

Не совсем такие же.
Конструктор Array() что-то там переопределяет, ту же toString(), к примеру.

Toman · октября 6, 2013, 19:44

Цитата: arseniiv от октября 6, 2013, 19:06
Это работает, по крайней мере, быстрее, чем циклы по массивам.

Вот в частности за это я не люблю джаваскрипт. Всё-таки нормальные массивы должны быть. И если бы они были, перебор сравнительно короткого массива на равенство строк имел бы шансы быть не медленнее, чем поиск по ключу. А так, когда даже доступ к каждому элементу массива работает через тот же поиск по ключу - конечно, перебор массива будет медленнее, чем один поиск по ключу.
С одной стороны, такое вот единообразие всех объектов - оно вроде и красиво (и за это мне джаваскрипт нравится), но вот даже не портя этого, можно было бы организовать правильный быстрый доступ по целочисленным ключам без какого-либо поиска - тогда существенных потерь времени на это не было бы. Даже если в 3 раза медленнее поиска по ключу - но всё-таки не в 100 раз медленнее.
Конечно, если бы у меня была привычка в джаваскрипте работать с объектами как с перловскими хешами/словарями и воспринимать их в первую очередь именно как словари, я бы, вполне возможно, так и сделал. Но такой привычки, по крайней мере, в то время, когда был написан этот скрипт (а это было примерно время моего первого появления на ЛФ), у меня не было.

Славен · октября 9, 2013, 17:06

Text::Statistics::Cyrillic creates a seven column CSV file output with one line each token per text given as input a corpus that files names follows ' 1 (1). txt', '1 (2). txt', ..., '1 (n).txt' or 1 $([1-9]|[1-9][0-9]+)$\.txt Columns stores statistical information: (1) number of word forms in document d; (2) number of tokens in d; (3) Id number of d, ie., n; (4) frequency of term t in d; (5) corpus frequency of t ; (6) document frequency of t (number of documents where t occurs at least once); (7) t, UTF8 latin coded token-string

https://metacpan.org/module/Text::Statistics::Cyrillic

yatea - Perl script for extracting terms from a corpus of texts and providing a syntactic analysis in a head-modifier representation.

https://metacpan.org/module/THHAMON/Lingua-YaTeA-0.622/bin/yatea

Rwseg · октября 23, 2013, 19:28

http://neon.niederlandistik.fu-berlin.de/en/textstat/

Morugesso · декабря 1, 2013, 12:40

Автор, если еще актуально $:-\$ , есть программа которой сама пользуюсь - SimWordSorter, она вытаскивает из текста частоту используемых слов, делает отчет по ним, правда она меня полностью не удовлетворяет, так как хотелось бы чтобы поиск производился по корню слова, однако, как видно, таких программ еще не придумали. Но в принципе, это решаемо посредством автосортировки отчетных данных в экселе. Есть еще программа для писателей ywriter5 - там тоже есть функция подсчета повторяемости слов

Rwseg · декабря 7, 2013, 10:38

Цитата: Morugesso от декабря 1, 2013, 12:40
так как хотелось бы чтобы поиск производился по корню слова, однако, как видно, таких программ еще не придумали.

Для этого существуют лемматизаторы.

Лингвофорум

Посоветуйте программу для подсчета количества слов в тексте

Toman

Toman

Bhudh

Toman

Bhudh

Toman

Bhudh

Toman

arseniiv

Toman

Bhudh

arseniiv

Toman

Bhudh

Bhudh

Toman

Славен

Rwseg

Morugesso

Rwseg

Быстрый ответ