Encode-Guess-Educated
view release on metacpan or search on metacpan
t/data/unenglish/nunez.utf8 view on Meta::CPAN
printf qq(%*s %s tiene %*s en %17s %s\n),
$cmáx => !$déjà _imprimée++ && encomillar($aldea),
sÃ_ó_no(@resultados),
$bmáx => "/$búsqueda/",
cuántos_sitios(@resultados),
enfilar(@resultados);
}
}
sub cuántos_sitios {
my @lista = @_;
my $cantidad = @_;
given ($cantidad) {
when (0) { return "ningún sitio" }
when (1) { return "un solo sitio" }
when (2) { return "un par de sitios" }
default { return "$cantidad sitios" }
}
}
sub enfilar {
my @lista = map { encomillar } @_;
my $separador = "\N{COMMA}";
$separador = "\N{SEMICOLON}" if first { /$separador/ } @lista;
$separador .= "\N{SPACE}";
given (scalar @lista) {
when (0) { return "" }
when (1) { return "@lista" }
when (2) { return join " y " => @lista }
default { return
join($separador => @lista[ 0 .. ($#lista-1) ])
. " y $lista[$#lista]";
}
}
}
###################################################
# Para ordenar los elementos de la lista
# en el estilo tradicional del castellano.
#
# Tenemos en cuenta que sà pueden aparecerse nombres
# de ciudades que no son nombres sólo castellanos
# sino tambÃen catalanes y gallegos â y tal vez más,
# como en asturianu o aranés, pero no he pensado
# mucho es estos.
###################################################
sub ordenar_a_la_española {
my @lista = @_;
state $ordenador_a_la_española = new Unicode::Collate::
# Si se tuviese Unicode::Collate::Locale con "es__traditional",
# no harÃa falta este primer lÃo con su entrada especial,
# con la excepción de la c-cedilla, la cual aquà se ordena
# como si fuese catalán, no castellano.
# Vamos a meter las nuevas entradas después de éstas,
# que son copiadas del DUCET v6.0.0. Tuve que cambiar unos
# valores que tenÃa este código desde otra versión anterior
# por no haber puesto la versión del ACU con que funciona.
#
# 0043 ; [.123D.0020.0008.0043] # LATIN CAPITAL LETTER C
# 00C7 ; [.123D.0020.0008.0043][.0000.0056.0002.0327] # LATIN CAPITAL LETTER C WITH CEDILLA; QQCM
# 004C ; [.1330.0020.0008.004C] # LATIN CAPITAL LETTER L
# 004E ; [.136D.0020.0008.004E] # LATIN CAPITAL LETTER N
# 00D1 ; [.136D.0020.0008.004E][.0000.004E.0002.0303] # LATIN CAPITAL LETTER N WITH TILDE; QQCM
#
# De ahà que nombro la versión del ACU aquÃ,
# para no equivocarme en ello de nuevo.
UCA_Version => 16, # DUCET 5.0.0 or better
entry => <<'SALIDA', # :)
00E7 ; [.123E.0020.0002.0327] # c-cedilla
0063 0327 ; [.123E.0020.0002.0327] # c-cedilla
00C7 ; [.123E.0020.0002.0327] # C-cedilla
0043 0327 ; [.123E.0020.0002.0327] # C-cedilla
0063 0068 ; [.123F.0020.0002.0043] # ch
0043 0068 ; [.123F.0020.0007.0043] # Ch
0043 0048 ; [.123F.0020.0008.0043] # CH
006C 006C ; [.1331.0020.0002.004C] # ll
004C 006C ; [.1331.0020.0007.004C] # Ll
004C 004C ; [.1331.0020.0008.004C] # LL
00F1 ; [.136E.0020.0002.0303] # n-tilde
006E 0303 ; [.136E.0020.0002.0303] # n-tilde
00D1 ; [.136E.0020.0008.0303] # N-tilde
004E 0303 ; [.136E.0020.0008.0303] # N-tilde
SALIDA
upper_before_lower => 1,
normalization => "NFKD", # ¿Y porqué no?
preprocess => sub {
my $_ = shift;
###
# no incluye los artÃculos definitivos ni indefinitivos
###
s/^L\p{QMARK}//; # puede encontrarse en el catalán
s{ ^
(?: # del castellano
El
| Los
| La
| Las
# del catalán
| Els
| Les
| Sa
| Es
# del gallego
| O
| Os
| A
| As
)
\h
}{}x;
# Luego quita las palabras no-importantes interiores.
( run in 1.775 second using v1.01-cache-2.11-cpan-39bf76dae61 )