split m results from the CPAN

split m
Lingua-RU-Detect
view release on metacpan or search on metacpan
lib/Lingua/RU/Detect.pm view on Meta::CPAN
	'UTF-7.CP866',							'(?:^|\s)\+JWg[a-zA-Z]+',
	'UTF-8.ISO-8859-1,UTF-7.ISO-8859-1',	'(?:^|\s)\+AN[a-zA-Z]+',

	'UTF-8.CP1251,KOI8-R.CP866',			'Ñ”.Â¶|Â¶.Â¶',
	'UTF-8.CP1252,KOI8-R.CP866',			'Âº.Âº|Â¶.Âº',
	'UTF-8.CP1251,UTF-8.CP866',				'Ð²â€¢Ð|â€¢â€ºÐ²â€¢',
	'UTF-8.KOI8-R,UTF-8.CP866',				'Ð‘âˆ™â•—|Ð‘âˆ™.Ð‘âˆ™.',
	'UTF-8.ISO-8859-1',						'ÃÂº|ÃÂ¿Ã',
	'UTF-8.CP1251,UTF-8.ISO-8859-1',		'Ð“Ñ’Ð’|Â°Ð“â€˜',
	'UTF-8.KOI8-R,UTF-8.ISO-8859-1',		'Ñ†â–‘Ð±',
	'UTF-8.CP1251,UTF-8.UTF-16',			'Ð½â€š.Ð½â€š|Ð½â€ .Ð½â€ ',
	'UTF-8.KOI8-R,UTF-8.UTF-16',			'â•¬Ðœ|â•ªÐœ|â•£Ðœ|â•«Ðœ',
	'UTF-8.CP1251,CP866.UTF-8',				'Â®.+Ò|Â«Ð|Â®Â¤ÂÂ®|Â«Ò',
	'UTF-8.CP1251,UTF-8.KOI8-R',			'Ð Ñ—Ð²|Ð¡Ð',

	'UTF-8.ISO-8859-1,ISO-8859-5.UTF-8',	'[Ã½Ã«Ã¥ÃªÃ²Ã°Ã¨Ã´Ã¨ÃªÃ Ã¶Ã¨Ã¿Ã£Ã³Ã¡Ã¥Ã°ÃÃ¨Ã©]+[ÃÃ‹Ã…ÃŠÃ’ÃÃˆÃ”ÃˆÃŠÃ€Ã–ÃˆÅ¸ÃƒÃ“ÃÃ…ÃÃÃˆÃ‰]+[Ã½Ã«Ã¥ÃªÃ²Ã°Ã¨Ã´Ã¨ÃªÃ Ã¶Ã¨Ã¿Ã£Ã³Ã¡Ã¥Ã°ÃÃ¨Ã©]+|[ÃÃ‹Ã…ÃŠÃ’ÃÃˆÃ”ÃˆÃŠÃ€Ã–ÃˆÅ¸ÃƒÃ“ÃÃ…ÃÃÃˆÃ‰]+[Ã½Ã«Ã¥ÃªÃ²Ã°Ã¨Ã´Ã¨ÃªÃ...
	'UTF-8.CP1252,CP1251.UTF-8',			'[Ã½Ã«Ã¥ÃªÃ²Ã°Ã¨Ã´Ã¨ÃªÃ Ã¶Ã¨Ã¿Ã£Ã³Ã¡Ã¥Ã°ÃÃ¨Ã©]{3,}',
	'UTF-8.CP1252,KOI8-R.UTF-8',			'[Ã€ÃÃŽÃ‹ÃœÃ‡ÃŽÃ‚Ã€ÃÃˆÃ…Ã‘]{2,}',

	'UTF-8.CP866,KOI8-R.UTF-8',				'[â•Ÿâ•§â•«â•£â•‘â•”â•™â•â•”â•¥â•§â•¦â”´â•¤â• â”¼â•¦â•˜â•¥â•”â•žâ•”â•¦â”´â”œâ•”â•¤â””â•“â•¬â”˜â•š â•Ÿâ•’â”¬â”¼â•¥â•¬â•”â•©]{4,}',
	'UTF-8.KOI8-R,CP866.UTF-8',				'[â•Ÿâ•§â•«â•£â•‘â•”â•™â•â•”â•¥â•§â•¦â”´â•¤â• â”¼â•¦â•˜â•¥â•”â•žâ•”â•¦â”´â”œâ•”â•¤â””â•“â•¬â”˜â•š â•Ÿâ•’â”¬â”¼â•¥â•¬â•”â•©]+[Ð-Ð¯]+[â•Ÿâ•§â•«â•£â•‘â•”â•™â•â•”â•¥â•§â•¦â”´â•¤â• â”¼â•¦â•˜â•¥â•”â•žâ•”â•¦â”´â”œâ•”â•¤â””...
	'UTF-8.CP866,ISO-8859-5.UTF-8',			'[Ð°-Ð¾Ñ€-Ñ]+[â•Ÿâ•§â•«â•£â•‘â•”â•™â•â•”â•¥â•§â•¦â”´â•¤â• â”¼â•¦â•˜â•¥â•”â•žâ•”â•¦â”´â”œâ•”â•¤â””â•“â•¬â”˜â•š â•Ÿâ•’â”¬â”¼â•¥â•¬â•”â•©]+[Ð°-Ð¾Ñ€-Ñ]+[â•Ÿâ•§â•«â•£â•‘â•”â•™â•â•”â•¥â•§â•¦â”´â•¤â• â”¼â•¦â•˜â•¥â•”â•ž...
	'UTF-8.KOI8-R',							'[Ð¿Ñ][â•Ÿâ•§â•«â•£â•‘â•”â•™â•â•”â•¥â•§â•¦â”´â•¤â• â”¼â•¦â•˜â•¥â•”â•žâ•”â•¦â”´â”œâ•”â•¤â””â•“â•¬â”˜â•š â•Ÿâ•’â”¬â”¼â•¥â•¬â•”â•©][Ð¿Ñ]|Ð¿.Ñ',
	'UTF-8.CP866',							'[â–’â–“â•Ÿâ•§â•«â•£â•‘â•”â•™â•â•”â•¥â•§â•¦â”´â•¤â• â”¼â•¦â•˜â•¥â•”â•žâ•”â•¦â”´â”œâ•”â•¤â””â•“â•¬â”˜â•š â•Ÿâ•’â”¬â”¼â•¥â•¬â•”â•©]+[Ð-Ð¯][â–’â–“â•Ÿâ•§â•«â•£â•‘â•”â•™â•â•”â•¥â•§â•¦â”´â•¤â• â”¼â•¦â•˜â•¥â•”â•žâ•”â•¦â”´â”œâ•”â•¤â”...
);

my %ambiguities = (
	'-'		=> 'Ð½Ð°|ÑÑ‚|Ð½Ð¸|Ð½Ð¾|Ð°Ð½|Ð¾Ð²|ÐºÐ¾|Ñ‚Ð¾|ÐµÐ½|Ð»Ðµ|ÐµÐ»|Ñ€Ð°|Ñ€Ðµ|Ð¸Ñ|Ð¿Ð¾|Ð¾Ð¼|Ñ€Ð¾|ÐµÑ‚|Ð²Ð°|Ñ‚Ð°|Ð¾Ñ|Ñ‚Ðµ|Ð´Ðµ|Ð»ÑŒ|ÐµÑ€|Ð¾Ð½|Ñ‚ÑŒ|Ð·Ð°|ÑÐº|Ð¾Ñ‚|Ð»Ð¸|Ð°Ñ‚|Ð¾Ð»|Ð¾Ð±|Ð°Ñ€|Ð¾Ð´|Ð¸Ðµ|Ð³Ð¾|Ð¿Ñ€|Ñ€Ð¸|Ð¼Ð¾|Ð°Ð¼|ÑÐ»|Ñ‚Ñ€|Ð½Ðµ|Ð¾Ñ€|Ð»Ð°|Ð°Ð»|...
	'UTF-8.KOI8-R,CP1251.KOI8-R,CP1251.UTF-8'		=> 'Ð»Ñ‡|ÑŠÐ¿|Ð»Ñƒ|Ð»Ð¼|Ñ‡Ð»|Ð¼Ð°|Ð¸Ð¼|Ð¿Ð¼|ÐµÐ»|Ð¹Ðµ|ÐµÐ¹|Ð¾Ñ‡|Ð¾Ðµ|ÑƒÑŠ|Ð½Ð¼|Ð¼Ðº|Ð¾Ð¼|ÐµÐ¿|Ð°Ñ‡|Ð¿Ñ‡|Ð¼ÑŠ|Ð¿Ðµ|Ð´Ðµ|Ð¹Ñ‰|ÐµÐ¾|Ð¼Ð»|Ð¿Ñ‰|Ñ†Ñ‡|ÑŠÐ¸|Ð¼Ð¿|Ð¹Ñƒ|Ñ‡Ð¿|Ð¼Ð¹|Ð¼ÑŽ|Ñ‡Ð¾|Ð¼Ð´|ÑƒÐµ|Ð¶Ð¼|Ð½Ð¾|Ð¾Ñƒ|Ðº...
	
	'UTF-8.CP1251,KOI8-R.UTF-8'		=> 'ÐžÐ‘|Ð£Ð¤|ÐžÐ™|ÐžÐŸ|Ð‘Ðž|ÐŸÐ§|Ð›ÐŸ|Ð¤ÐŸ|Ð•Ðž|ÐœÐ•|Ð•Ðœ|Ð¢Ð‘|Ð¢Ð•|Ð™Ð£|Ð ÐŸ|ÐŸÐ|Ð¢ÐŸ|Ð•Ð¤|Ð§Ð‘|Ð¤Ð‘|ÐŸÐ£|Ð¤Ð•|Ð”Ð•|ÐœÐ¨|Ð•Ð¢|ÐŸÐž|Ð¤Ð¨|ÐªÐ‘|Ð£Ð›|ÐŸÐ¤|ÐœÐ™|Ð‘Ð¤|ÐŸÐœ|ÐŸÐ’|Ð‘Ð¢|ÐŸÐ”|Ð™Ð•|Ð—ÐŸ|Ð Ð¢|Ð¢Ð™|ÐÐŸ|Ð‘Ð|Ð£Ðœ|Ð...
	'UTF-8.KOI8-R,CP1251.UTF-8'		=> 'ÐœÐ®|Ð¯Ð |ÐœÐ¥|ÐœÐ|Ð®Ðœ|ÐÐ‘|Ð™Ð|Ð Ð|Ð•Ðœ|ÐšÐ•|Ð•Ðš|ÐŸÐ®|ÐŸÐ•|Ð¥Ð¯|ÐžÐ|ÐÐ›|ÐŸÐ|Ð•Ð |Ð‘Ð®|Ð Ð®|ÐÐ¯|Ð Ð•|Ð”Ð•|ÐšÐ|Ð•ÐŸ|ÐÐœ|Ð Ð|Ð“Ð®|Ð¯Ð™|ÐÐ |ÐšÐ¥|Ð®Ð |ÐÐš|ÐÐ|Ð®ÐŸ|ÐÐ”|Ð¥Ð•|Ð¦Ð|ÐžÐŸ|ÐŸÐ¥|Ð›Ð|Ð®Ð›|Ð¯Ðš|Ð...
	
	'UTF-8.ISO-8859-5,KOI8-R.UTF-8' => 'Ð®Ð¡|Ð³Ð´|Ð®Ð©|Ð®Ð¯|Ð¡Ð®|Ð¯Ð·|Ð«Ð¯|Ð´Ð¯|Ð¥Ð®|Ð¬Ð¥|Ð¥Ð¬|Ð²Ð¡|Ð²Ð¥|Ð©Ð³|Ð°Ð¯|Ð¯Ð|Ð²Ð¯|Ð¥Ð´|Ð·Ð¡|Ð´Ð¡|Ð¯Ð³|Ð´Ð¥|Ð¤Ð¥|Ð¬Ð¸|Ð¥Ð²|Ð¯Ð®|Ð´Ð¸|ÐºÐ¡|Ð³Ð«|Ð¯Ð´|Ð¬Ð©|Ð¡Ð´|Ð¯Ð¬|Ð¯Ð¢|Ð¡Ð²|Ð¯Ð¤|Ð©Ð¥|Ð§Ð¯|Ð°Ð²|Ð²Ð©|ÐÐ¯|Ð¡Ð|Ð³Ð...
	'UTF-8.KOI8-R,ISO-8859-5.UTF-8' => 'Ñ‰Ð¿|ÐÐ‘|Ñ‰ÑŒ|Ñ‰Ñ‡|Ð¿Ñ‰|Ñ‡Ñ€|Ð·Ñ‡|Ð‘Ñ‡|ÑƒÑ‰|ÑˆÑƒ|ÑƒÑˆ|Ð®Ð¿|Ð®Ñƒ|ÑŒÐ|ÑŠÑ‡|Ñ‡Ñ|Ð®Ñ‡|ÑƒÐ‘|Ñ€Ð¿|Ð‘Ð¿|Ñ‡Ð|Ð‘Ñƒ|Ñ‚Ñƒ|ÑˆÐ›|ÑƒÐ®|Ñ‡Ñ‰|Ð‘Ð›|Ð²Ð¿|ÐÐ·|Ñ‡Ð‘|ÑˆÑŒ|Ð¿Ð‘|Ñ‡Ñˆ|Ñ‡Ñ|Ð¿Ð®|Ñ‡Ñ‚|ÑŒÑƒ|ÑÑ‡|ÑŠÐ®|Ð®ÑŒ|ÑÑ‡|Ð¿Ñ|ÐÑ...
	'UTF-8.CP1251,ISO-8859-5.UTF-8' => 'ÐÐ |Ð±Ð²|ÐÐ¨|ÐÐ®|Ð Ð|Ð®Ð¢|ÐªÐ®|Ð²Ð®|Ð¥Ð|Ð«Ð¥|Ð¥Ð«|Ð°Ð |Ð°Ð¥|Ð¨Ð±|Ð¯Ð®|Ð®Ð¬|Ð°Ð®|Ð¥Ð²|Ð¢Ð |Ð²Ð |Ð®Ð±|Ð²Ð¥|Ð¤Ð¥|Ð«Ð¼|Ð¥Ð°|Ð®Ð|Ð²Ð¼|Ð§Ð |Ð±Ðª|Ð®Ð²|Ð«Ð¨|Ð Ð²|Ð®Ð«|Ð®Ð¡|Ð Ð°|Ð®Ð¤|Ð¨Ð¥|Ð£Ð®|Ð¯Ð°|Ð°Ð¨|Ð¬Ð®|Ð Ð¬|Ð±Ð...

	'UTF-8.ISO-8859-5,CP1251.UTF-8' => 'ÑÑ€|Ñ‘Ñ’|ÑÑˆ|ÑÑŽ|Ñ€Ñ|ÑŽÑ‚|ÑŠÑŽ|Ñ’ÑŽ|Ñ…Ñ|Ñ‹Ñ…|Ñ…Ñ‹|â„–Ñ€|â„–Ñ…|ÑˆÑ‘|ÑÑŽ|ÑŽÑŒ|â„–ÑŽ|Ñ…Ñ’|Ñ‚Ñ€|Ñ’Ñ€|ÑŽÑ‘|Ñ’Ñ…|Ñ„Ñ…|Ñ‹Ñœ|Ñ…â„–|ÑŽÑ|Ñ’Ñœ|Ñ‡Ñ€|Ñ‘ÑŠ|ÑŽÑ’|Ñ‹Ñˆ|Ñ€Ñ’|ÑŽÑ‹|ÑŽÑ|Ñ€â„–|ÑŽÑ„|ÑˆÑ…|ÑƒÑŽ|Ñâ„–|â„–Ñˆ|ÑŒÑŽ|Ñ...
	'UTF-8.CP866,CP1251.UTF-8'		=> 'ÑÑ€|Ñ‘Ð„|ÑÑˆ|ÑÑŽ|Ñ€Ñ|ÑŽÑ‚|ÑŠÑŽ|Ð„ÑŽ|Ñ…Ñ|Ñ‹Ñ…|Ñ…Ñ‹|ÐÑ€|ÐÑ…|ÑˆÑ‘|ÑÑŽ|ÑŽÑŒ|ÐÑŽ|Ñ…Ð„|Ñ‚Ñ€|Ð„Ñ€|ÑŽÑ‘|Ð„Ñ…|Ñ„Ñ…|Ñ‹â„–|Ñ…Ð|ÑŽÑ|Ð„â„–|Ñ‡Ñ€|Ñ‘ÑŠ|ÑŽÐ„|Ñ‹Ñˆ|Ñ€Ð„|ÑŽÑ‹|ÑŽÑ|Ñ€Ð|ÑŽÑ„|ÑˆÑ…|ÑƒÑŽ|ÑÐ|ÐÑˆ|ÑŒÑŽ|Ñ€ÑŒ|Ñ‘Ñ‹|...
);

sub detect_enc {
	my $string = shift;

	my %variants = ();
	for my $path (sort keys %patterns) {
		$variants{$path} = () = $string =~ /$patterns{$path}/g;
	}

	my $path = scalar keys %variants ? (sort {$variants{$a} <=> $variants{$b}} keys %variants)[-1] : '';

	$path = remove_ambiguity($path, $string) if $path =~ m{\|};
	
	return make_list($path);
}

sub remove_ambiguity {
	my $paths = shift;
	my $text = shift;

	my @paths = split m{\|}, $paths;
	my %stats = ();
	for my $path (@paths) {
		$stats{$path} = () = $text =~ /$ambiguities{$path}/g;
	}

	return scalar keys %stats ? (sort {$stats{$a} <=> $stats{$b}} keys %stats)[-1] : $paths[0];
}

sub make_list {
	my $path = shift;

	my @ret;

	for my $pair (split /,/, $path) {
		my ($from, $to) = split /\./, $pair;
		push @ret, [$from, $to] unless $from eq '-';
	}

	return @ret;
}

1;

__END__

=encoding utf-8

=head1 NAME

Lingua::RU::Detect - Heuristics for guessing encoding sequence

=head1 SYNOPSIS

	use Lingua::RU::Detect "detect_enc";
	say Dumper(detect_enc("Ð±ÐÐžÐŸÐÐ¯")); 
	say Dumper(detect_enc("Ð±ÐžÐ”Ð¢Ð•Ðš"));


=head1 ABSTRACT

Lingua::RU::Detect make a guess of how the original text was reconverted with a sequence of different encodings.

=head1 DESCRIPTION

This module is a heart of http://decodr.ru/ website which provides a tool for automatic recovering Russian texts which were damaged by multiple transcodings. Two and three item chains are now available to detect, and the speed is much higher than tha...

The result of calling C<detect_enc> subroutine is a list of encoding pairs. To get original UTF-8 string you need to make all these transcodings in the order specified in the array returned. For example:

	$VAR1 = [
		[
			'UTF-8',
			'ISO-8859-5'
		],
		[
			'KOI8-R',
			'UTF-8'
		]
	];

If no reencoding is needed, result is an empty array.
( run in 1.250 second using v1.01-cache-2.11-cpan-71847e10f99 )