unicode results from the CPAN

unicode
Bin-Data-1D
view release on metacpan or search on metacpan
#!/usr/bin/perl
use 5.014 ; use strict ; use warnings ;  # the functions requires 5.10 for "state", 5.14 for srand. 
use Getopt::Std ; getopts '12$:=p:q:u:LS', \my%o ;  
use Math::Trig qw/pi/ ; # 5.4ã‹ã‚‰
use Scalar::Util qw/looks_like_number/ ; # 5.7.3ã‹ã‚‰
use Term::ANSIColor qw/:constants color/ ;  $Term::ANSIColor::AUTORESET = 1 ;
use Time::HiRes qw/sleep usleep gettimeofday tv_interval/ ; # 5.7.3ã‹ã‚‰
use Encode ;

#$SIG{INT} = sub { & info ; exit 130 } ;
my $time0 = [ gettimeofday ] ;
my ${binFlag} = 1 if defined $o{u} && $o{u} eq '0' ;

$o{'$'} //= 'end' ;  # æ–‡å—ã®çµ‚ç«¯ã‚’è¡¨ã™è¨˜å·
$o{p} //= '' ;  # æ–‡å—ã‚’åˆ‡ã‚Šåˆ†ã‘ã‚‹ãƒ‘ã‚¿ãƒ¼ãƒ³ã€‚æ£è¦è¡¨ç¾
binmode STDOUT, 'utf8' unless $binFlag ;

sub main () ; 
* main = $o{L} ? * bylen : $o{S} ? * blanks : * normal ; # <-- mainã®å®šç¾©ã¯ã“ã“ã§ã‚ã‚‹ã€‚
& main ; 
exit 0 ;

# ã©ã‚“ãªç¨®é¡žã®ç©ºç™½ã‹ã‚’æ•°ãˆã‚‹ãƒ¢ãƒ¼ãƒ‰:
sub blanks ( ) { 
  my $header = <> if $o{'='} ; 
  my %seen ; # åŒã˜è¡ŒãŒæ¥ãŸã‹ã©ã†ã‹ã®åˆ¤å®šã«ä½¿ã†ã€‚æ•°ãŒé›†è¨ˆã•ã‚Œã‚‹ã€‚
  my %counts ;

  while ( <> ) { 
    next if $o{1} && $seen{$_} ++ ; 
    chomp ; 
    $_ = decode_utf8 $_ unless $binFlag ; 
    my @blanks = m/[[:blank:]]/g ; # <-- -  perldoc  perlrecharclassã€€perlunicode ã‚’å‚ç…§ã™ã‚‹ã®ãŒè‰¯ã„ã‹ã‚‚ Unicodeæ–‡å—ãƒ—ãƒãƒ‘ãƒ†ã‚£
    #print "XX" if @blanks ;
    $counts { $_ } ++ for @blanks ; 
  }

  for ( sort keys %counts ) { 
    print  sprintf "U+%X %s:\t%d\n", ord ($_) , $_ , $counts { $_ } ; 
  }
}

# é•·ã•æ¯Žã«æ•°ãˆã‚‹ãƒ¢ãƒ¼ãƒ‰:
sub bylen ( ) { 
	my $header = <> if $o{'='} ; 
	my %seen ; # åŒã˜è¡ŒãŒæ¥ãŸã‹ã©ã†ã‹ã®åˆ¤å®šã«ä½¿ã†ã€‚æ•°ãŒé›†è¨ˆã•ã‚Œã‚‹ã€‚
	my %M ; # æ–‡å—åˆ—é•·ã•ã”ã¨ã®æ–‡å—åˆ—æœ€å°å€¤ã¨æ–‡å—åˆ—æœ€å¤§å€¤ã‚’æ ¼ç´ã™ã‚‹ã€‚
	my %frq ; # æ–‡å—åˆ—é•·ã”ã¨ã®é »åº¦
	while ( <> ) {
		next if $o{1} && $seen{$_} ++ ;
		chomp ;
		$_ = decode_utf8 $_ unless $binFlag ;
		my $len = length $_ ; 
		$frq{$len} ++ ;
		$M{$len}[0] = $_ if ! defined $M{$len}[0] || $M{$len}[0] gt $_ ; 
		$M{$len}[1] = $_ if ! defined $M{$len}[1] || $M{$len}[1] lt $_ ; 		
		$M{$len}[2] = $_ if ! $o{2} && ! defined $M{$len}[2] ; 
		$M{$len}[3] = $_ if ! $o{2} ; 

	}

	print join ( "\t", map {UNDERLINE $_} qw[length freq min_str max_str] , ! $o{2} ? qw[first_str last_str ]:() ) , "\n" ;
	for ( sort { $a <=> $b } keys %M ) {  # æ•°å€¤ (æ–‡å—åˆ—ã®é•·ã•ã‚’è¡¨ã™)ã§ã‚½ãƒ¼ãƒˆ 
    my @t = @{ $M{$_} } ;
    grep { defined $_ and $_ = qq['$_'] } @t unless defined $o{q} && $o{q} eq '0' ;
    $t[1] = '' if $t[1] eq $t[0] ; 
    $t[2] = '' if defined $t[2] and $t[2] eq $t[0] || $t[2] eq $t[1]; 
    $t[3] = '' if defined $t[3] and $t[3] eq $t[0] || $t[3] eq $t[1]; 
		print join ( "\t" , $_ , $frq{$_}, @t ) , "\n" ;
	}
}

# æ™®é€šã®ãƒ¢ãƒ¼ãƒ‰:
sub normal ( ) {
	my %S ; # $S{$char}[$pos] ã®ã‚ˆã†ã«ä½¿ã†ã€‚ å‡ºç¾å›žæ•°ã®é›†è¨ˆè¡¨
	my $maxlen = 0 ; # æ–‡å—åˆ—ã®æœ€å¤§é•·
	my $header = <> if $o{'='} ; 
	my %seen ; # åŒã˜è¡ŒãŒæ¥ãŸã‹ã©ã†ã‹ã®åˆ¤å®šã«ä½¿ã†ã€‚æ•°ãŒé›†è¨ˆã•ã‚Œã‚‹ã€‚

	while ( <> ) { 
		next if $o{1} && $seen{$_} ++ ;
		chomp ;
		$_ = decode_utf8 $_ unless $binFlag ;
		my @c = split /$o{p}/, $_ , 0 ; # <-- - åŒºåˆ‡ã‚‹
		$S{ qq['$c[$_]'] }[ $_ ] ++ for 0 .. $#c ; # <-- ã‚¯ã‚©ãƒ¼ãƒ†ãƒ¼ã‚·ãƒ§ãƒ³ã‚’ä»˜åŠ ã™ã‚‹ã‚ˆã†ã«ã—ãŸã€‚    
		$S{ $o{'$'} } [ @c ] ++ ; # æ–‡å—åˆ—çµ‚ç«¯è¨˜å·ã®è¶³ã—åˆã‚ã›
		$maxlen = @c if $maxlen < @c ; # æœ€å¤§é•·ã®ä¿ç®¡
	}

	# å‡ºåŠ›
	print join ("\t" , map {UNDERLINE GREEN $_} '' , 1 .. $maxlen + 1 ) , "\n" ;
	for ( sort {$a eq $o{'$'} ? 1 : ( length ($a) <=> length($b) || $a cmp $b ) } keys %S ){ # <-- ã‚½ãƒ¼ãƒˆé †ã«ã¯æ³¨æ„ã—ãŸã„
		my @tmp = map { $_ // 0 } @{ $S{$_} } [ 0 .. $maxlen ] ;
( run in 1.079 second using v1.01-cache-2.11-cpan-c966e8aa7e8 )