unicode results from the CPAN

App-digitdemog
view release on metacpan or search on metacpan
    $M{$len}[2] = $_ if ! defined $M{$len}[2] ; 
    $M{$len}[3] = $_ ;
  }
  print join ( "\t", map {UNDERLINE $_} qw[length freq minstr maxstr] , $oL4 ? qw[first_str last_str ]:() ) , "\n" ;
  for ( sort { $a <=> $b } keys %M ) {  # æ•°å€¤ (æ–‡å—åˆ—ã®é•·ã•ã‚’è¡¨ã™)ã§ã‚½ãƒ¼ãƒˆ 
    my @str = @{ $M{$_} } ;
    my @prt = $optq0 ? @str : map { defined $_ ? qq['$_'] : undef } @str ;
    $prt[1] = DARK '<-- same' if $str[1] eq $str[0] ; 
    $prt[3] = DARK '<-- same' if $oL4 and defined $str[3] and $str[3] eq $str[2] ; #|| $str[3] eq $str[1]; 
    for my $p ($oL4? 0..3 : 0..1 )  { 
      $prt[$p] = $prt[$p] . DARK "(" . $freq{ $str[$p] } . ")" if $freq{ $str[$p] } != $Lfrq{$_} ;
    }
    print join ( "\t" , $_ , $Lfrq{$_}, @prt ) , "\n" ;
  }
}

sub d3 ($) { $_[0] =~ s/(?<=\d)(?=(\d\d\d)+($|\D))/,/gr } ; # æ•°ã‚’3æ¡åŒºåˆ‡ã‚Šã«å¤‰æ›ã™ã‚‹ã€‚

sub majority2 ( @ ) { 
  # ã„ã‚ã‚“ãªå€¤ã‚’é…åˆ—ã§å—ã‘å–ã‚Šã€é »åº¦2ä»¥ä¸Šã®ã‚‚ã®ã«ã¤ã„ã¦ã€å¤šã„é †ç•ªã«è¿”ã™ã€‚# åŒä¸€ã®å…¥åŠ›ã§ã‚‚ã€åŒã˜é »åº¦ãªã‚‰ã©ã£ã¡ãŒå„ªå…ˆã•ã‚Œã‚‹ã‹ã¯ä¸æ˜Žã€‚
  my %h ; # ãƒ’ã‚¹ãƒˆã‚°ãƒ©ãƒ 
  ++ $h { $_ } for ( @_ ) ;
  my $m = max values %h ; 
  $h{$_} == 1 and delete $h{$_} for keys %h ;  #++ $m if $m == 1;  # é »åº¦ã®æœ€å¤§å€¤ãŒ1ãªã‚‰ã€æ¬¡ã®å‡¦ç†ã§ç©ºåˆ—ã‚’è¿”ã™ã‚ˆã†ã«ã™ã‚‹ã€‚
  my %h2 ; 
  my @out ; 
  for ( keys %h ) { push @{ $h2{ $h{$_} } } , $_ } 
  for ( sort { $b <=> $a } keys %h2 ) { push @out , @{ $h2{$_} } } 
  return @out  ;#first { $h {$_} == $m } keys %h
} # ãƒªã‚¹ãƒˆã‹ã‚‰æœ€ã‚‚æˆåˆ†ã®å¤šã„ã‚‚ã®ã‚’ã•ã‚‰ã«ã²ã¨ã¤ã ã‘é¸ã¶.

sub backslash ($$) { # åˆ¶å¾¡æ–‡å—ã‚’ä¸€éƒ¨ã‚¨ã‚¹ã‚±ãƒ¼ãƒ—ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ã«å¤‰åŒ–ã•ã›ã‚‹ã€‚ arg2 ã¯ ã‚·ãƒ³ã‚°ãƒ«ã‚¯ã‚©ãƒ¼ãƒ†ãƒ¼ã‚·ãƒ§ãƒ³ã‚’ä½•ã«å¤‰åŒ–ã•ã›ã‚‹ã‹ã€‚
  do{ my $c = eval qq["$_"] ; $_[0] =~ s/$c/$_/g and $_[0] =~ s/'/$_[1]/g } for qw[\a \n \r \f \t \e] ; 
  return $_[0] ; # 
}

sub stock ($$$$) { # arg2ãŒå‚ç…§ã™ã‚‹é…åˆ—ã§ arg1 å€‹è“„ãˆã‚‹ãŒã€arg3ã®å€¤ã‚’å¾Œã‚ã«è¿½åŠ ã€‚ã•ã‚‰ã«ã€arg4ã®0/1ã«å¿œã˜ã¦ã€pop/shift(å¾Œã‚å‡ºã—/å‰å‡ºã—)ã™ã‚‹ã€‚
  my @ary = uniq @{ ${$_[1]} }, $_[2] ; 
  @{ ${$_[1]} } = splice @ary, ( $_[3] ? max 0,scalar @ary - $_[0] : 0 ) , $_[0] ;
} ;  # å„è¡Œã®ä¾‹ã‚’ã‚¹ãƒˆãƒƒã‚¯ã™ã‚‹ãŸã‚ã®é–¢æ•°

##
## æ™®é€šã®ãƒ¢ãƒ¼ãƒ‰ã®mainé–¢æ•°
##

sub main_normal ( ) { 

  my %freq ; # åŒã˜è¡ŒãŒæ¥ãŸã‹ã©ã†ã‹ã®åˆ¤å®šã«ä½¿ã†ã€‚æ•°ãŒé›†è¨ˆã•ã‚Œã‚‹ã€‚
  my %S1 ; # $S1{$v}{$pos} ã®ã‚ˆã†ã«ä½¿ã†ã€‚ å‡ºç¾å›žæ•°ã®é›†è¨ˆè¡¨ ; # ã“ã“ã® $v ã¯ æ–‡å—ã¨è¨€ã†ã‚ˆã‚Šãƒ‘ã‚¿ãƒ¼ãƒ³ã‚’ç¤ºã™ã€‚'a'ã¨ã‹ [1-3]ã¨ã‹ã€‚ã“ã“ã§ã¯ã€Œæ–‡å—ã€ã¨å‘¼ã¶ã€‚
  my %S2 ; # $S2{$v}{$pos} = "è¡Œç•ªå·+è¡Œç•ªå·+...è¡Œç•ªå·+" (Lã¨ã™ã‚‹); $vãŒå‡ºç¾ã—ãŸæ¡$posã«å¯¾å¿œã™ã‚‹è¡Œç•ªå·ã‚’è“„ãˆã‚‹ã€‚
  my %S3 ; # @ { $S3{ F } } ã«ã‚ˆã£ã¦ã€åˆ†å‰²è¡¨ã§é »åº¦ F å›žç¾ã‚ŒãŸ è¡Œç•ªå·é›†åˆã®å€¤ L (%S2ã®æŒã¤å€¤)ã‚’å‚ç…§ã§ãã‚‹ã‚ˆã†ã«ã™ã‚‹ã€‚
  my %mark ; # $mark{ L } ãŒãƒ”ãƒªã‚ªãƒ‰ã‚’ãƒ”ãƒªã‚ªãƒ‰ä»˜ã‘ã‚‹ã€‚ ( -. ã§ä½¿ã†ã€‚)
  my %Gs  ; # @{ $G { $v } { $pos } [ 0 or 1 ] } ã§ è¡Œã®å…·ä½“ä¾‹ã‚’æ ¼ç´ã€‚ ( -g ã§ä½¿ã†ã€‚)
  my $maxlen = 0 ; # æ–‡å—åˆ—ã®æœ€å¤§é•·
  my $eol = "EOL" . int rand 8 ; # å„è¡Œã®çµ‚ã‚ã‚Šã‚’ç¤ºã™ã€‚## saikoro -g10,3 ã§ã„ã‚ã„ã‚è©¦ã—ãŸã€‚

  @e = map { decode_utf8 $_ } @e unless $optu0  ;
  unshift @e , "$eol\$" ;  # æ£è¦è¡¨ç¾ãƒ‘ã‚¿ãƒ¼ãƒ³ç¾¤ã« $eol ã‚’ æœ€åˆã« è¿½åŠ ã€‚ # ã€Œè¡Œæœ«ã€ã¯é »åº¦ãŒå¤šã„ã®ã§æœ€åˆã«æŒã£ã¦ããŸã€‚
  #push @e , "$eol\$" ;  # æ£è¦è¡¨ç¾ãƒ‘ã‚¿ãƒ¼ãƒ³ç¾¤ã« $eol ã‚’ æœ€å¾Œã« è¿½åŠ ã€‚# ã“ã“ã¯ã€unshift ã§ã‚‚ push ã§ã‚‚è‰¯ã„ã€‚
  my @eqr ; # ã€Œe ã‚’qrã•ã‚ŒãŸ ã€ã«ã‚ˆã‚Šåä»˜ã‘ãŸã€‚
  my @exu ; # ã€Œeã«ãŠã„ã¦ã€ã‚¨ã‚¹ã‚±ãƒ¼ãƒ—(escape)ã—ã¦ãƒ¦ãƒ‹ã‚³ãƒ¼ãƒ‰(unicode)ã§è¡¨ã—ãŸéƒ¨åˆ†ãŒã‚ã‚‹ã€ã«ã‚ˆã‚Šåä»˜ã‘ãŸ
  for ( 0 .. $#e ) { 
    my $eout = $e[$_] =~ s/#.*$//r ; # æ£è¦è¡¨ç¾ã§ã€ã‚³ãƒ¡ãƒ³ãƒˆ#ã®éƒ¨åˆ†ã¯é™¤åŽ»ã™ã‚‹ã€‚
    my @F  = split /([[:^ascii:]])/o , $eout , 0 ; # ãƒ‘ã‚¿ãƒ¼ãƒ³ã§åˆ‡ã£ãŸæœ€å¾Œã¯ç©ºæ–‡å—åˆ—ãªã‚‰åˆ‡ã‚Šè½ã¨ã™ãŸã‚ã®0
    grep { $_ =  (sprintf '\x{%02X}', ord $_ ) if m/[[:^ascii:]]/ } @F ;
    my $p = join '' , @F ;
    $eqr [ $_ ] = qr/$p/ ; # ã‚ã‚‰ã‹ã˜ã‚æ£è¦è¡¨ç¾ã¨ã—ã¦å…ˆã«ã‚³ãƒ³ãƒ‘ã‚¤ãƒ«ã™ã‚‹ã“ã¨ã§é«˜é€ŸåŒ–ã€‚
    push @exu , $p ;
  }
  
  # split ã§å‰²ã‚‹ãŸã‚ã®ãƒ‘ã‚¿ãƒ¼ãƒ³ã®è¨å®šã€‚
  my $piecePattern = @e ? do{ my$t=join'|',@exu,'.','\n';qr/$t/o} : qr//o ; # @exuã«1æ–‡å—(.)ã¨æ”¹è¡Œæ–‡å—ã‚’è¿½åŠ ã—ãŸã€‚

  $header = <> if $o{'='} ; 
  while ( <> ) { 
    chomp if 0 eq ($o{n}//'') ; #-n0 ã§æ”¹è¡Œæ–‡å—ã‚’é™¤åŽ»ã€‚
    next if $freq{$_} ++ && $o{1} ; # && ã®å‰å¾Œã®é †åºã«æ³¨æ„
    s/\r$// unless $optw0 ;    
    $_ = decode_utf8 $_ unless $optu0 ;
     # â–½ ãƒ‘ã‚¿ãƒ¼ãƒ³ã«æ–‡å—åˆ—ã‚’åˆ†è§£ã€‚
    my @vvec = m/$piecePattern/go ; 
    push @vvec , $eol ; # å„è¡Œã‚’ãƒãƒ©ãƒãƒ©ã«ã—ãŸå¾Œã«ã€$eolã‚’æœ€å¾Œã«è¿½åŠ ã€‚
    splice @vvec , $width, if defined $width ; 
    $maxlen = @vvec if $maxlen < @vvec ; # æœ€å¤§é•·ã®ä¿ç®¡
    for my $pos ( 0 .. $#vvec ) {
      my $char = $vvec [ $pos ] ; # å®Ÿéš›ã®æ–‡å—(åˆ—)ã€‚  (ãƒ‘ã‚¿ãƒ¼ãƒ³ã«ã¯ã¾ã åˆ†é¡žã—ã¦ã„ãªã„ã€‚)
      my $v  ; # ã©ã®ãƒ‘ã‚¿ãƒ¼ãƒ³ã¾ãŸã¯æ–‡å—ã¨ã—ã¦èªè˜ã™ã‚‹ã‹ã€‚(åˆ†é¡žã•ã‚ŒãŸãƒ‘ã‚¿ãƒ¼ãƒ³ãªã®ã§ã‚ã‚‹ã€‚)
       # â–½ ã©ã®ãƒ‘ã‚¿ãƒ¼ãƒ³ã«ãƒžãƒƒãƒã—ãŸã‹ã‚’$vã«æ ¼ç´ã™ã‚‹ã€‚æ¬¡ã®2è¡Œã®ã‚³ãƒ¼ãƒ‰ã§ã€‚
      $char =~ $eqr[$_] and do { $v = $e[$_] ; last } for 0 .. $#e ; # æŒ‡å®šã—ãŸãƒ‘ã‚¿ãƒ¼ãƒ³ã®æ•°ãŒå¤šã„ã¨é…ããªã‚‹ã§ã‚ã‚ã†ã€‚é »åº¦ã®é«˜ã„ãƒ‘ã‚¿ãƒ¼ãƒ³ã‚’å…ˆã«ç½®ãã¨æ—©ããªã‚‹ã€‚
      $v //= "'$vvec[$pos]'" ; # å‰è¡Œã®å‡¦ç†ã§å½“ã¦ã¯ã¾ã‚‰ãªã„å ´åˆã€‚ã‚¯ã‚©ãƒ¼ãƒ†ãƒ¼ã‚·ãƒ§ãƒ³ã‚’ä»˜åŠ ã™ã‚‹ã‚ˆã†ã«ã—ãŸã€‚
      $S1 { $v } { $pos } ++ ; 
      $S2 { $v } { $pos } .= "$.+" if $o{'.'} ; # <-- $S2{..}ã§ã€ãã®ã€Œæ–‡å—ã€ãŒãã®æ¡ã§ç¾ã‚ŒãŸã€ã€Œè¡Œç•ªå·é›†åˆã€L ãŒçµæžœçš„ã«ç”Ÿæˆã•ã‚Œã‚‹ã€‚
      do { for my $way (0,1) { & stock ( $o{g} , \$Gs{$v}{$pos}[$way] , $_ , $way ) } } if $o{g}  ; # æ”¹è¡Œæ–‡å—ã¯ã“ã“ã§ã¯é™¤åŽ»ã›ãš
    }
  } # â† å…¥åŠ›èªã¿å–ã‚Šå‡¦ç†ã®çµ‚ã‚ã‚Š
  if ( $o{'.'} ) {  ## è¤‡é›‘ãªå‡¦ç†ã§ã‚ã‚‹â†“ # $S1{ .. }ã€€ã§ ãã®ã€Œæ–‡å—ã€ãŒã€Œå„æ¡ã€ã§ã€ä½•å›ž (bå›ž) ç¾ã‚ŒãŸã®ã‹ã€‚... # ã“ã®  ; ã€Œbå›žã€ç¾ã‚ŒãŸ L ã‚’ S3ã«ä¿ç®¡ã€‚
    for my $v ( keys %S1 ){ 
      push @{  $S3 { $S1{$v}{$_} }  }, $S2{$v}{$_} for keys %{ $S1{$v} } ; 
    } 
    for( keys %S3 ){ # å„ã€Œæ–‡å—ã€ãŒå„æ¡ã§ä½•å›žç¾ã‚ŒãŸã‹(é »åº¦) ã® æ•° ãã‚Œãžã‚Œã«å¯¾ã—ã¦
      my @pcand  = majority2 @{ $S3{$_} }  ; # è¡Œç•ªå·é›†åˆL ã‚’è€ƒãˆã¦ã€ãã†ã„ã†Lã§æœ€ã‚‚é »åº¦ã®é«˜ã„ã‚‚ã®ã‚’å–ã‚Šå‡ºã™ã€‚
      grep { $mark { $pcand [$_] } = '.' . ( '0' x $_ ) } 0 .. min $#pcand , $o{'.'} - 1 if @pcand ; 
    }  
  }
  # å‡ºåŠ›

  my $ex = "example${sep}..${sep}example" ; # å…·ä½“ä¾‹ã‚’è¡¨ã™åˆ—ã®è¡¨é ã‚’ã©ã†ã™ã‚‹ã‹?
  say join "\t" , map { UNDERLINE YELLOW $_ } (0+$o{o}) .. ($maxlen+$o{o}-1) , 'char' , 'code' , 'freq' , $o{g} ? $ex :() ; # è¡Œé ã®å‡ºåŠ›
  my %vcate ; $vcate{$_} = 2 for @e ; # omit ã™ã‚‹
  my @vset ; # è¡¨ç¤ºã™ã‚‹å€¤ã®é…åˆ—ã€‚é †ç•ªã¯ã€ (1). å¼•æ•°ã«æ¸¡ã•ã‚ŒãŸæ£è¦è¡¨ç¾ã„ãã¤ã‹ (2). éžcntrlæ–‡å— (3). cntrlæ–‡å—(4). å„è¡Œã®çµ‚ã‚ã‚Š
  push @vset , @e[ 1 .. $#e ] ; # (1).
  push @vset , sort {length $a <=> length $b or $a cmp $b } grep { ! $vcate { $_ } and ! /[[:cntrl:]]/ } keys %S1 ; # (2)
  push @vset , sort {length $a <=> length $b or $a cmp $b } grep { ! $vcate { $_ } and /[[:cntrl:]]/ } keys %S1 ; #(3)
  push @vset , $e[ 0 ] ;
  my $take = sub ($$) { splice @{$_[1]} , 0, $_[0] } ; # é…åˆ—å‚ç…§arg2ã‹ã‚‰ãã®é…åˆ—ã®å…ˆé arg1å€‹å–ã£ã¦ãã‚‹ã€‚
  my $take2 = sub ($$$) { uniq $take->($_[0],$_[1]) , $take->($_[0],$_[2]) } ;# é…åˆ—å‚ç…§2å€‹(arg2,arg3)ã‹ã‚‰ã€ãã‚Œãžã‚Œarg1å€‹å–ã£ã¦ã€uniq ã™ã‚‹ã€‚
  my $ucd = sub ($){ ( sprintf 'U+%06X', ord $_[0] ) =~ s/(00)+((..)+$)/$2/r } ; # Unicode ã®ç¬¦å·ä½ç½®ã‚’è¿”ã™ã€‚2æ¡ä»¥ä¸Šã®å¶æ•°æ¡ã«ãªã‚‹ã‚ˆã†ã«ã€‚
  for my $v ( @vset ){ # <-- ã‚½ãƒ¼ãƒˆé †ã«ã¯æ³¨æ„ã—ãŸã„
    my @out = map { $S1{$v}{$_} // 0 } 0 .. ( $maxlen - 1 ) ; 
    my @pvec = grep { $out[$_] } $o{g}=~/\.$/o ? reverse 0..$#out : 0..$#out ;  # ä½•æ¡ç›®ã‚’è¦‹ã‚‹ã‹ã€ãã—ã¦ã€å„ªå…ˆçš„ã«ã©ã“ã‹ã‚‰è¦‹ã‚‹ã‹ã€‚
    my @pv = map { [ grep { $out[$_] } @{$_} ] } [0..$#out] , [reverse 0..$#out] ;  # ä½•æ¡ç›®ã‚’è¦‹ã‚‹ã‹ã€ãã—ã¦ã€å„ªå…ˆçš„ã«ã©ã“ã‹ã‚‰è¦‹ã‚‹ã‹ã€‚
( run in 1.002 second using v1.01-cache-2.11-cpan-56fb94df46f )