binmode results from the CPAN

binmode
App-Bin4TSV
view release on metacpan or search on metacpan
#!/usr/bin/perl

#  colsummary : TSVã¾ãŸã¯CSVãƒ•ã‚¡ã‚¤ãƒ«ã®å„åˆ—ã®å€¤ã®æ§˜åã‚’è¡¨ç¤ºã™ã‚‹ã€‚ã¨ã¦ã‚‚ä¾¿åˆ©ã€‚
#   2015/05/11 - 2016/07/05 , 2018-03-28 . Shimono Toshiyuki 
#   2019/10/24 ã•ã‚‰ã«å¤§å¹…ã«æ›¸ãæ›¿ãˆ

use 5.014 ; use warnings ; # also confirmed on 5.011 5.014 5.018  
use strict ; 
use Time::HiRes qw [ gettimeofday tv_interval ] ; my ${ dt_start } = [ gettimeofday ] ; 
my $time0 = time ; 
use autodie qw [ open ] ; 
use Getopt::Std ; getopts 'g:i:jl:m:suwz=!@:#:0:2:' => \my %o ;
use List::Util qw/max min maxstr minstr/ ; 
use POSIX qw/strtod/;
use Scalar::Util qw/looks_like_number/;
use Term::ANSIColor qw/:constants color/ ; $Term::ANSIColor::AUTORESET = 1 ; 
use Encode qw[ decode_utf8 encode_utf8 ] ; 
use FindBin qw [ $Script ] ; 
my $sdt = sprintf '%04d-%02d-%02d %02d:%02d:%02d', do{my @t= @{[localtime]}[5,4,3,2,1,0]; $t[0]+=1900; $t[1]++; @t } ; 
eval "use PerlIO::gzip;1" or die "PerlIO::gzip cannot be loaded, so -z does not work. ($Script, $sdt)\n" if $o{z} ; 

sub AlignOut ( @ ) ; # å‡ºåŠ› ; eachFileã§ã‚‚Colstatã§ã‚‚ä½¿ã†ã€‚
sub ColStat ( $$ ) ; # $colvals->[åˆ—ç•ª] ã¨ åˆ—åã‚’ æ¸¡ã™ã€‚ãã—ã¦ã€ãã®ä¸èº«ãŒè¡¨ç¤ºã•ã‚Œã‚‹ã€‚; eachFileã§ã‚‚Colstatã§ã‚‚ä½¿ã†ã€‚
sub d3 ($) { $_[0] =~ s/(?<=\d)(?=(\d\d\d)+($|\D))/,/gr } ; # æ•°ã‚’3æ¡åŒºåˆ‡ã‚Šã«å¤‰æ›ã™ã‚‹ã€‚
#sub hhmmss () { sprintf '%02d:%02d:%02d' , @{[localtime]}[2,1,0] } ; # ç¾åœ¨æ™‚åˆ»ã‚’ hh:mm:ss ã®å½¢å¼ã§å–ã‚Šå‡ºã™ã€‚

$/ = "\r\n" if $o{w} ; # -ræŒ‡å®šã§ æ”¹è¡Œæ–‡å—ã‚’Windowså½¢å¼ã«å¤‰æ›´ã€‚
my $L = ',' ; # å‡ºåŠ›ã«ã‚ˆãç¾ã‚Œã‚‹åŒºåˆ‡ã‚Šæ–‡å—åˆ—
my $isep = $o{i} // "\t" ;  # å…¥åŠ›ã®åŒºåˆ‡ã‚Šæ–‡å— $o{','} = do { $o{','} //= "\t" ; eval qq[qq[$o{','}]] } ;
my $nc = 0 ; # è¨ˆæ•°å¯¾è±¡ã¨ã—ãªã‹ã£ãŸã‚»ãƒ«ã®æ•°ã‚’ã‚«ã‚¦ãƒ³ãƒˆã€‚
my $sec = $o{'@'} // 15 ; # ä½•ç§’ã”ã¨ã«ãƒ¬ãƒãƒ¼ãƒˆã‚’è¡¨ç¤ºã•ã›ã‚‹ã‹
my $rl ; # å„ãƒ•ã‚¡ã‚¤ãƒ«ã®èªã‚“ã è¡Œæ•°ã‚’æ ¼ç´ã€‚

$SIG{ ALRM } = sub { say STDERR GREEN + (d3 $rl) . " lines read. " , scalar localtime ; alarm $sec } ; 

my ${ INT1 } = sub {
  &{ $SIG{ALRM} } ;
  print STDERR BRIGHT_RED 
   'Do you want to get the halfway result? Then type Ctrl + C again within 2 seconds. '. "\n" .
   'Really want to Quit? Then press Ctrl + "\" or Ctrl + Yen-Mark. (Ctrl+Z may be what you want.) ' . RESET "\n" ;
  $SIG{INT} = sub { select *STDERR ; & ColStat ; select *STDOUT ; return } ; 
  sleep 2 ; 
  return ;
} ;

$SIG{ INT } = ${ INT1 } ;

$o{g} = 6 if ( ! defined $o{g} ) ; # å–ã‚Šå‡ºã™æ•°
$| = 1 if $o{'!'} ;
* decode = $o{u} ? * decode_utf8 : sub ($){ $_[0] } ; #* encode = $o{u} ? * encode_utf8 : sub ($){ $_[0] } ; 
$o{'#'} = decode ( $o{'#'} ) if defined $o{'#'} ; 

my %fOut = (
j =>  [ map {UNDERLINE decode($_)} qw[åˆ—ç•ªå· å€¤ã®ç•°ãªã‚Š æ•°å€¤åŒ–å¹³å‡ åˆ—å å€¤ã®ç¯„å›² æœ€é »å€¤ æœ€é »å€¤ã®åº¦æ•° ..ãƒ†ãƒ¼ãƒ«ã®åº¦æ•°(é‡ãªã‚Š) æ¡æ•°ç¯„å›² ] ] ,
e =>  [ map {UNDERLINE $_ } qw[ cpos diff ave. name range frequent frequency ..lower(x_mul) digits] ] ) ; 

binmode *STDOUT , ':utf8' if $o{u} ;
alarm $sec ; 
push @ARGV , '-' unless @ARGV ; # æ¨™æº–å…¥åŠ›ã®è¿½åŠ 
& eachFile ( $_ ) for @ARGV ;
exit 0 ;

sub eachFile ( $ ) {
  sub colnames( $ ) ; # -=ã®æ™‚ã«å…ˆé è¡Œã®æƒ…å ±ã‚’å–ã‚Šå‡ºã™
  sub filePinfo ; # ãƒ•ã‚¡ã‚¤ãƒ«æ¯Žã®2æ¬¡æƒ…å ±(ä¸€è¡Œã‚µãƒžãƒª)
  sub ColFreq ( $$ ) ; # ç¬¬ï¼‘å¤‰æ•°ã¯ãƒ•ã‚¡ã‚¤ãƒ«ãƒãƒ³ãƒ‰ãƒ« ç¬¬ï¼’å¤‰æ•°ã¯å‚ç…§ ;  å„åˆ—ã®å€¤ã®åˆ†å¸ƒã‚’å–ã‚Šå‡ºã™
  my $FH = do { my $t = *STDIN if $_[0] eq '-' ; open $t, '<', $_[0] if!$t ; binmode $t , ':gzip(gzip)' if $o{z} ; $t } ; # ãƒ•ã‚¡ã‚¤ãƒ«ãƒãƒ³ãƒ‰ãƒ«ã®å–å¾—
  $rl = 0 ;
  my @colnames =  colnames $FH  if $o{'='} ; 
  my $maxCols = ColFreq $FH, my $colvals ; #my $colvals ; å„åˆ—ã®å„ãƒ‡ãƒ¼ã‚¿å€¤ã®åº¦æ•°ã‚’é›†è¨ˆ;$colvals->[åˆ—ç•ª-1]{ãƒ‡ãƒ¼ã‚¿å€¤}=åº¦æ•° 
  close $FH  ;

  AlignOut @{ $fOut{$o{j}?'j':'e'} } if 0 ne ($o{0}//'') ; 
  defined $colvals->[$_] and ColStat $colvals->[ $_ ] , $colnames[$_] for 0 .. $maxCols - 1  ; # ã‚ªãƒ—ã‚·ãƒ§ãƒ³ -0 ã«ã‚ˆã‚Šå…¨ã¦ã®å€¤ãŒé™¤å¤–ã•ã‚Œã‚‹ã“ã¨ã¯èµ·ã“ã‚Šã†ã‚‹ã€‚ 
  filePinfo ;
}

# ãƒ˜ãƒƒãƒ€ã‹ã‚‰åˆ—åã‚’å–å¾—ã™ã‚‹ã€‚ -= ãŒæŒ‡å®šã•ã‚ŒãŸå ´åˆã®ã¿
sub colnames ( $ ) { my @F =  split /$isep/, do { my $FH = $_[0] ; my $t = <$FH> ; $rl++ if defined $t ; $t //= '' ; chomp $t ; decode ($t) } , -1 } 

sub filePinfo {
  exit if ($o{2}//'') eq 0 ;
  $rl = d3 ($rl // 0) ; # read lines
  my $procsec = tv_interval ${ dt_start } ;
  my $out = "$rl line(s) read; "; 
  $out .= "$nc cells are not counted; " if $nc ;
  $out .= sprintf '%0.6f seconds (colsummary)', $procsec ; # ãŸã¾ã«ãƒžã‚¤ã‚¯ãƒç§’å˜ä½ã®$procsecãŒ15æ¡ãã‚‰ã„ã§è¡¨ç¤ºã•ã‚Œã‚‹ã®ã§sprintfã€‚
  say STDERR BOLD DARK ITALIC CYAN $out ;
}

# å„åˆ—ã®å€¤ã®åˆ†å¸ƒã‚’å–ã‚Šå‡ºã™
sub ColFreq ( $$ ) { # ç¬¬ï¼‘å¤‰æ•°ã¯ãƒ•ã‚¡ã‚¤ãƒ«ãƒãƒ³ãƒ‰ãƒ« ç¬¬ï¼’å¤‰æ•°ã¯å‚ç…§
  #my %zstr ; # é™¤å¤–ã•ã‚ŒãŸæ–‡å—åˆ—ã®å‡ºç¾é »åº¦ã€‚(ç‚¹æ¤œç”¨ã§ã‚‚ã‚ã‚‹ã€‚)     #my $intflg ; #$SIG{INT} = sub { $intflg = 1 } ; 
  my $maxCols = 0 ;
  my $col = undef ; # 0ã‚ªãƒªã‚¸ãƒ³ã®ã‚«ãƒ©ãƒ ç•ªå·
  * lenlim = defined $o{l} ? sub { grep { $_ = substr $_, 0, $o{l} } @_ } : sub {} ; # -l ã§é•·ã•åˆ¶é™
  * tailspacetrim = defined $o{s} ? sub { grep { s/\s+$// } @_ } : sub {} ; 
  * negcell = defined $o{'#'} ? sub { if (m/$o{'#'}/ ) { $col ++ ; $nc ++ ; goto EACH_CELL } }  : sub {} ; # o{'0'} ã‚’ã‚„ã‚ãŸ
  for ( my $FH = $_[0] ; <$FH> ; $rl ++ ) { 
    #$rl ++ ;
    chomp ; 
    my @F = map { decode ( $_ ) } split /$isep/ , $_ , -1 ; 
    & lenlim ( @F ) ; # å„ã‚»ãƒ«ã®é•·ã•åˆ¶é™
    & tailspacetrim ( @F ) ;
    $col = 0 ;
    EACH_CELL : 
    while ( defined ($_ = shift @F) ) { 
      #do { $zstr { $F[$_] } ++ ; next } if exists $o{'0'} && $F[$_] =~ m/$o{'0'}/ ; 
      & negcell ; #next if exists $o{'0'} && $F[$_] =~ m/$o{'0'}/ ; 
      ++ $_[1] -> [ $col ] { $_ } ; # å„åˆ—ã®å„ãƒ‡ãƒ¼ã‚¿å€¤ã®åº¦æ•°ã‚’é›†è¨ˆ
      $col ++ ;
    }
    $maxCols = $col if $maxCols < $col ; 
  }
  # é™¤åŽ»ã•ã‚ŒãŸå€¤ã®é »åº¦ä¸€è¦§ã€‚
  #if ( $o{'0'} ) { 
  #  print ON_WHITE BLACK "\t Suppressed cell value : " if keys %zstr; 
  #  print ON_WHITE BLACK "\t $zstr{$_} : $_ " for keys %zstr 
  #} ; 
  return $maxCols ;
}

# $colvals->[åˆ—ç•ª] ã¨ åˆ—åã‚’ æ¸¡ã™ã€‚ãã—ã¦ã€ãã®ä¸èº«ãŒè¡¨ç¤ºã•ã‚Œã‚‹ã€‚
sub ColStat ( $$ ) { 
  sub aveft ( $$ ) ; # å„åˆ—ã®å¹³å‡å€¤ã‚’è¨ˆç®—ã™ã‚‹å‡¦ç†ã‚’ã™ã‚‹ã€‚
  sub MultSpec ( $$ ) ; # åº¦æ•°(é »å‡ºä¸Šä½ã®å€‹æ•°åŠã³ãƒ†ãƒ¼ãƒ«ã®æ§˜å) ã«ã¤ã„ã¦è¡¨ç¤ºæ–‡å—åˆ—ã‚’æº–å‚™ã™ã‚‹(..ã®å‰å¾Œã§2å›žå‘¼ã³å‡ºã•ã‚Œã‚‹)
  sub minmaxstr ( $ ) ; # é…åˆ—å‚ç…§ã‹ã‚‰ã€æœ€å°å€¤æœ€å¤§å€¤ã‚’å–ã‚Šå‡ºã™
( run in 0.583 second using v1.01-cache-2.11-cpan-941387dca55 )