binmode results from the CPAN

App-colsummary
view release on metacpan or search on metacpan
#!/usr/bin/perl

#  colsummary : TSVã¾ãŸã¯CSVãƒ•ã‚¡ã‚¤ãƒ«ã®å„åˆ—ã®å€¤ã®æ§˜åã‚’è¡¨ç¤ºã™ã‚‹ã€‚ã¨ã¦ã‚‚ä¾¿åˆ©ã€‚
#   2015/05/11 - 2016/07/05 , 2018-03-28 . Shimono Toshiyuki 
#   2019/10/24, 2021/06/08, 2021/06/11 ã•ã‚‰ã«å¤§å¹…ã«æ›¸ãæ›¿ãˆ 

use 5.014 ; 
use strict ; 
use warnings ; # also confirmed on 5.011 5.014 5.018  
use autodie qw [ open ] ; 
use Encode qw[ decode_utf8 encode_utf8 ] ; 
use FindBin qw [ $Script ] ; 
use Getopt::Std ; getopts 'R:c:g:i:jm:r:su:v:z=!@:#:0:2:' => \my %o ;
use List::Util qw/max min maxstr minstr/ ; 
use POSIX qw/strtod/ ; # # å¹³å‡å€¤ã®è¨ˆç®—ã«ç”¨ã„ã‚‹ str to double.
use Scalar::Util qw/looks_like_number/;
use Term::ANSIColor qw/:constants color/ ; $Term::ANSIColor::AUTORESET = 1 ; 
use Time::HiRes qw [ gettimeofday tv_interval ] ; my ${ dt_start } = [ gettimeofday ] ; 

my $sdt = sprintf '%04d-%02d-%02d %02d:%02d:%02d', do{my @t= @{[localtime]}[5,4,3,2,1,0]; $t[0]+=1900; $t[1]++; @t } ; 
eval "use PerlIO::gzip;1" or die "PerlIO::gzip cannot be loaded, so -z does not work. ($Script, $sdt)\n" if $o{z} ; 

sub AlignOut ( @ ) ; # å‡ºåŠ› ; eachFileã§ã‚‚Colstatã§ã‚‚ä½¿ã†ã€‚
sub ColStat ( $$ ) ; # $colvals->[åˆ—ç•ª] ã¨ åˆ—åã‚’ æ¸¡ã™ã€‚ãã—ã¦ã€ãã®ä¸èº«ãŒè¡¨ç¤ºã•ã‚Œã‚‹ã€‚; eachFileã§ã‚‚Colstatã§ã‚‚ä½¿ã†ã€‚
sub d3 ($) { $_[0] =~ s/(?<=\d)(?=(\d\d\d)+($|\D))/,/gr } ; # æ•°ã‚’3æ¡åŒºåˆ‡ã‚Šã«å¤‰æ›ã™ã‚‹ã€‚
sub eachFile ( $ ) ; 
  # ä»¥ä¸‹3å€‹ã¯eachFileã‹ã‚‰å‘¼ã°ã‚Œã‚‹ã€‚
  sub colnames( $ ) ; # -=ã®æ™‚ã«å…ˆé è¡Œã®æƒ…å ±ã‚’å–ã‚Šå‡ºã™
  sub filePinfo ; # ãƒ•ã‚¡ã‚¤ãƒ«æ¯Žã®2æ¬¡æƒ…å ±(ä¸€è¡Œã‚µãƒžãƒª)
  sub ColFreq ( $$ ) ; # ç¬¬ï¼‘å¤‰æ•°ã¯ãƒ•ã‚¡ã‚¤ãƒ«ãƒãƒ³ãƒ‰ãƒ« ç¬¬ï¼’å¤‰æ•°ã¯å‚ç…§ ;  å„åˆ—ã®å€¤ã®åˆ†å¸ƒã‚’å–ã‚Šå‡ºã™

## å…¨ä½“ã§ä½¿ã†å¤‰æ•°
my $optu0 = exists $o{u} && $o{u} eq 0 ; 
* decode = * decode_utf8 ; 
* decode = sub ( $ ) { $_[0] } if $optu0 ; 
#* decode = (! $optu0) ? * decode_utf8 : sub ($){ $_[0] } ; #* encode = $o{u} ? * encode_utf8 : sub ($){ $_[0] } ; 
my $optR0 = defined $o{R} && $o{R} eq 0 ;
* R0proc = $optR0 ? sub {} : sub { s/\r$// } ;  # -R0 ãŒæŒ‡å®šã•ã‚ŒãŸæ™‚ã®å‡¦ç†
binmode *STDOUT , ':utf8' unless $optu0 ; # ã“ã‚Œã ã‘å…¨ä½“ã§ä½¿ã†å¤‰æ•°ã¨ã¯è¨€ã„ãŒãŸã„ã‹ã‚‚ã—ã‚Œãªã„ãŒã€ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã®å‡¦ç†ã¯ã“ã®ç¯€ã®å‰åŠã«ã‚ã‚‹ã®ã§ã€‚
$| = 1 if $o{'!'} ;
$o{g} //= 6 ; # if ( ! defined $o{g} ) ; # å–ã‚Šå‡ºã™æ•°
$o{r} //= "~" ; # ç¯„å›²ã‚’è¡¨ã™è¨˜å·(å‡ºåŠ›ã§ä½¿ã†)
$o{c} //= '|'  ; # ç¯„å›²ã‚’ç¤ºã™è¡¨ç¤ºã‚’è¤‡æ•°ç¹‹ã’ã‚‹è¨˜å·(å‡ºåŠ›ã§ä½¿ã†)
$o{'#'} = decode ( $o{'#'} ) if defined $o{'#'} ; # é™¤å¤–ã™ã‚‹æ£è¦è¡¨ç¾
push @ARGV , '-' unless @ARGV ; # æ¨™æº–å…¥åŠ›ã®è¿½åŠ 
my $isep = $o{i} // "\t" ;  # å…¥åŠ›ã®åŒºåˆ‡ã‚Šæ–‡å— $o{','} = do { $o{','} //= "\t" ; eval qq[qq[$o{','}]] } ;
my $sec = $o{'@'} // 15 ; # ä½•ç§’ã”ã¨ã«ãƒ¬ãƒãƒ¼ãƒˆã‚’è¡¨ç¤ºã•ã›ã‚‹ã‹
my $nc = 0 ; # è¨ˆæ•°å¯¾è±¡ã¨ã—ãªã‹ã£ãŸã‚»ãƒ«ã®æ•°ã‚’ã‚«ã‚¦ãƒ³ãƒˆã€‚
my $rl ; # å„ãƒ•ã‚¡ã‚¤ãƒ«ã®èªã‚“ã è¡Œæ•°ã‚’æ ¼ç´ã€‚
my %fOut = (
j => [map{UNDERLINE decode($_)}map{eval"\"$_\""}qw[åˆ—ç•ª ç•°ãªã‚‹å€¤ æ•°å€¤åŒ–å¹³å‡ åˆ—å å€¤ã®ç¯„å›² æœ€é »å€¤ é »åº¦(é‡è¤‡)], q[], 'æ¡æ•°'],
e =>  [ map {UNDERLINE $_ } qw[ cpos diff ave. name range frequent frequency(multi) ] , "",  "digits" ] ) ; 

my $col = undef ; # 0ã‚ªãƒªã‚¸ãƒ³ã®ã‚«ãƒ©ãƒ ç•ªå· ## sub ColFreq å†…ã§ä½¿ã†ã€‚
* negcell = defined $o{'#'} ? sub { if (m/$o{'#'}/ ) { $col ++ ; $nc ++ ; goto EACH_CELL } }  : sub {} ; # o{'0'} ã‚’ã‚„ã‚ãŸ


## ã‚·ã‚°ãƒŠãƒ«ã«å¯¾ã™ã‚‹è¨å®š
my ${ INT1 } = sub {
  &{ $SIG{ALRM} } ;
  print STDERR BRIGHT_RED 
   'Do you want to get the halfway result? Then type Ctrl + C again within 2 seconds. '. "\n" .
   'Really want to Quit? Then press Ctrl + "\" or Ctrl + Yen-Mark. (Ctrl+Z may be what you want.) ' . RESET "\n" ;
  $SIG{INT} = sub { select *STDERR ; & ColStat ; select *STDOUT ; return } ; 
  sleep 2 ; 
  return ;
} ;
$SIG{ INT } = ${ INT1 } ;
$SIG{ ALRM } = sub { say STDERR GREEN + (d3 $rl) . " lines read. " , scalar localtime ; alarm $sec } ; 
alarm $sec ; 

eachFile $_ for @ARGV ;
exit 0 ;

## 1å€‹ãšã¤ãƒ•ã‚¡ã‚¤ãƒ«ã‚’èªã¿å–ã‚‹ã€‚
sub eachFile ( $ ) {
  #my $FH = do { my $t = *STDIN if $_[0] eq '-' ; open $t, '<', $_[0] if!$t ; binmode $t , ':gzip(gzip)' if $o{z} ; $t } ; # ãƒ•ã‚¡ã‚¤ãƒ«ãƒãƒ³ãƒ‰ãƒ«ã®å–å¾—
  my $FH = do{my$t;if($_[0]eq'-'){$t=*STDIN}else{open$t,'<',$_[0]} ; binmode $t , ':gzip(gzip)' if $o{z} ; $t } ; # ãƒ•ã‚¡ã‚¤ãƒ«ãƒãƒ³ãƒ‰ãƒ«ã®å–å¾—
  $rl = 0 ; # å„ãƒ•ã‚¡ã‚¤ãƒ«ã®èªã¿å–ã£ãŸè¡Œæ•°
  # 1. æœ€åˆã®åˆ—åã®ä¸¦ã³ã‚’èªã¿å–ã‚Š: 
  my @colnames =  colnames $FH if $o{'='} ; 
  # 2. ãƒ‡ãƒ¼ã‚¿ã®ä¸èº«ã‚’èªã¿å–ã‚Šã¤ã¤ã€è¿”ã‚‹å€¤ã¯ã€Œåˆ—æ•°ã€ã€‚
  my $maxCols = ColFreq $FH, my $colvals ; #my $colvals ; å„åˆ—ã®å„ãƒ‡ãƒ¼ã‚¿å€¤ã®åº¦æ•°ã‚’é›†è¨ˆ;$colvals->[åˆ—ç•ª-1]{ãƒ‡ãƒ¼ã‚¿å€¤}=åº¦æ•° 
  close $FH  ;
  # 3. å‡ºåŠ›ã‚’ã™ã‚‹
  AlignOut @{ $fOut{$o{j}?'j':'e'} } if 0 ne ($o{0}//'') ; 
  defined $colvals->[$_] and ColStat $colvals->[ $_ ] , $colnames[$_] for 0 .. $maxCols - 1  ; # ã‚ªãƒ—ã‚·ãƒ§ãƒ³ -0 ã«ã‚ˆã‚Šå…¨ã¦ã®å€¤ãŒé™¤å¤–ã•ã‚Œã‚‹ã“ã¨ã¯èµ·ã“ã‚Šã†ã‚‹ã€‚ 
  # 4. 2æ¬¡æƒ…å ±ã‚’å‡ºåŠ›ã™ã‚‹ã€‚
  filePinfo ;
}

### ãƒ˜ãƒƒãƒ€ã‹ã‚‰åˆ—åã‚’å–å¾—ã™ã‚‹ã€‚ -= ãŒæŒ‡å®šã•ã‚ŒãŸå ´åˆã®ã¿
sub colnames ( $ ) { 
  my $FH = $_[0] ; 
  $_ = <$FH> ; 
  $rl ++ if defined $_ ; 
  $_ //= '' ; 
  & R0proc ; # <-- R0procã§è¡Œæœ«ã®\rå¯¾ç–ã€‚
  chomp $_ ; 
  decode ($_) ; 
  my @F = split /$isep/, decode ($_) , -1 ; 
  #my @F =  split /$isep/, do { my $FH = $_[0] ; my $t = <$FH> ; $rl++ if defined $t ; $t //= '' ; chomp $t ; decode ($t) } , -1 
} 

###
sub filePinfo {
  exit if ($o{2}//'') eq 0 ;
  $rl = d3 ($rl // 0) ; # read lines
  my $procsec = tv_interval ${ dt_start } ;
  my $out = "$rl line(s) read; "; 
  $out .= "$nc cells are not counted; " if $nc ;
  $out .= sprintf '%0.6f seconds (colsummary)', $procsec ; # ãŸã¾ã«ãƒžã‚¤ã‚¯ãƒç§’å˜ä½ã®$procsecãŒ15æ¡ãã‚‰ã„ã§è¡¨ç¤ºã•ã‚Œã‚‹ã®ã§sprintfã€‚
  say STDERR BOLD DARK ITALIC CYAN $out ;
}

### å„åˆ—ã®å€¤ã®åˆ†å¸ƒã‚’å–ã‚Šå‡ºã™
sub ColFreq ( $$ ) { # ç¬¬ï¼‘å¤‰æ•°ã¯ãƒ•ã‚¡ã‚¤ãƒ«ãƒãƒ³ãƒ‰ãƒ« ç¬¬ï¼’å¤‰æ•°ã¯å‚ç…§
  #my %zstr ; # é™¤å¤–ã•ã‚ŒãŸæ–‡å—åˆ—ã®å‡ºç¾é »åº¦ã€‚(ç‚¹æ¤œç”¨ã§ã‚‚ã‚ã‚‹ã€‚)     #my $intflg ; #$SIG{INT} = sub { $intflg = 1 } ; 
  my $maxCols = 0 ;
  #my $col = undef ; # 0ã‚ªãƒªã‚¸ãƒ³ã®ã‚«ãƒ©ãƒ ç•ªå·
  ## * lenlim = defined $o{v} ? sub { grep { $_ = substr $_, 0, $o{v} } @_ } : sub {} ; # -v ã§é•·ã•åˆ¶é™ ## -v ã®åˆ¶é™ã¯åˆ¥ã®æ‰€ã§ã€‚
  * tailspacetrim = defined $o{s} ? sub { grep { s/\s+$// } @_ } : sub {} ; 
  #* negcell = defined $o{'#'} ? sub { if (m/$o{'#'}/ ) { $col ++ ; $nc ++ ; goto EACH_CELL } }  : sub {} ; # o{'0'} ã‚’ã‚„ã‚ãŸ
  for ( my $FH = $_[0] ; <$FH> ; $rl ++ ) {  # <-- - ã‚ˆãã“ã‚“ãªã‚³ãƒ¼ãƒ‰ã‚’æ›¸ã„ãŸã¨è‡ªåˆ†ã§æ€ã£ã¦ã„ã‚‹(2021-06-08)
    chomp ; 
    & R0proc ; 
    my @F = map { decode ( $_ ) } split /$isep/ , $_ , -1 ; 
    #& lenlim ( @F ) ; # å„ã‚»ãƒ«ã®é•·ã•åˆ¶é™
    & tailspacetrim ( @F ) ;
    $col = 0 ;
    EACH_CELL : 
    while ( defined ($_ = shift @F) ) { 
      #do { $zstr { $F[$_] } ++ ; next } if exists $o{'0'} && $F[$_] =~ m/$o{'0'}/ ; 
      & negcell ; #next if exists $o{'0'} && $F[$_] =~ m/$o{'0'}/ ; 
      ++ $_[1] -> [ $col ] { $_ } ; # å„åˆ—ã®å„ãƒ‡ãƒ¼ã‚¿å€¤ã®åº¦æ•°ã‚’é›†è¨ˆ
      $col ++ ;
    }
    $maxCols = $col if $maxCols < $col ;
( run in 2.006 seconds using v1.01-cache-2.11-cpan-9581c071862 )