rename results from the CPAN

App-Anchr

â”œâ”€â”€ createSuperReadsForDirectory.perl
â”œâ”€â”€ eliminateBadSuperReadsUsingList
â”œâ”€â”€ error_corrected2frg
â”œâ”€â”€ expand_fastq
â”œâ”€â”€ extendSuperReadsBasedOnUniqueExtensions
â”œâ”€â”€ extendSuperReadsForUniqueKmerNeighbors
â”œâ”€â”€ extractJoinableAndNextPassReadsFromJoinKUnitigs.perl
â”œâ”€â”€ extractreads_not.pl
â”œâ”€â”€ extractreads.pl
â”œâ”€â”€ extract_unjoined_pairs.pl
â”œâ”€â”€ fasta2frg_m.pl
â”œâ”€â”€ fasta2frg.pl
â”œâ”€â”€ filter_alt.pl
â”œâ”€â”€ filter_library.sh
â”œâ”€â”€ filter_overlap_file
â”œâ”€â”€ filter_redundancy.pl
â”œâ”€â”€ finalFusion
â”œâ”€â”€ findMatchesBetweenKUnitigsAndReads
â”œâ”€â”€ findReversePointingJumpingReads_bigGenomes.perl
â”œâ”€â”€ findReversePointingJumpingReads.perl
â”œâ”€â”€ fix_unitigs.sh
â”œâ”€â”€ getATBiasInCoverageForIllumina_v2
â”œâ”€â”€ getEndSequencesOfContigs.perl
â”œâ”€â”€ getGCBiasStatistics.perl
â”œâ”€â”€ getLengthStatisticsForKUnitigsFile.perl
â”œâ”€â”€ getMeanAndStdevByGCCount.perl
â”œâ”€â”€ getMeanAndStdevForGapsByGapNumUsingCeleraAsmFile.perl
â”œâ”€â”€ getMeanAndStdevForGapsByGapNumUsingCeleraTerminatorDirectory.perl
â”œâ”€â”€ getNumBasesPerReadInFastaFile.perl
â”œâ”€â”€ getSequenceForClosedGaps.perl
â”œâ”€â”€ getSequenceForLocallyClosedGaps.perl
â”œâ”€â”€ getSuperReadInsertCountsFromReadPlacementFile
â”œâ”€â”€ getSuperReadInsertCountsFromReadPlacementFileTwoPasses
â”œâ”€â”€ getSuperReadPlacements.perl
â”œâ”€â”€ getUnitigTypeFromAsmFile.perl
â”œâ”€â”€ homo_trim
â”œâ”€â”€ jellyfish
â”œâ”€â”€ joinKUnitigs_v3
â”œâ”€â”€ killBadKUnitigs
â”œâ”€â”€ makeAdjustmentFactorsForNumReadsForAStatBasedOnGC
â”œâ”€â”€ makeAdjustmentFactorsForNumReadsForAStatBasedOnGC_v2
â”œâ”€â”€ masurca
â”œâ”€â”€ MasurcaCelera.pm
â”œâ”€â”€ MasurcaCommon.pm
â”œâ”€â”€ MasurcaConf.pm
â”œâ”€â”€ MasurcaSoap.pm
â”œâ”€â”€ masurca-superreads
â”œâ”€â”€ MasurcaSuperReads.pm
â”œâ”€â”€ mergeSuperReadsUniquely.pl
â”œâ”€â”€ outputAlekseysJellyfishReductionFile.perl
â”œâ”€â”€ outputJoinedPairs.perl
â”œâ”€â”€ outputMatedReadsAsReverseComplement.perl
â”œâ”€â”€ outputRecordsNotOnList
â”œâ”€â”€ parallel
â”œâ”€â”€ putReadsIntoGroupsBasedOnSuperReads
â”œâ”€â”€ quorum
â”œâ”€â”€ quorum_create_database
â”œâ”€â”€ quorum_error_correct_reads
â”œâ”€â”€ recompute_astat_superreads.sh
â”œâ”€â”€ reduce_sr
â”œâ”€â”€ rename_filter_fastq
â”œâ”€â”€ rename_filter_fastq.pl
â”œâ”€â”€ reportReadsToExclude.perl
â”œâ”€â”€ restore_ns.pl
â”œâ”€â”€ reverse_complement
â”œâ”€â”€ runByDirectory
â”œâ”€â”€ run_ECR.sh
â”œâ”€â”€ runSRCA.pl
â”œâ”€â”€ sample_mate_pairs.pl
â”œâ”€â”€ samtools
â”œâ”€â”€ semaphore
â”œâ”€â”€ SOAPdenovo-127mer
â”œâ”€â”€ SOAPdenovo-63mer
â”œâ”€â”€ sorted_merge
â”œâ”€â”€ splitFileAtNs
â”œâ”€â”€ splitFileByPrefix.pl
â”œâ”€â”€ translateReduceFile.perl
â””â”€â”€ ufasta

0 directories, 100 files
```

åŒæ—¶è¿˜ç”Ÿæˆä¸€ä¸ªé…ç½®æ–‡ä»¶æ ·ä¾‹, `sr_config_example.txt`.

# æ ·ä¾‹æ•°æ®

MaSuRCA å‘è¡¨åœ¨ Bioinformatics æ—¶è‡ªå¸¦çš„æµ‹è¯•æ•°æ®.

> IMPORTANT! Do not preâ€process Illumina data before providing it to MaSuRCA. Do not do any
> trimming, cleaning or error correction. This WILL deteriorate the assembly

Super-readsåœ¨ `work1/superReadSequences.fasta`, `work2/` å’Œ `work2.1/` æ˜¯ short jump çš„å¤„ç†, ä¸ç”¨ç®¡.
`superReadSequences_shr.frg` é‡Œé¢çš„ super-reads æ˜¯ä½œè¿‡æˆªæ–å¤„ç†çš„, æ•°é‡ä¸å¯¹.

> Assembly result. The final assembly files are under CA/10-gapclose and named 'genome.ctg.fasta'
> for the contig sequences and 'genome.scf.fasta' for the scaffold sequences.

MaSuRCA-3.1.3 supports gzipped fastq files while MaSuRCA-2.1.0 doesn't.

## Rhodobacter sphaeroides (çƒå½¢çº¢ç»†èŒ)

é«˜ GC åŽŸæ ¸ç”Ÿç‰© (68%), åŸºå› ç»„ 4.5 Mbp.

```bash
mkdir -p ~/data/test
cd ~/data/test

wget -m ftp://ftp.genome.umd.edu/pub/MaSuRCA/test_data/rhodobacter .

mv ftp.genome.umd.edu/pub/MaSuRCA/test_data/rhodobacter .
rm -fr ftp.genome.umd.edu
find . -name ".listing" | xargs rm
```

### Illumina PE, Short Jump and Sanger (1x or 4x)

```bash
cd ~/data/test

cat <<EOF > sr_config.txt
PARAMETERS
CA_PARAMETERS = ovlMerSize=30 cgwErrorRate=0.25 merylMemory=8192 ovlMemory=4GB

doc/masurca.md view on Meta::CPAN

    "Name" "N50SR" "#SR" "N50Contig" "#Contig" "N50Scaffold" "#Scaffold" "EstG" \
    > stat.md
printf "|:--|--:|--:|--:|--:|--:|--:|--:|\n" >> stat.md

for d in rhodobacter_PE_SJ_Sanger4 rhodobacter_PE_SJ_Sanger rhodobacter_PE_SJ rhodobacter_PE_Sanger4 rhodobacter_PE_Sanger rhodobacter_PE rhodobacter_superreads;
do
    printf "| %s | %s | %s | %s | %s | %s | %s | %s |\n" \
        ${d} \
        $( faops n50 -H -N 50 -C ${d}/work1/superReadSequences.fasta ) \
        $( faops n50 -H -N 50 -C ${d}/CA/10-gapclose/genome.ctg.fasta ) \
        $( faops n50 -H -N 50 -C ${d}/CA/10-gapclose/genome.scf.fasta ) \
        $( cat ${d}/environment.sh \
            | perl -n -e '/ESTIMATED_GENOME_SIZE=\"(\d+)\"/ and print $1' )
done >> stat.md

cat stat.md
```

| name          | N50SR |  #SR | N50Contig | #Contig | N50Scaffold | #Scaffold |    EstG |
|:--------------|------:|-----:|----------:|--------:|------------:|----------:|--------:|
| PE_SJ_Sanger4 |  4586 | 4187 |    205225 |      69 |     3196849 |        35 | 4602968 |
| PE_SJ_Sanger  |  4586 | 4187 |     63274 |     141 |     3070846 |        28 | 4602968 |
| PE_SJ         |  4586 | 4187 |     43125 |     219 |     3058404 |        59 | 4602968 |
| PE_Sanger4    |  4705 | 4042 |    125228 |      67 |      534852 |        30 | 4595684 |
| PE_Sanger     |  4705 | 4042 |     19435 |     412 |       21957 |       359 | 4595684 |
| PE            |  4705 | 4043 |     20826 |     407 |       34421 |       278 | 4595684 |
| superreads    |  4705 | 4043 |           |         |             |           | 4595684 |

æœ‰è¶³å¤Ÿå¤šçš„ long reads æ”¯æŒä¸‹, ä¸éœ€è¦ short jump.

# SuperReads 3.1.3

2017 å¹´ 2 æœˆ, UMD ftp ä¸Šå¤šäº†ä¸€ä¸ªæ–°ç¨‹åº
[SuperReads_RNA](ftp://ftp.genome.umd.edu/pub/MaSuRCA/beta/SuperReads_RNA-1.0.1.tar.gz), æ˜¯ MaSuRCA
3.2.1 çš„ç®€åŒ–ç‰ˆ. å¾ˆå¯èƒ½æ˜¯ `StringTie` ç”¨äº† super-reads æ¥å¤„ç† RNA-seq, åœ¨å¾ˆå¤šäººçš„è¦æ±‚ä¸‹åšçš„.

æ ¹æ®è¿™ä¸ªç‰ˆæœ¬, æˆ‘å°† MaSuRCA 3.1.3 ç®€åŒ–, åŽ»æŽ‰æ‰€æœ‰çš„ä¾èµ–, åŽ»æŽ‰é…åˆ `Celera Assembler` çš„éƒ¨åˆ†, åªç•™ä¸‹äº†
`SuperReads`, å¯ä»¥ç”¨ `Linuxbrew` å®‰è£….

```bash
brew install homebrew/science/jellyfish
brew install wang-q/tap/quorum@1.1.1
brew install wang-q/tap/superreads
```

# Super-reads and anchors

## E. coli: link anchors

```bash
cd ~/zlc/Ecoli/anchorAlign

for id in 0_11 10_13 11_7 12_3 13_33 14_8 15_11 16_20 17_4 18_17 19_19 1_4 20_15 21_13 22_8 23_15 24_34 25_8 26_3 27_30 28_2 29_13 2_27 30_25 31_15 32_28 33_2 34_16 35_3 36_23 37_5 38_29 39_5 3_12 40_9 41_19 4_5 5_7 6_56 7_12 8_15 9_6;
do
    bash ~/Scripts/cpan/App-Anchr/share/link_anchor.sh ${id}.anchor.fasta ${id}.pac.fasta ${id};
    GROUP_COUNT=$(id=${id} perl -e '@p = split q{_}, $ENV{id}; print $p[1];')
    perl ~/Scripts/cpan/App-Anchr/share/ovlp_layout.pl ${id}.ovlp.tsv --range "1-${GROUP_COUNT}"
done

# Exceeded memory bound: 502169772
#poa -preserve_seqorder -read_fasta 9_2.renamed.fasta -clustal 9_2.aln -hb ~/Scripts/sra/poa-blosum80.mat 

#cp 9_2.renamed.fasta myDB.pp.fasta
#
#DBrm myDB
#fasta2DB myDB myDB.pp.fasta
#DBdust myDB
#
#if [ -e myDB.las ]; then
#    rm myDB.las
#fi
#HPC.daligner myDB -v -M4 -e.70 -l1000 -s1000 -mdust > job.sh
#bash job.sh
#rm job.sh
#
#LA4Falcon -o myDB.db myDB.las 1-2
#
#perl ~/Scripts/sra/las2ovlp.pl 9_2.renamed.fasta <(LAshow -o myDB.db myDB.las 1)
#
#perl ~/Scripts/sra/las2ovlp.pl 9_2.renamed.fasta 9_2.show.txt -r 9_2.replace.tsv


# 3 5 10 8 4 9 7 2 11 6 1
perl ~/Scripts/egaz/sparsemem_exact.pl \
    -f 0_11.renamed.fasta -g ~/data/dna-seq/e_coli/superreads/NC_000913.fa \
    --length 500 -o 0_11.chr.tsv
perl ~/Scripts/sra/ovlp_layout.pl 0_11.ovlp.tsv --range 1-11

# 16 47 19 51 28 22 15 11 43 5 34 44 4 37 6 9 53 24 40 52 46 23 32 38 55 54 18 31 10 26 2 8 48 36 27 29 30 45 50 33 35 42 41 3 25 20 17 14 7 56 21 13 39 49 12 1
perl ~/Scripts/egaz/sparsemem_exact.pl \
    -f 6_56.renamed.fasta -g ~/data/dna-seq/e_coli/superreads/NC_000913.fa \
    --length 500 -o 6_56.chr.tsv
perl ~/Scripts/sra/ovlp_layout.pl 6_56.ovlp.tsv --range 1-56

# pip install pysam biopython
python ~/Scripts/sra/nanocorrect.py myDB all > corrected.fasta

```

( run in 1.331 second using v1.01-cache-2.11-cpan-acf6aa7dc9e )