AozoraBunko-Checkerkun

 view release on metacpan or  search on metacpan

README.md  view on Meta::CPAN

# NAME

AozoraBunko::Checkerkun - 青空文庫の工作員のための文字チェッカー(作:結城浩)をライブラリ化したもの

# SYNOPSIS

    use AozoraBunko::Checkerkun;
    use utf8;

    my $checker1 = AozoraBunko::Checkerkun->new;
    $checker1->check('森※[#「區+鳥」、第3水準1-94-69]外💓'); # => '森※[#「區+鳥」、第3水準1-94-69]→[78hosetsu_tekiyo]【鴎】外💓[gaiji]'
    $checker1->check('森鷗外'); # => '森鷗[gaiji]外'
    $checker1->check('森鴎外'); # => '森鴎外'

    my $checker2 = AozoraBunko::Checkerkun->new({ output_format => 'html', gonin1 => 1, gonin2 => 1, gonin3 => 1 });
    $checker2->check('桂さんが柱を壊した。'); # => '<span data-checkerkun-tag="gonin3" data-checkerkun-message="かつら">桂</span>さんが<span data-checkerkun-tag="gonin3" data-checkerkun-message="はしら">柱</span>を壊した。'

    my $checker3 = AozoraBunko::Checkerkun->new({ kouetsukun => 1 });
    $checker3->check('薮さん'); # => '▼薮藪籔▲さん'

# DESCRIPTION

AozoraBunko::Checkerkun は、青空文庫工作員のための文字チェッカーで、結城浩氏が作成したスクリプトを私がライブラリ化したものです。

大野裕・結城浩・ゼファー生の各氏による旧字体置換可能チェッカー「校閲君」もこのライブラリに組み込まれています。

# METHODS

## $checker = AozoraBunko::Checkerkun->new(\\%option)

新しい AozoraBunko::Checkerkun インスタンスを生成します。

    my $checker = AozoraBunko::Checkerkun->new(
        'gaiji'            => 1, # JIS外字をチェックする
        'hansp'            => 1, # 半角スペースをチェックする
        'hanpar'           => 1, # 半角カッコをチェックする
        'zensp'            => 0, # 全角スペースをチェックする
        'zentilde'         => 1, # 全角チルダをチェックする
        '78hosetsu_tekiyo' => 1, # 78互換包摂の対象となる不要な外字注記をチェックする
        'hosetsu_tekiyo'   => 1, # 包摂の対象となる不要な外字注記をチェックする
        '78'               => 0, # 78互換包摂29字をチェックする
        'jyogai'           => 0, # 新JIS漢字で包摂規準の適用除外となる104字をチェックする
        'gonin1'           => 0, # 誤認しやすい文字をチェックする(1)
        'gonin2'           => 0, # 誤認しやすい文字をチェックする(2)
        'gonin3'           => 0, # 誤認しやすい文字をチェックする(3)
        'simplesp'         => 0, # 半角スペースは「_」で、全角スペースは「□」で出力する
        'kouetsukun'       => 0, # 旧字体置換可能チェッカー「校閲君」を有効にする(html出力時は kyuji か itaiji のチェッカー君タグ情報が付きます。)
        'output_format'    => 'plaintext', # 出力フォーマット(plaintext または html)
    );

上記のコードで設定されている値がデフォルト値です。

## $checked\_text = $checker->check($text)

new で指定したオプションでテキストをチェックします。戻り値はチェック後のテキストです。

# 秘伝のタレ(文字チェック用ハッシュリファレンス)へのアクセス

このモジュールを use すると以下の文字チェック用ハッシュリファレンスへアクセス可能になります。

    # 78互換包摂の対象となる不要な外字注記をチェックする
    $AozoraBunko::Checkerkun::KUTENMEN_78HOSETSU_TEKIYO;

    # 包摂の対象となる不要な外字注記をチェックする
    $AozoraBunko::Checkerkun::KUTENMEN_HOSETSU_TEKIYO;

    # 新JIS漢字で包摂基準の適用除外となる104字
    $AozoraBunko::Checkerkun::JYOGAI;



( run in 1.192 second using v1.01-cache-2.11-cpan-5735350b133 )