Perl で日本語テキストを簡単に字種かたまりに分割できないかな、
と思い、perlunicode を読みながらサンプルプログラムを書いてみました。
対象テキストは UTF-8。
chunker.pl :
#!/usr/bin/perl
use strict;
use warnings;
use Encode;
use utf8;
use open ':utf8';
binmode STDIN, ":utf8";
binmode STDOUT, ":utf8";
while (<>) {
chom...