文書の類似度を取得
String::Trigramモジュールで取得できます。
いくつぐらいから類似と見なすかは難しいですが、下記のサンプルでは約0.43という結果になります(同じ文書で1になります)。
use strict;
use warnings;
use Encode;
use String::Trigram;
my $text1 = Encode::decode('cp932', 'String::Trigramを使って似ている文章かを判定する。');
my $text2 = Encode::decode('cp932', '文章が似ているかをString::Trigramで判定する。');
my $score = String::Trigram::compare($text1, $text2);
print $score, "\n";
