文書の類似度を取得


 String::Trigramモジュールで取得できます。
 いくつぐらいから類似と見なすかは難しいですが、下記のサンプルでは約0.43という結果になります(同じ文書で1になります)。
use strict;
use warnings;
use Encode;
use String::Trigram;

my $text1 = Encode::decode('cp932', 'String::Trigramを使って似ている文章かを判定する。');
my $text2 = Encode::decode('cp932', '文章が似ているかをString::Trigramで判定する。');

my $score = String::Trigram::compare($text1, $text2);

print $score, "\n";

関連項目

文書の差分の取得