文書の類似度を取得
String::Trigramモジュールで取得できます。
いくつぐらいから類似と見なすかは難しいですが、下記のサンプルでは約0.43という結果になります(同じ文書で1になります)。
use strict; use warnings; use Encode; use String::Trigram; my $text1 = Encode::decode('cp932', 'String::Trigramを使って似ている文章かを判定する。'); my $text2 = Encode::decode('cp932', '文章が似ているかをString::Trigramで判定する。'); my $score = String::Trigram::compare($text1, $text2); print $score, "\n";