專利八:用於辨別文獻之同名作者的系統及方法

 一種用於辨別文獻之同名作者的系統。

一介面,其接收一文獻集合C,其包含複數篇文獻{C1,C2,...,CN},其中每一該文獻其作者均包含一作者名稱A

一特徵集合產生器,其擷取該文獻集合C{C1,C2,...,CN}中每一者所包含之文獻特徵資訊,

並依據該文獻特徵資訊從網際網路中搜尋對應之網頁,以決定該對應文獻之網路特徵資訊,

針對每一該文獻,結合其對應之該文獻特徵資訊及該網路特徵資訊為該文獻之特徵集合。

一成對向量產生器,其擷取該文獻集合C中之該文獻{C1,C2,...,CN}中任兩篇文獻,比較該兩篇文獻之特徵集合,

產生該兩篇文獻特徵集合之相似度評分,並據以產生該兩篇文獻對應之成對向量。一二元分類器,

依據該成對向量,將上述選取之任兩篇文獻指定為正關係或負關係,

其中,該正關係表示該兩篇文獻之該作者名稱A代表同一人,該負關係表示該兩篇文獻之該作者名稱A不代表同一人。

一聚類建立器,其依據該兩篇文獻為正關係或負關係,將該文獻{C1,C2,...,CN}加以聚類,產生一初步聚類圖形。

一聚類圖形過濾器,其依據該初步聚類圖形的結構,除去該初步聚類圖形上的橋接連結,以產生一最終聚類圖形。