python?fuzzywuzzy模塊，模糊字符串匹配詳細(xì)用法

更新時(shí)間:2018-08-09 來(lái)源:黑馬程序員瀏覽量:

計(jì)算兩個(gè)字符串相(或句子)似度的方法有大約有三種：1 編輯距離，2 余弦相似度，3 FuzzyWuzzy
本文章主要給大家講解 FuzzyWuzzy 庫(kù)的使用：
1）----》》
導(dǎo)入庫(kù)
>>> from fuzzywuzzy import fuzz
>>> from fuzzywuzzy import process

運(yùn)行代碼
>>> fuzz.ratio("this is a test", "this is a test!")out   97>>> fuzz.partial_ratio("this is a test", "this is a test!")out   100

fuzz.ratio()對(duì)位置敏感，全匹配，fuzz.partial_ratio()對(duì)位置不敏感，搜索匹配，從輸出的結(jié)果就可以看到。
2）----》》
>>> fuzz._process_and_sort(s, force_ascii, full_process=True)

對(duì)字符串s排序。force_ascii:True 或者False。為T(mén)rue表示轉(zhuǎn)換為ascii碼。如果full_process為T(mén)rue，則會(huì)將字符串s轉(zhuǎn)換為小寫(xiě)，去掉除字母和數(shù)字之外的字符（發(fā)現(xiàn)不能去掉-字符），剩下的字符串以空格分開(kāi)，然后排序。如果為False，則直接對(duì)字符串s排序。

>>> fuzz._token_sort(s1, s2, partial=True, force_ascii=True, full_process=True)

給出字符串 s1, s2的相似度。首先經(jīng)過(guò) fuzz._process_and_sort（）函數(shù)處理。partial為T(mén)rue時(shí)，再經(jīng)過(guò)fuzz.partial_ratio（）函數(shù)。partial為False時(shí)，再經(jīng)過(guò)fuzz.ratio（）函數(shù)。

>>> fuzz.token_sort_ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")out   100

partial為False的_token_sort()
fuzz.partial_token_sort_ratio(s1, s2, force_ascii=True, full_process=True)
就是partial為T(mén)rue時(shí)的Fuzz._token_sort（）

3）
>>> fuzz.token_set_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear")out   100

fuzz._token_set(s1, s2, partial=True, force_ascii=True, full_process=True)

當(dāng)partial為False時(shí)，就是 fuzz.token_set_ratio（）函數(shù)。

fuzz.partial_token_set_ratio(s1, s2, force_ascii=True, full_process=True)

partial為T(mén)rue的fuzz._token_set（）函數(shù)。

總結(jié)：如果計(jì)算相似度的字符串只有字母和數(shù)字，直接可以用ratio（）和partial_ratio()。但如果還有其他字符，而且我們想要去掉這些沒(méi)用字符，就用下邊的。下邊的函數(shù)都對(duì)順序不敏感，但token_sort_ratio（）系列是全字符匹配，不管順序。而token_set_ratio（）只要第二個(gè)字符串包含第一個(gè)字符串就100,不管順序。

>>> choices = ["Atlanta Falcons", "New York Jets", "New York Giants", "Dallas Cowboys"]>>> process.extract("new york jets", choices, limit=2) [('New York Jets', 100), ('New York Giants', 78)]>>> process.extractOne("cowboys", choices) ("Dallas Cowboys", 90)

query是字符串，choices是數(shù)組，元素是字符串。 processor是對(duì)輸入比較的字符串的處理函數(shù)，默認(rèn)是fuzzywuzzy.utils.full_process()，即將字符串變?yōu)樾?xiě)，去掉除字母和數(shù)字之外的字符（發(fā)現(xiàn)不能去掉-字符），剩下的字符串以空格分開(kāi)。scorer計(jì)算兩個(gè)字符串相似度的函數(shù)，默認(rèn)fuzz.WRatio()。 limit是輸出個(gè)數(shù)。

輸出為數(shù)組，元素為元組，元祖第一個(gè)匹配到的字符串，第二個(gè)為int型，為score。對(duì)輸出按照score排序。

score_cutoff為一個(gè)閾值，當(dāng)score小于該閾值時(shí)，不會(huì)輸出。返回一個(gè)生成器，輸出每個(gè)大于 score_cutoff的匹配，按順序輸出，不排序。

>>> process.extractBests(query, choices, processor=default_processor, scorer=default_scorer, score_cutoff=0, limit=5)

作者：黑馬程序員人工智能+python培訓(xùn)學(xué)院
首發(fā)：http://python.itheima.com/