2019-12-30 18:55:48 | 人氣(1,598) | 回應(1) | 上一篇 | 下一篇
推薦 0 收藏 0 轉貼0 訂閱站台

亞馬遜研究新的文字識別技術,沒想到先幹掉了驗證碼




不管你有沒有聽過,OCR 技術已經滲入到我們生活中的方方面面。






但發展到現在,對於 OCR 技術來說依舊有一個瓶頸沒有突破,那就是彎曲文字。

什麼是彎曲文字?

像這樣,






這樣,






還有這樣的。





實際上,Captcha & reCAPTCHA,也就是你登錄網站常常輸入錯的歪歪扭扭的文字驗證碼,也是基於 OCR 的這個弱點,來防止被攻擊的。






過去的 OCR 大多是解決水平文字的檢測或者傾斜文字的檢測,但其實像上圖的彎曲在生活中十分常見。

簡單來說,該算法首先會對目標圖像進行建模,建立一個曲線函數,然後再分析出出半徑以及中間軸,繼而生成一個文本選取分區。






效果怎麼樣?





為了更好地測試 TextTubes 的性能,亞馬遜在 CTW- 1500 以及 Total-Text 兩個訓練系統上進行評估。當中 CTW- 1500 含有 1500 張圖像、超過 10000 個文本實體,每張圖像至少還有一個彎曲文本,而 Total-Text 則共有 1255 個訓練圖像、300 個測試圖像,每張圖片也是含有一個或多個彎曲文本。





那麼成績如何?TextTubes 在兩個測試中都獲得了優秀的成績,在 CTW- 1500 則更為突出,準確率為 83.65%,相比之下,排第二名的那位學生,準確率只有 75.6%。


亞馬遜表示,當 TextTubes 正式投入使用之後,對於那些高度依賴 OCR 技術展開業務的企業來說,是一個福音。根據 Grand View Research 的數據,市場對於 OCR 的需求仍在不斷增大,預計到 2025 年 OCR 解決方案市場規模將達到 133.8 億美元。


等等,不是說文字驗證碼是基於 OCR 的這個弱點的嗎?如果突破了,驗證碼還安全嗎?





這不所以推出了從一堆劉翔中找出王自如的驗證碼嗎?-----(愛范兒)


台長: 聖天使

(悄悄話)
2019-12-31 11:23:06
我要回應 本篇僅限會員/好友回應,請先 登入
TOP
詳全文