almost 5 years ago

試下用Chrome Double click下面嘅字,你會發現喺「馬」字上面double click,會highlight「馬達加斯加」,但係喺「倫」字上面double click,就只係會highlight「倫敦」。佢哋喺斷字辨認方面準確度都幾高。所以我想試吓究竟佢哋係點做,同埋究竟係咪辨認到粵語台語日文呢啲其他漢字語言。 影片示範

專有名詞

我去咗倫敦波哥大加爾各答馬達加斯加美索不達米亞符拉迪沃斯托克睇林忌奧巴馬新垣結衣波多野結衣同愛新覺羅努爾哈赤仲有陳奕迅黃夏蕙羅蘭姐趙本山野比大雄薩卡什維利格奧爾基馬爾格韋拉什維利用google map搵鰂魚涌杏花邨炮台山銅鑼灣油麻地深水埗調景嶺望夫石屯門大圍黃竹坑蔡厝港碧山裕廊喺邊

分析:上面用咗各國地名、歷史人物去測試專有名詞砌咗一句好長好長嘅句子。我專登冇用標點去測試佢嘅segmentation。你會發現國家名同知名人物嘅名都可以認到。似乎長度上有限制長過6個字或者新出現嘅地名人名似乎會有問題 (美索不達米亞、符拉迪沃斯托克、薩卡什維利、格奧爾基‧馬爾格韋拉什維利)。另外地區名 (例如香港嘅「鰂魚涌」,新加坡嘅「蔡厝港」)似乎辨認唔到。人名會分開「姓」同「名」,例如可以試吓上面兩個結衣BB嘅名都係斷開(雖然google波多野應該頭十個關鍵詞都一定係有「結衣」喺後面,但係click 「波」只會highlight姓氏「波多野」)。另外中國大陸嘅名似乎會拆得好過其他名。上面「趙本山」嘅「本山」佢會認到,但係陳奕迅嘅「奕迅」就認唔到。


粵語

戇居詐締屋企鎖匙飯煲梳化櫃桶石屎火牛叉座 瞓覺飲茶飲水食飯收工返學煮餸 瞓晏覺飲涼茶飲汽水食餅乾收功課返公司煮海鮮
食古不化食兩家茶禮食大咗食滯咗食夾棍食咗你隻車 食咗食過食緊食晒食得食勻食嚟食去食落食落去

台語

歹勢日頭厝邊法度時陣人客查某囝仔阿陸仔放屎

日語 (固有詞)

怪我 取扱 我慢 贔屓 七轉八起(七転八起)天地無用

分析:早知試咗呢樣先。原來呢個中文斷字係用國語(Mandarin / Written Chinese / 官話...)做基礎,即使我係打正體字,兩個用正體字嘅語言 (粵語、台語閩南話) 連基本詞都拆唔開。你試吓click粵語、台語部份嘅詞語,你會發現點double click都係highlight一個字,連粵語「屋企」(=「厝」),台語「歹勢」(=「對唔住」)呢啲頻度爆燈嘅詞都冇。但係日語就完全冇問題。好明顯呢個功能中文同日文係分開做嘅。


國語 (本來想用百度關鍵詞,不過實在太暴力喇... )

早上班車間中出現有人無車上有車無人上的狀況。 移民潮過後出現了男少女多的現象。 今天氣死人家啦。
睡覺喝茶喝水吃飯下班上學做菜 睡午覺喝涼茶喝汽水吃餅乾 忽悠他們打發他們理會他尋思他白活一下磨蹭著 很黃很暴力非誠勿擾中國好聲音光棍節阿里巴巴魔獸世界

分析:句子嘅斷詞基本上係做唔到。似乎所有嘅斷詞都係用詞語做單位,而唔會考慮周圍嘅詞性(word class/ part of speech)。Click第二句嘅「男少女多」嘅「少」字,佢會highlight「少女」,Click第三句「天氣」嘅「氣」,會highlight「天氣死」:喺第一句如果你click「上」,Chrome會highlight「早上班」。而唔係頻度較高嘅「早上」或者「上班車」。

似乎佢嘅方法o係由點擊字(char_0)開始,向左邊搵最大嘅邊界 (char_x),條件係 [char_x..char_0]係一個詞。跟住再向右邊搵最長嘅可能,條件亦都係 [char_0..char_y] 係一個詞。Highlight嘅結果就係 [char_x..char_y] 

因為用咗呢個有問題嘅algo,所以先會出現咗一啲古古怪怪嘅highlight。我相信如果有google人見到呢個entry,應該好快就會fix到。

另外新興嘅節目名、新用法,似乎都冇照顧到,不過東北話嘅「白活」、「尋思」、「磨蹭」就冇問題。明明粵語或者台灣國語嘅詞喺網頁上嘅頻率應該好高,但係基本上完全辨認唔到。所以我相信佢嘅單詞詞庫唔係網上收集,而係用咗中國北京-中國東北嘅口語語料庫 (Spoken Corpus),再加入現成嘅專有名詞詞庫。香港、台灣嘅知名人士嘅名冇收錄,可能係因為Google用嘅唔係網上嘅百科全書、辭典。其他可以辨識到嘅生僻人名,可能係喺口語語料庫嘅對白出現。


← 死線 粵語衰亡,有乜可以做? →
 
comments powered by Disqus