中英夾雜兼多語言環境 1823熱線AI聊天機器人如何面對本地化挑戰?

【點新聞報道】自2001年成立以來,1823聯絡中心為香港市民提供全年24小時的一站式服務,解答有關23個參與部門的查詢,並接收市民對部門的投訴。隨着科技發展,「1823」也積極引入創新科技以提升效率。其中,包括推出人工智能聊天機器人和語音版智能助理等。然而,這一過程並非一帆風順,尤其是在面對香港市民多樣化的打字習慣和語言環境,如何訓練具有本地特色的人工智能機器人成為一大挑戰。

人工智能聊天機器人的本地化挑戰

開發人工智能聊天機器人過程中,進行本地化調整是面臨的挑戰之一。二級管理參議主任(聯絡中心及變革管理)許祚浩指出,香港市民的打字習慣非常多樣化,包括手寫錯別字、俗語、純書面語、純口語以及書面語和口語混合使用,甚至中英夾雜的情況也時有發生。這些特性使得在訓練人工智能時,需要準備大量的訓練樣本,以涵蓋同一意思的不同講法。

以國際車牌為例,「1823」總共整理了約12個不同類別的意圖,包括申請資格、所需文件、費用及辦事處地址等。針對每一個意圖,都需要準備超過100個訓練樣本,以應對市民從最廣泛到最具體的各種提問方式。即使如此,許祚浩強調,目前仍在不斷觀察市民真實的問答方法,並用這些真實數據來訓練人工智能,以期達到更高的準確率。

此外,1823的智能助理與市面上其他聊天機器人有所不同。市面上的聊天機器人通常只涵蓋一個主題,如銀行或保險服務,而1823的服務範疇則涵蓋了所有參與部門。因此,當市民提出廣泛的問題時,智能助理需要能夠追問,以幫助市民明確提問範圍。例如,市民可能會問「我可以申請什麼津貼」,此時智能助理需要進一步追問是申請教育資助、交通津貼還是其他社會福利。

應對多語言環境 智能助理亦需「勤力練習」

在語音版智能助理方面,許祚浩提到,他們需要調整文字轉語音和語音轉文字的技術,以適應不同語言的特性。廣東話中有很多不同的口語詞彙,且使用者聲調的細微變化有時會導致人工智能錯誤理解用戶的意思。為了解決這一問題,他們需要單獨針對每一個情景訓練人工智能,確保其能正確認識市民的提問意圖。

普通話和英文同樣存在類似的問題。普通話中,不同字詞的組合和聲調變化規則複雜,而英文中一個字往往就包含中文一個詞語的意思,缺乏上下文或其他字的輔助時,人工智能很難分辨具體意圖,故需要進行了大量的針對性訓練。

隱私保護與高效便捷並行

對於口音問題,助理數字政策專員(聯絡中心及變革管理)林國偉表示,雖然口音和背景雜音等因素會對語音識別造成一定影響,但他們會通過讓用戶重複講述或選擇其他方式來應對。他強調,「1823」的目標是不斷引入更多科技,以滿足市民日益增長的服務需求,並提供更便捷的服務方式。

此外,林國偉提到,「1823」的知識庫和資料庫系統。目前,知識庫包含約700個主題,涉及9000多份文件,以系統化的方式為同事提供相關資料,確保他們能夠即時回答市民的問題。他提到,為保障市民隱私,所有資料都在內部系統中處理。

「1823」提供的智能化服務渠道,已成為市民查詢所需資料的便捷方式之一。數據顯示,在2024年1月至11月,「1823」共有384 萬使用量(佔整體服務55%),包括網上常見問題解答網頁、聊天機器人及透過智能化電話系統發放資料或短訊。

(點新聞記者章芸菲報道)