為了搶救流失日益嚴重的客家話,除了透過研究、教學來推廣保存,您還有想到什麼方法呢?客委會從106年起,開始啟動”台灣客語語料庫建置計畫”,這個台灣第一個本土語言語料庫,預計111年底會正式上線,在政大的建置團隊裡頭,除了有語言學家,更包含資訊專家及傳播學者,大家共同思考要如何將這一筆筆,費時費力仔細收錄起來的書面文字及口語語料,讓電腦如何”學得會”,之後如何透過結合AI技術,開發出更多應用在長照、翻譯、教學等面向的應用加值,更是團隊成員努力的目標。
這20萬字都已經有經過轉寫,所以薪傳師處理的就是,已經轉檔好了,就是處理一校的部分。
今天會議討論的重點是,緊盯各項計畫進度。
因為我們有四個不同的詞性,或不同的意思嘛,所以它是分成四筆,還是說一筆。
台灣客語語料庫建置計畫成員,每個月至少一次,都會像這樣齊聚一堂,找來技術人員,把所有疑難雜症,一次拿出來通通解決。
[計畫主持人 政大英文系教授
賴惠玲]
最重要的是,大家都知道台灣的客語已經,雖然說很多腔調,可是現代客家人很多, 很多人不會說客家話了有沒有,現代客家人很多不會說客家話,自己是客家人不太會講客語,那更不必講,自己不是客家人,也不知道客語是什麼這樣,所以這個,整個在台灣客語的典藏跟保存,語料庫的建立就非常的重要。
語料庫是指透過大量蒐集文本,並依照每個詞語的意義及語法功能,再將它們分門別類,不僅記錄了當時的語言,也具有學習、教學等應用功能。國內像是由中研院所建置的”現代漢語平衡語料庫”,是世界上第一個具有完整詞類標記的漢語平衡語料庫,早在1990年代就開始有了雛型,相較之下,台灣客語語料庫已經慢了整整卅年。
[共同計畫主持人 政大傳播學院副院長
劉慧雯]
語言是會變的,然後我們30年前講的客語,跟現在其實有很大很大的變化,不同場域的人,面對不同的現況,他所說出來的客語,也會有很大的不同,那因為如此所以語料庫它必須要有一個平衡的概念,就是以前的也要收,現在的也要收。
去年11月,客委會風光舉行記者會,發布台灣第一個本土語言語料庫階段性成果,目前這個台灣客語語料庫已經蒐集書面語料500萬字、口語語料10萬字、單篇文章也有149筆。
[客委會 主委
李永得2019.11.29]
透過我們的數位化,來做一個保存,最重要是可以將來,包括語言的學習,推廣啊,保存、研究,可以做很大的貢獻。
一本本的刊物,堆得就像是一座小山,裡頭有客語散文、小說、辭典,甚至是故事集,這些都得經過工讀生,一行一行仔細掃描,再逐字校對。
[計畫主持人 政大英文系教授
賴惠玲]
長期以來我們客家的鄉親,很多人,他投入這個文字的創作,用客家文字來寫小說啦,或者寫詩啊,就很多文字的創作,然後另外就是口語的部分嘛,我們知道台灣有四海大平安對不對,有四海大平安五腔六調,所以我們也透過這個口語語料的採集,把它收錄下來這樣。
[影片提供 台灣客語語料庫辦公室
建置語料庫,是一件浩大的工程,但除了記錄書面文字,為了蒐集最”自然”的語言,計畫人員偶爾也得出動進行田野調查。
我覺得剛剛師母的,唸的童謠,她說有兩個版本耶,我開始啊,月光亮亮,女孩煮茶,哥哥拿椅子,客人喝茶,小姑姑洗澡,手巾掉了,被誰撿到,嫂嫂撿到,要還我還是不還我,大哥回來會打,小哥回來會罵
像是與耆老閒話家常、唸童謠,通通都是記錄語言的一種方式,但語料蒐集回來了,真正的工作才剛要開始。
[計畫主持人 政大英文系教授
賴惠玲]
客家話還是,你看這個字,這個字寫起來就是,華語的好對不對,可是在這邊的話是阿義最愛玩,這邊是有正當的理由可以玩水,那你讀起來就不一樣,講話的時候可以分開來,可是你在電腦裡面,你沒有把它斷詞斷開的話,你就沒有辦法了解說有這樣
漢語有一字多音,並經常會同時伴隨著多義的語言現象,想讓冷冰冰的電腦搞懂,這份重責大任,最後還是得交給人腦。
[畫面提供 台灣客語語料庫辦公室
[共同計畫主持人 政大資科系教授
劉吉軒]
像我們現在要訓練,電腦聽得懂我們客家話,譬如說客家話我們如果說有一萬個詞好了,我們還有六個腔調,我們就要一個一個來教電腦,你可以錄音,你可以請人,發音比較正確的人,我們就要一個一個來發音,要錄起來,輸入到電腦裡面,之後還要再訓練它,那就是前面的工作是很花時間的。
隨著時代發展,語言也會與時俱進,像是”漢堡”等新創詞彙,也開始進入客家話當中,研究人員透過電視、及廣播等傳播媒體,替這個世代的客語留下記錄。
[共同計畫主持人 政大傳播學院副院長
劉慧雯]
它面對的是今天、現在的觀眾,然後它面對的是今天、現在發生的事情,所以它必須要依照我們生活的內容裡面,有時候甚至要發明一些說法,比方說我們在報導國際情勢的時候,美國總統的名字要怎麼念,那個一定是事情到了,他當選了我們才知道,所以客語它能不能與時俱進,其實是在廣電媒體裡面看得最清楚。
把語言收錄下來,不只是單單用來保存,如何加值應用,才是語料庫團隊未來的發展重心。
[共同計畫主持人 政大資科系教授
劉吉軒]
譬如說我們說長照,跟老人家的對話這些,我們就可以透過電腦來協助,或是說我們可以,我們要教小朋友,要教國小的小朋友客家話,也可以像電腦就可以進來幫忙,像電腦就可以進來幫忙,或是可以,譬如說開發電腦的遊戲,讓小朋友玩,他就可以把客家話的學習,融入在遊戲裡面。
這項為期五年的計畫,從語言保存的角度上來看,只是個開始,卻是挽救客語的重要工作。
採訪/撰稿 陳沿佐
攝影/剪接 陳靖維
留言列表