網路語言學習環境之架構與實作





陳恆佑, 秦其巍, 陳志榮, 石勝文, 洪政欣

國立暨南國際大學 多媒體暨通訊實驗室
南投縣埔里鎮桃米里大學路1號
TEL:(049)910960 EXT. 2537
EMAIL: hychen@csie.ncnu.edu.tw


摘要

  傳統的語言教學需要在一個特定的地點(如語言學習教室)和播放工具 (如教學錄影帶、錄音帶),才能順利的進行語言教學,且一般網路上的多媒體 輔助教學系統無法提供語音與對白文字的同步播放,使得學習效果大打折扣。 為此,本文提出並研發一套協助外語學習的網路多媒體輔助教學系統,其中包 含利用Java語言建立之語言教材作家系統及音質良好的MPEG Audio和資料量(bitrate) 極低的G.723.1(5.3Kbps及6.3Kbps)語音解碼器應用在網路上並以streaming播放的外語文教學系統。 在語言教材作家系統中建立一個將音訊與字幕同步的橋樑系統,使本系統成為 高實用性的輔助教學工具,學生因音訊/字幕同步化的網上學習環境而可更方便 地學習外語言;老師也可透過網路直接編撰外語文/字幕同步的教學教材。





一、研究動機

 

  傳統英語教學模式有許多缺點:學生必須在特定地點(如語言學習教室)上課, 老師必須透過輔助視聽設備(如教學錄影帶、錄音帶)來進行。遠距同步(或非同步) 教學,但多偏重以靜態網頁來輔助教學,顯少針對英語教學進行相關研究。透過其 Streaming技術進行影音傳送/播放,不必等待漫長的下載時間。應用在教學上將有 會有極大的助益。

   然而,針對英語學習來說,學生若只能聽聲音、看畫面而沒有適當的文字旁白輔助 ,學習效果往往大打折扣。現今在網路上常用的多媒體語音教材伺服系統為美國 Progressive Work公司研發的語音編碼及伺服器(RealAudio Server, Codec and Player)[1] ,其提供 bitrate 從14.4K至112K不等的聲音編碼方式以適用於不同的傳輸環境與聲音品 質要求,並且以Streaming技術進行影音傳送/播放。儘管RealAudio系統雖可以實現 speech/audio on demand 的目的,但其並非專為外語學習而設計的系統,沒有考慮 到老師與學生的需求與學習模式,也沒有良好的軟體工具來輔助老師進行影音文字同步教 材的編撰。為改善此缺點,本文擬發展適用在Internet/Intranet[2]上之的遠距英語教學/學習技術, 並研發兩個關鍵系統: (1) Stream-based 語音/音訊解碼系統,(2) 文字旁白/影音資訊 的同步配對(Synchronization Information)編輯工具(Authoring Tool)[6][7][8]以方便老師進行 影音同步教材的編撰。

   接下來的第二節,我們將介紹本系統的架構,在第三節中,會討論到本系統的實作方式與 系統功能,第四節將對系統做性能評估,最後,將談到結論與未來展望。





二、Java-based遠距外語教學/學習系統架構

 

  本文研發一套協助中國學生學習外語的網路多媒體輔助教學系統,其中包括底下的關鍵技術(或軟體元件):

1. 語言教材作家系統(Authoring system)

2. Stream 語音/音訊之解碼器。

3. 音訊與對白文字的同步控制元件及整合播放系統



圖一 : 語言教材作家系統

  圖一顯示語言教材作家系統進行影音資料與同步對白文字之配對處理與音訊/對白文字的同步整合播放。系統旨在讓老師很方便地進行聲音訊號與文字對白教材的同步配對,系統將提供方便的使用操作界面,老師可以利用key-stroke 方式來設定每段文字與相對應語音之同步關係(synchronization stimestamp),以作為將來網路語言教學同步播放使用。接下來,系統自遠端下載將配字幕之影音資料並開始播放,系統會顯示將要配對的同步單元,在影音播放過程中老師藉由按下滑鼠左鍵(或鍵盤)來賦予目前同步單元文字兩個時間戳記(timestamp)分別其代表起始與結束時間,且紀錄在輸出的同步事件檔(Synchronization Event Script)中最後傳送至遠端Java-RMI Server。學生若想點播相關課程,只需連線至指定之Server進行點播,相關的『影音資料』、『文字旁白』及兩者的『同步資訊』(event script)會被傳送至學生端,並由實作出的整合播放軟體進行同步播放。



圖二 : Streaming 音訊解碼系統

  圖二為stream 語音/音訊解碼系統架構,此系統採用Client-Server模式來運作,當server收到client的request(要求)時 ,server根據client端所要求的檔案名稱,尋找出正確的音訊檔案並以stream的方式傳送給client端,並暫存在的buffer中,client端解碼器從buffer讀取來進行解碼,系統必須提供適當的buffer管理程序,以及client-server 互動通訊協定來達到stream 傳送並即時解碼的目的。





三、系統設計與實作

 

1.Streaming 語音/音訊之解碼器

  我們評估目前工業界音訊/語音壓縮標準[9][10]應用在網路語音學習上的效能,並考量資料量(bitrate), 計算複雜度(computing complexity), 聲音品質(voice quality), 實作複雜度(implementation complexity)等因素後。決定實作兩個不同版本的語音/音訊編解碼標準以配合校園網路(Intranet)與網際網路(Internet)的語言學習者需求,分述如下:

  l. MPEG-Audio[11][12][13][14] :

    適用於頻寬較高的網路環境如校園網路內,並支援高傳真的音訊品質。

  2. G.723.1[15] :

    適用於頻寬較低的網路環境如跨 Internet ,可提供可接受的聲音品質。

  為考量JAVA的執行效率,音訊解碼部份將先以native code(如C++)實作。 Java[16]語言的某些優點,必須犧牲對速度的要求來達到,例如在背景執行的garbage collection、多層安全檢查等,這都對整體的執行速度產生影響。另外Virtual Machine動態的將Byte code 轉成機器的機械碼,也是在速度上的瓶頸。雖然許多Java系統使用更快速的執行方法,例如:Netscape 3.0開始使用Just in Time compiler (JIT ),但許多時候速度還是比不上直接用 C 語言來的更直接,因此,我們將streaming播放系統中,容易產生速度瓶頸的解碼部份,使用native method來取代。

  語音/音訊解碼的部份採用C++語言撰寫,並搭配JDK 1.1 提供的一套Java 與 Native method 的 API,稱為JNI ( Java Native Interface )。JNI定義了標準的命名和函式呼叫規則讓 Java Virtual Machine ( JVM ) 知道如何去尋找和使用native method。

2. 語言教材作家系統,音訊與對白文字的同步控制元件及整合播放系統

  語言教材作家系統以JDK 1.1.6[17]開發/實作完成,其中並使用到Java所提供的RMI (Remote Method Invoking)技術,RMI是一種Java 1.1 版以上的程式技術,可讓程式產生一個遠端機器執行的物件。語言教材作家系統會根據老師所要Query的資料(如Text或Audio)向遠端特定的Server發出呼叫行為,於是遠端Text/Audio Server便將資料庫內的資料傳回Client端的語言教材作家系統中,老師可以直接於Client端做同步配對;當配對完成後,語言教材作家系統會將教材編寫後的結果傳回並存入RMI- Server中,如此一來便完成了教材的編輯動作(如下圖三)。



圖三 : 語言教材作家系統架構

  語言教材作家系統採RMI based之Client/Server架構,系統中所有需要用到的Database存取功能乃透過Java RMI package來完成。當我們成功的Query Audio及Text資料後,便可進入TimeStamp編輯畫面做同步資訊編輯,在按下Start紐後,音訊會隨之播放,此時利用滑鼠左鍵來代表同步時間點,使用者可以預覽或修改,在編輯完成後,利用Make鍵來建立Script資訊檔(如圖四),之後便進入如圖五的畫面中。



圖四 : 同步資訊檔編輯畫面

  當我們進入Script Maker後,只要將所要儲存的script檔名、同步音訊檔名、音訊檔屬性,以及Server端位址輸入,便可以製作出script file(圖五)。



圖五 : Script Maker

  圖六為音訊與對白文字的同步控制元件及整合播放系統執行結果,學生欲點播教材時,播放系統音訊會與字幕搭配並依照所指定的script file與指定的Server(Connection Address)作聯繫並播放﹕



圖六 : 音訊與對白文字整合播放系統





四、系統性能評估

 

  在Mpeg Audio方面,我們根據實際上線時,學生所能接受的清析度為標準,採用取樣頻率44.1 KHz單聲道,以及資料量64 Kbps,有成效極佳的效果。 在G.723.1音訊部份,使用資料量為6.3 Kbps的編碼方式。以下性能測試分為兩部份:

1. 語言教材作家系統:

  使用對象為教師,目前已測試共有10位教師可同時上線作教材編輯,而系統介面操作的難易度,均在每位教師可接受的範圍內。

2. 音訊與對白文字的同步控制元件及整合播放系統:

  使用對象為學生,在LAN(校園)的環境中,以預估頻寬3 Mbps為標準且音訊無延遲的情況下,若採Mpeg Audio資料量64 Kbps作測試 ,可得到系統上線人數理論值為40人左右(約一個班級人數),G.723.1音訊目前尚未完成在Internet上的測試 ,不過在LAN的環境中,可有450人左右的理論值。





五、結論與未來發展方向

 

  在本論文中,我們研發了一套在網路遠距語言學習之client-server 架構系統,本套系統的目的是在發展一套本土化的網路多媒體語言教學輔助系統,系統成品將可廣泛地應用於國內各級學校單位,具有相當的實用性及研發價值,驗證於Internet與NII近期的發展,可以明確地看出其需要性與迫切性。 在未來, 我們將結合下面技術以方便老師在語音教材上的編寫:

1. 新增音訊與字幕自動同步化功能,減少老師更多的不便

2. 新增自動辨識語音成字幕功能,使老師不用再行輸入字幕檔

3. 加入視訊處理功能,使得使用者可搭配字幕/音訊/視訊三者同步,使系統實用性更加完備。

  本系統架構不只可用在遠距英語學習,並為遠距教學提供了一個良好的技術應用,現今遠距教學研究若能結合此技術,必能如虎添翼。





參考文獻

[1] Real System, http://www.real.com.

[2] Berners-Lee, T., et al., "The World Wide Web," Communications of the ACM, Vol. 37, No. 8, pp. 76-82, 1994.

[3] Flanagan, J. L., "Technologies for Multimedia Communications," Proceedings of the IEEE, Vol. 82, No. 4, pp. 590-603, 1994.

[4] Blakowski, G., and Steinmetz, R., "A Media Synchronization Survey: Reference Model, Specification, and Case Study," IEEE Journal on Selected Areas in Communications, Vol. 14, No. 1, pp. 5-35, 1996.

[5] Chen, H. Y., et al., "Design of a Video-On-Demand System and Its Implementation on Ethernet LAN," Proceedings of International Computer Symposium, Hsinchu, Taiwan, Vol. 1, pp. 376-381, 1994.

[6] Chen, H. Y., et al., "A Novel Audio/Video Synchronization Model and Its Application in Multimedia Authoring System," Proceedings of International Conference on Consumer Electronics, Chicago, pp. 176-177, 1994.

[7] Herng-Yow Chen, Ja-Ling Wu, "MultiSync: a Synchronization Model for Multimedia Systems," IEEE Journal on Selected Areas in Communications (JSAC), Vol. 14, Num. 1, pp. 212-225, January 1996.

[8] Herng-Yow Chen, Chi-Wei Chin, Ging-Yi Chen, Sheng-Wen Shih, Jen-Shin Hong, "A WWW-based Framework for Language Listening Comprehension Training, " IEEE Third International Conference on Multi-Media Engineerig and Education(MMEE98), Vol. 18, Hongkong, 1998.

[9] Ehley, L., "Evaluation of Multimedia Synchronization Techniques," Proceedings of IEEE International Conference on Multimedia Computing and Systems, Boston, pp. 514-518, 1994.

[10] Spanias, A. S., "Speech coding: a tutorial review," Proceedings of the IEEE, vol. 82, no. 10, pp. 1541-1582, Oct. 1994.

[11] Pan, D., "A tutorial on MPEG/audio compression," IEEE Multimedia, vol. 2, pp. 60-74, Summer 1995.

[12] Li-Wei Wang , "Introduction to AC-3 and MPEG-2 Multi-channel Audio Compression" , CCL TECHNICAL JOURNAL , Vol 58 , pp19-26 , 1997.

[13] "Perceptual Audio Coding" , CCL TECHNICAL JOURNAL , Vol 39 , pp3-12 , 1995.

[14] Hsun-Chang Hsieh , "The Applications and Development of Speech Coding" , CCL TECHNICAL JOURNAL , Vol 49 , pp3-10 , 1996.

[15] "The standardization of G.723.1", from ITU-T, 1996

[16] "The Java Tutorial," http://java.sun.com/docs/books/tutorial/index.html.

[17] "JDK 1.1.6 Document," http://java.sun.com/products/jdk/1.1/docs/index.html.