線上適性整體評量環境之研究

孫光天 *陳新豐 楊振印 戴伯昌

國立台南師範學院資訊教育研究所

*國立台南師範學院國民教育研究所

E-mail:ktsun@ipx.ntntc.edu.tw

摘要

  在本研究中,我們整合了線上測驗技術,適性測驗原理與模糊化評技巧等相關科技,設計出一線上適性整體評量環境,大大擴展了評量之運用環境與領域,使傳統評量之功能與範圍,不再僅限於單科、紙筆且定點與定時之能力評量;,此外,本系統中亦結合多媒體編輯器之設計,可供出題者容易編輯多媒體之適性(三參數)題目與題庫,使線上測驗題目與題庫之建立,不再須由電腦專家才能完成,對測驗之運用將更靈活且有彈性,對學生之學習成效評量,提供一更公平、客觀且人性化之整體評量環境。

一、研究動機

        電腦化適性測驗係結合項目反應理論、適性測驗、電腦科技而形成的一種智慧型測驗方式(Weiss,1984;何榮桂,民80;何榮桂、杜玲均、莊謙本,民87;孫光天、陳新豐、吳鐵雄,民87)。其特點在於適時呈現適合考生能力的題目,而縮短受測的時間。同時,因係由電腦顯示出題、線上評分而具有較佳之客觀性(Lord,1980)。電腦化適性測驗的出題方式是針對受試者能力高低來決定,因此不管考生的能力多高或多低,都不會感到太難或是太容易,由於每個試題對考生能力的估計都有功能,因此不需那麼多試題就可在較短的時間內精確測量考生的能力(吳裕益等人,民80;何榮桂、蘇建誠,民86;何榮桂、郭再興,民86;何榮桂、杜玲均、莊謙本,民87),然而在傳統整體評量的方式,均採用各科成績加總之後再加以排序(Stanley and Hopkins,1972)。因此,若一學生考了五科,其中四科均為全班第一(但其它同學成績之間相距不遠),而第五科成績該生只考全班第十名,差前九名較遠,經五科加總之後,該生仍為全班第十名,此種整體評量的結果,否定了該生在其它四科優秀的表現,是欠公平,故本研究在學習的評量診斷方面,提出以模糊理論(Zadeh,1965),進行相對式的整體評論。此外,對於一些評量規則,也以模糊推論(Yamashita,1997)方式建立,使評量更具彈性化,以合乎實際狀況需求。

        目前電腦化測驗的發展,學者Mark(1997)認為有兩個技術之運用,對未來發展可能有明顯的影響:一是多媒體電腦技術的運用,它可使測驗藉由電腦模擬的方式,呈現更接近真實生活的問題;二是人工智慧的應用,它可以讓電腦會表徵測驗所欲測量的知識,與技巧的建構受試者的狀態。因此,本研究評量之媒介為建立在多媒體的環境之上,並整合上述線上適性測驗系統與模糊理論的整體評量成為一線上適性整體評量系統。

二、文獻探討

        文獻探討部份共分為三個部份,第一部份探討電腦化適性測驗心理計量上之基礎、組成要素、選擇及計分方式,以歸納出本研究適性測驗系統理論的基礎。第二部份則分別說明模糊理論應用於學習評量上之機制,以為本研究整體評量設計之依據。第三部份則探討建置多媒體線上適性測驗系統之意義及時代趨勢,以為建置本研究中多媒體題庫建置系統設計之參考。

(一)電腦化適性測驗

        近年來電腦測驗(computer test)結合項目反應理論及適性測驗之優點,己發展成電腦化適性測驗(computerized adaptive testing)。這種施測方式乃是電腦依據受試者估計的能力水準估計值自動選擇符合受試者能力之題目來加以施測,且可隨時依據受試在新呈現的題目答題的對與錯情形,更新受試者的能力估計並據以選取下一題目,直到受試者能力之估計已相當地精確為止。此種施測方法,每位受試者被施測之題目不同,施測時間及題數也可以不同。可以在較少的題數達到事先設定的某一精確水準,精確地估算出受試者的能力。

  1. 電腦化適性測驗之心理計量基礎
  2. 電腦化適性測驗之興起,除了電腦科技的日新月異之外,其主要的理由乃是解決了在古典測驗理論上受樣本限制、缺乏題目訊息、平行測驗編製困難的難題,改採用自1950年代掘起的項目反應理論(item response theory,IRT),運用項目反應理論具單向度、局部獨立、每題皆有題目特徵曲線、答題時沒有時間的限制等特色,建構精準有效的良好測驗。
  3. 電腦化適性測驗的要素
  4. 電腦化適性測驗的研究課題常包括測驗模式、測驗的起始點、題庫的性質、項目的選擇方式、測驗的終止與計分等(Weiss & Kingsbury, 1984; 吳裕益,民80;王寶墉,民84;何榮桂、蘇建誠,民86;何榮桂、郭再興,民86;何榮桂、陳麗如,民87;祝鈞毅、黃國禎,民87;孫光天、陳新豐、吳鐵雄,民87;吳鐵雄、孫光天、陳新豐,民87)。設計電腦化適性測驗系統時,每一要素都有幾種可能的選擇,設計者可依測驗目的作適當的選擇。
  5. 試題選擇的方式>
  6. 目前在電腦化適性測驗最常用的方法是最大訊息法(Weiss,1982)及貝氏法(Owen,1969;1975)。這二種方法都是由題庫中尚未施測的試題中選出一題。

    (1)最大訊息選題法

    最大訊息法是選擇對受試者目前的能力能提供最豐富的題目,項目訊息依(Hambleton & Swaminathan,1985)之定義為:

                                                                  (1)

            三參數對數模式的訊息則為:

                                                              (2)

            其中,        ,                        (3)

                                                                         (4)     

            其中a是鑑別度參數,b是難度參數,c是猜測度參數。

            假如是二參數模式,則c即為0;單參數模式則a為1.00。

            將考生能力代入公式中的θ,題庫中所有試題的訊息都可以算出,而具有最豐富訊息的題目就用來施測。這種選擇的方式可以使訊息量達到最大,由於訊息與估計誤差成負相關(Lord,1980a),這種選題的方式可以使每一位受試者能力的估計誤差降到最低(Hung,1988)。

    (2)貝氏選題法

            貝氏選題法是假定能力的先驗平均數為0,變異數為1。受試者做完一題,即可估計其能力的後驗變異數,較小者為選題的依據,並以新的能力估計值及變異數做為估計數(Hung,1988)。

    4.計分方法

            電腦化適性測驗的能力估計法大部分是採用最大可能性或者是貝氏法(Bejar & Weiss,1979)。貝氏法(Owen,1969;1975)能提供能力完整的估計,即使受試者的反應為全對或是全錯,也能估計。當受試者只答一題或其反應向量為全對或全錯時,則最大可能性法無法估計。貝氏法的優點是全對與全錯也可以估計受試者的能力,但是有向平均數迴歸的現象,尤其是在較短的測驗中,這種迴歸的影響頗大(Weiss & McBride, 1984)。當測驗長度很長時,最大可能性法是受試者能力的不偏估計,所以如果能在適性測驗的前段採用貝氏法,後段採用最大可能法,那麼能力的估計可以在較短測驗中達到不偏估計值(Hung,1988)。

            本研究中的線上適性測驗選題策略即是以最大訊息選題法,能力計分方式以貝氏能力計分法來估計。

    (二)模糊評量機制

            系統中,我們使用一個模糊評量機制,使學生的整體評量可以更加完善且更容易做適性調整。基本概念是採用模糊推理法則將整體評量規則定出,每一變數(如:優,好和中等)以班上標準化(正規化)後能力值之平均及標準差方式建立(如圖一所示),採用一相對值方式的歸屬函數,在圖一中,我們以全班最高分表示優,最低分表示劣(視為常態分配),以全班能力值之平均值定為中等,A與B兩點,為平均值加減一個標準差(S)值 (Wonnacott and Wonnacott, 1985),分別表示中上與中下,再將這些點做為三角形的底邊的頂點,分別建立五個三角形的歸屬函數,所以,除了分數〝中〞的歸屬函數為等腰三角形外,其餘不一定為等腰三角形,因此,若有二科欲進行綜合評量,則先求各科歸屬函數(採用Min方式),再綜合二科歸屬函數成為另一新的歸屬函數(採用Max方式,如圖二所示)。在圖二中,H表最高分,M表平均分數,L表最低分,T表某生測驗之能力估計數(標準化後)。最後,綜合評量結果之歸屬函數以我們研究的多維模糊列等值法(K. T. Sun, C. I. Wang and C. Y. Huang, 1997)進行反模糊化,得到最後評鑑點,再依此評鑑點,則可進行全班學生整體排序,如此,將比傳統加總法排序更能反應整體的學習成效。

    圖一:模糊歸屬函數表示成績之狀態

    圖二:測驗成績模糊評量與綜合評量方式

    (三)多媒體

            從一九九0年代,因為科技的進步,電腦不僅從黑白彩色時代,更加上可以直接儲存、處理、操控影像和語音的能力,使得『多媒體』一詞的時代意思成為『電腦多媒體』。當然,在時代的巨輪持續滾動,科技的進展日有新貌,也許在二十一世紀,多媒體的時代會是虛擬實境(Virtual Reality)多媒體呢!(計惠卿,民86)

            本研究考慮到多媒體與教學評量工具的整合是時代的趨勢,所以研究在線上電腦化適性測驗中,加入多媒體題庫建立界面(編輯器),使整體評量環境更臻完善。

    四、系統架構及系統規格

    (一)、系統架構

            本研究之系統架構,以網際網路上能執行運作為主,基本架構如圖三所示。

    線上適性測驗系統以主從架構(client/server)的internet作為網路骨幹,以windows NT作為工作平台,由server端(web server)負責client端(browser)的管理控制,當資料在client端做前置處理後,傳回server端的題庫系統(SQL server)配合出題。

             為避免網路傳輸時擁塞的情形,及施測時學生作答的獨立性,以VB script、Active Server Pages、Active X為基礎,負責撰寫client端前置作業之準備,如成就估計、試題選擇判斷等等。而在後端處理上,以Visual Basic為Web server和SQL server溝通的橋樑,負責記錄測驗結果,試題選取等。

    圖三:整體線上適性評量系統架構示意圖

    (二)、系統規格

  7. 本研究鑑於經費因素與後續維護支援問題,採用工作站等級之個人電腦作為工作平台,相關之軟硬體設備規格及使用之測驗如下:
  8. 1.伺服器端:

  9. (1(1)網路作業系統為Microsoft Windows NT 4.0中文版。

    (2)資料庫管理系統為Microsoft SQL Server 6.5。

    (3)全球資訊網瀏覽器為Microsoft Internet Explorer 4.X中文版。

    (4)Real Video Player Server軟體、Real Video Encoder影像轉換軟體。

    (5)HTML網頁編輯軟體使用ASP,Java Script,及VB Script軟體工具。

  10. 2.使用者端:

  11. (1)作業系統使用Microsoft Windows 95中文版。

    (2)全球資訊網瀏覽器為Microsoft Internet Explorer 4.X中文版。

    (3)Real Video Player 5.0中文版。

  12. 五、操作方式及運作流程

    (一)多媒體題庫建置系統

            本研究提供一親和性極高的多媒體題庫建置系統之工作平台(如圖四所示),係以VB5.0開發完成的視窗軟體,為一強調操作簡易但功能完整之人機介面,其操作流程如圖五所示,由出題者利用本工作平台內建的各式各樣多媒體套件,能快速地建立或修改題目或題庫,題目確定後,能彈性的組合成一題庫,並存於伺服器上的SQL server來管理題目,以便受測者透過全球資訊網快速自遠端端取得受測題目。

       

    圖四:多媒體線上適性測驗系統工作平台

    圖五:題目與題庫建立流程圖

    (二)模糊推論與評量之運用

            系統評量可將受試者各方面表現建立一評量規則庫,做為整體評量之依據,而這些規則均可以模糊方式陳述,再進行模糊推論,則可得一整體評比;今假設有部份規則如下:

    規則1:假如考試成績能力優且上課表現佳,則學習成果優;

    規則2:假如考試成績能力中上且上課表現佳,則學習成果中上;

    規則3:假如考試成績能力中上且上課表現尚可,則學習成果中等;

    規則4:假如考試成績能力中上且上課表現差,則學習成果中下;

            若一受試者考試成績與上課表現可符合規則1和2,最後之結果,以模糊推論表示,將如圖六所示。最後之模糊歸屬函數,再經多維列等值法,可求得一中心點(centroid point),以進行整體評比。

    圖六:模糊推論於規則1及規則2之呈現

    (三)線上適性測驗系統施測流程(如圖七所示)

  13. (1)受試者透過瀏覽器連上本系統之WWW系統。

    (2)測驗開始之前,受試者輸入基本資料,瀏覽器一方面檢查受試者的基本資料驗證,一方面顯示指導語,然後將此基本資料傳回伺服器端。

    (3)伺服器端由題庫中擷取ID所對應的題目,並傳至用戶端。

    (4)用戶端計算傳輸時間以計算網路上的傳輸速度,以決定是否要繼續施測。

    (5)用戶端將試題呈現在螢幕中,並計算受試者反應時間,待受試者答題之後,即記錄反應時間。

    (6)由作答結果,檢測是否達到終止條件。終止標準:題數超過20題或事後分配的標準差(PSD)<=0.250。計分方式:二元計分。選題策略採用最大訊息選題法,訊息的計算方法如式(2)。

    (7)若未達到終止條件,選出下一個題目,再傳至client端。

    (8)重複(3)(4)(5)(6)(7)步驟,直到符合終止條件為止。

    (9)測驗終止後,將受試者資料送至server端儲存,並依據受試者之反應利用模糊評量機制給予適當的解釋與建議。

    圖七:線上適性測驗施測流程圖

  14. 五、結論與未來發展方向

            本研究結合模糊評量機制、教育測量與多媒體的理論,突破傳統式測驗上的時空限制,不再只是侷限於紙筆式測驗,而是可以讓受試者在遠端,透過網路接受測驗,並進行整體性的評量,使受試各方面的成就均能適當地反應在整體評比中,更能符合當前教育發展的趨勢。

      本研究在線上適性測驗系統以題目反應理論為其理論基礎,再利用多媒體題庫建置系統建置線上適性測驗所需題庫,在整體評量方面建置模糊規則庫,對評量之應用更具彈性,更能反應受試者各方面成就的整體性表現,完成一整體性的線上適性評量系統。

      希望本研究對於適性測驗、線上測驗、多媒體技術與整體性評量技術等各方面,提供一別於傳統、評量的技巧,對學生之學習成效,提供一更公平、客觀且人性化之整體評量環境。

    六、參考文獻

  15. Bejar, I.I., Weiss, D.J.(1979). Computer programs for scoring test data with item characteristic curve models. Research Report No. 79-1. Minneapolis: Department of Psychology, Psychometric Methods Program, University of Minnesota.

    Bock, R. D. & Moislevu, R. J. (1982). Adaptive EAP estimation of ability in a microcomputer environment. Applied Psychological Measurement, 6, 431-444.1

    Hambleton, R. K. , & Swaminathan, H. (1985), Item response theory: Principles and applcation. Boston: Klvwer Nijhoff.

    Hung, P. (1988). Application of computerized adaptive testing to the University Entrance Exam. Of Taiwan, R.O.C., Ph. D Dissertation, University of Minnesota.

    Lord, F. M. (1980). Applications of item response theory to practical problems. Hillsdale, N. J. : Erlbaum Publishers.

    Mark D. Reckase(1997). The Next Generation of Computerized Tests: Implications for Testing of Advances in Multimedia, Intelligent Tutoring Systems, and Language Processing。 American College Testing Program,教育測驗新近發展趨勢學術研討會論文集,13。

    Owen, R. J. (1975). A bayesian approach to tailored testing (Research Bulletin No. 69-92). Princeon, NJ: Educational Testing Service.

    Standley, J. C. and Hopkins, K. D. (1972). Educational and Psychological Measurement and Education. New York: Prentic-Hall.

    Weiss, D. J. & Kingsbury, G. G. (1984). Application of computerized adaptive testing to educational problems. Journal of Educational Measurement, 21, 361-375.

    Wonnacott, R. J. and Wonnacott, T. H. (1985). Introductory Statistics. New York: John Wiley and Sons.

    Yamashita, T. (1997). On a support system for human decision making by the combination of fuzzy reasoning and fuzzy structural modeling. Fuzzy Sets and Systems, 87, pp. 257-263.

    Zadeh, L. A. (1965). Fuzzy Set. Information and Control, 8, pp. 338-353.

    王寶墉(民84)。現代測驗理論,台北:心理出版社。

    何榮桂(民80)。電腦化測驗概述。現代教育,第18期,121-129頁。

    何榮桂(民80)。題庫中項目參數分配型態對電腦化適性測驗選題的影響。中國測驗學會,測驗年刊,38輯,71-96頁。

    何榮桂、杜玲均、莊謙本(民87)。改良式之灰色預測電腦化適性測驗選題策略。第七屆國際電腦輔助教學研討會大會論文,393-400頁。

    何榮桂、郭再興(民86)。網路化適性測驗系統。第六屆國際電腦輔助教學研討會論文集,186-193頁。

    何榮桂、陳麗如(民87)。電腦化適性測驗題庫品質管理策略之研究。第七屆國際電腦輔助教學研討會大會論文,409-410頁。

    何榮桂、蘇建誠(民86)。遠距適性態度測驗系統設計。第六屆國際電腦輔助教學研討會論文集,175-185頁。

    吳裕益、陳英豪、洪碧霞、楊家輝、劉明秋、丁振豐、葉千綺(民80)。國民小學高年級數學能力電腦化適性測驗之研究。國科會專案研究,未發表。

    吳鐵雄、孫光天、陳新豐(民87)。國民小學線上適性測驗系統之建構。第十二屆電腦輔助教學研討會論文集。

    計惠卿(民86)。CAI課程軟體編製技術參考手冊--漫談多媒體與超媒體CAI(上)。教育部電子計算機中心簡訊,民85年07月,5-12頁。

    孫光天、陳新豐、吳鐵雄(民87)。線上適性測驗回饋對作答情緒與動機影響之研究。第七屆國際電腦輔助教學研討會學生論文專題論文彙編,9-14頁。

    祝鈞毅、黃國禎(民87)。網路智慧型多專家測驗資料庫重複性、一致性及完整性分析,第七屆國際電腦輔助教學研討會大會論文,337-343頁。