2010年10月23日 星期六

國內中文字碼之發展

作者: kuangjc5566 (匡匡56) 看板: Gossiping
標題: Re: [論卦] PTT 真的是不支援 Unicode
時間: Mon Aug 31 15:50:57 2009

說到中文字碼的歷史 真是他X的一本爛帳
為什麼會有那麼多字打不出來或系統衝突呢
這真是說來話長
有一篇文章已經很久了 我現在貼出來給大家看
讓那些不要臉 不懂又要面子 亂搞的人 不要被大家遺忘


 --------------------------------------------
 發信人: rux@cis_nctu (亦驢), 信區: 'Chinfost'
 標  題: 國內中文字碼之發展
 發信站: 交大資科_BBS (Wed May 28 20:55:57 1997)
 來  源: 140.116.253.216

     我國最早之中文字碼為民國六十九年提出之「中文資訊交換碼」 (Chinese
 Character Code for Information Interchange, CCCII)。訂定此碼的原動力是
 美國急需使用電腦處理東亞語文資料,因此派遣負責人赴東亞考察。當時只有日
 本訂定資訊碼標準 JIS C 6226 。在「只此一家,別無分號」的情況下,美方初
 步決定採用此標準。我華裔美國亞東圖書館代表與我國代表極力反對,說明日本
 漢字無法代表中國文字的理由,並允諾四個月之後提出我方之標準。

     我方代表返國之後,上書政務委員李國鼎及國科會、中美會等單位,集合國
 內一批文字學家、圖書館學家、以及電腦學者,組成臨時性質之任務編組──國
 字整理小組。經過謹慎考察、研究,一套涵蓋中日韓各國語文、以及繁體、簡體
 、異體等等之「中文資訊交換碼」出爐了。此碼終為美方接受為處理中日韓資料
 之正規標準。至今仍有許多圖書館系統採用,因為只有此碼才能擔當這個重任。

     CCCII 在國外受到歡迎,在國內卻遭受排擠。有心人士或是想在歷史留名;
 或是自認官大學問大。用盡各種方法打擊 CCCII,並玩起編碼遊戲。這個遊戲,
 為咱們中文字碼的悲劇「萬碼奔騰」揭開了序幕。我想這個編碼遊戲,至少讓國
 內的資訊工業停滯五年。

     下列兩本書,詳細記載了這一段歷史,以及  CCCII 的技術資料。在本文之
 後,我從第二本書抄錄一個章節,供無法借到這兩本書的網友參考。打這篇文章
 的目的,一方面是前一陣子有許多網友詢問到 CCCII;另一方面,讓網友瞭解現
 在我們使用的中文內碼的訂定過程是如何草率。

     一、書名:中文字碼:萬碼奔騰,一碼當先
         作者:黃大一
         出版:永麒科技

     二、書名:國字整理小組十年
         作者:謝清俊、黃克東
         出版:資訊應用國字整理小組

 ========================================================================
   以下文章摘錄自「國字整理小組十年」p15-p18
 ========================================================================

 四、國內外局勢之發展

 (一)國內中文字碼之發展

     國內有識之士早在民國六十六年起,就多次提起制訂中文字碼的事情。可惜
 當時由於國內沒有標準字形而受阻。此事在六十七年、六十八年之國建會及近代
 工程討論會中,亦曾討論,甚至有決議作成。然而終究因字形整理的問題而拖延
 著。至六十八年,教育部公佈了 4808 個常用字的標準字形後,編字碼的是才有
 一線希望。

     中文資訊交換碼之所以能在六十九年三月發表,實拜教育部公佈標準常用字
 形之賜。然而,在當時,除上述之標準字形外,餘無標準字形。於是國字小組只
 得負擔起後續的工作,以期能在七十年將 CCCII  擴充到可實用的字數,並能符
 合國際上日益迫切之需求,來維護我們的傳統文字。

     當民國六十九年三月中文資訊交換碼發表之事傳到國內以後,並未受到應有
 的重視和獎勵,反而引起了杯葛、謾罵、和各種侮辱的情形,此誠始料未及。

     引起這種情況的主要原因是:在六十八年國建會的建議中,曾建議我國編中
 文字碼,而行政院將此案交主計處電子處理資料中心研究。因此,該單位獲知
 CCCII 發表後,赫然震怒。認為國字小組破壞政府體制,此事應該由他們做才是
 。於是在民國六十九年五月,召開會議決定要另做一碼。當時國字小組有人出席
 該次會議,曾即席說明編制 CCCII  之原委,並說明 CCCII  發表時沒有作者,
 中心合作或甚至交給他們繼續未完之工作,大家戮力一致對外。非常可惜的是此
 建議並未為主計處電子處理資料中心接受,反而一意孤行,非另做一碼不可。

     為協調此爭執,有該年九月間在溪頭開的會議。在溪頭開的會議中,國字小
 組代表對編碼的作業有詳細的報告。在當時,國內翠於 ISO  資訊交換的相關標
 準之了解實在貧乏的可憐,與會人員不明白 ISO 646  及 ISO 2022 是做什麼的
 ,因此對 CCCII  之編碼技術無法體認。當然也就不明白 CCCII  的長處了。國
 字小組之成員雖然全力說明,然而在主事人以政治手段解決技術問題的作法之下
 ,以為再編一碼亦非難事,而且還可以平息爭端,斷然宣佈要再設計一碼作為解
 決之道,由此開啟了中文字碼十年混亂之情,迄今仍然遺禍社會無法解決。

     經溪頭會議後,主計處電子處理資料中心邀王金土根據決議所編之碼為「中
 文資訊標準碼」,並於民國七十年發表 (記錄上是二月,而事實上到六月才完稿)
 。此碼完全不理會 ISO  之相關標準,獨斷專行,在碼的結構上主觀幼稚,在文
 字上則由個人任意挑選。當然,這種碼是不能用的,然而主事者並不相信,反而
 行文各單位要求採用。經過日本 NEC 及 FACOM 之技術人員在警政署強烈抗議之
 下,才明白此碼真不可用,只得偃旗息鼓自行收回。然而其耗費之公帑,即以印
 刷而言,上千本二吋厚之巨著就此報廢,更遑論其人力、物力,和時間之投入,
 合法之浪費莫以此為甚。

     事實上,由此事件之教訓,主事者應該明白溪頭會議之錯誤,以及編碼是涉
 ,也就罷了。可嘆的是,在此過程中,主辦單位應用各報章媒體,造成許多打擊
 國字小組,對 CCCII  之技術成就惡意曲解,似是而非的謬論,一意認定他們自
 國字小組,對 CCCII  之技術成就惡意曲解,似是而非的謬論,一意認定他們自
 己是對的。當發現所編的王金土碼不能時,竟惱羞成怒,執意非再做一個碼不可
 。至此情形,已非理性之爭,而是以一己之私,一念之差,置國家社會利益不顧
 地孤行到底了。

     於是主事者另起一灶,又行設計第二套碼,在民國七十一年七月發表,這碼
 名為「中文資訊標準交換碼」。然而,此碼並未完全做完,同年九月又補充附冊
 。這些碼雖然號稱採用 ISO 646  及 ISO 2022 標準,然而,又不真正認真執行
 ,所以徒具虛名,且七月發表和九月補充的字碼均不同, (詳情請月表一) 。當
 然此碼依然不能用!

     雖然又失敗了,可是主事者巧言隱瞞事實,暗地裡再整旗鼓,又做一碼: 「
 通用漢字標準交換碼」並於民國七十二年十月發表。經過以前這許多失敗之經驗
 ,又從 CCCII  學到不少技術,這一次充滿信心竟以國家標準為支柱,以行政命
 令強行推銷此碼,此舉已干犯到國家標準不是強制性質的原則了。雖然此碼修正
 了許多過去之缺失,也越來越神似 CCCII,可是主事者所堅持的: 以一萬三千字
 為限的錯誤決定,仍然使得此碼窒礙難行。許多廠商為應付採購程序上非要用國
 家標準的箝制,在電腦中安置了此碼,然而實際上又不用。形成了可笑亦復可悲
 傷害更是無以言喻!

     之後,由於大家心裡明白此碼不可不用又不得不用的情況下,只好再造一碼
 ,即「五大專案碼」之誕生。爾後,至民國七十五年「通用漢字標準交換碼」又
 更新一次版本,字碼又換一次,從民國七十年至七十五年之五年中,六次變易,
 世界上找不出這樣子做的「國家標準」。不僅這個過程無法統一字碼,為工業界
 造福,反而造成天下大亂,國內中文碼之亂,此實為罪魁禍首。

     到今天,這個碼除了在個人電腦中可用以外,稍微大一些的系統都不夠用,
 它仍然是採購上必要而又無用的一個設備罷了。無論在台電,自來水、瓦斯、電
 信局、警政署、海關、外貿會、出版社、報社、財稅... 此碼的字均不夠用,更
 不必談到國家級的系統,像戶政、地政、財稅、圖書館等等系統了。

     這麼多年來,主持通用中文標準交換碼的人員對中文資訊交換碼之攻擊和打
 擊不遺餘力,凡有中文資訊交換碼之廠商竟不敢明言,以免遭排擠。對通用中文
 標準碼以行政命令強制推行,若任何中文系統無此碼者則禁止公家機構採購。在
 標準法中明白說明國家標準無強制性,然而有關單位竟一意孤行。在這麼惡劣的
 環境下,通用碼無法取得使用上之優勢,實在是該碼設計上缺陷累累 (見經建會
 民國七十七年九月製版之 "中共電腦業之發展及其對我之影響 P.173) ,否則以
 國家政令之力,豈有中文資訊交換碼活命之空間?

 表一  中文標準碼自民國70年至75年歷年變遷簡表

 +--+--------+----------+------------+----------+--------+----------+
 |名|中文資訊|中文資訊  |中文資訊標準|通用漢字  | 五大   |通用漢字  |
 |稱|標準碼  |標準交換碼|交換碼(附冊)|標準交換碼| 專案碼 |標準交換碼|
 +--+--------+----------+------------+----------+--------+----------+
 |發|        |          |            |          |        |          |
 |表|  70年  |  71年    |  71年      |  72年    |  73年  |  75年    |
 |時|  二月  |  七月    |  九月      |  十月    |  三月  |  三月    |
 |間|        |          |            |          |        |          |
 +--+--------+----------+------------+----------+--------+----------+
 |發|        |  國科會  |            |          |        |  國科會  |
 |表| 主計處 |  教育部  |  同左      |  同左    | 資策會 |  教育部  |
 |單|        |  標準局  |            |          | 工業局 |  標準局  |
 |位|        |  主計處  |            |          |        |  主計處  |
 +--+--------+----------+------------+----------+--------+----------+
 |主|  李    |    何    |    何      |    何    |   果   |    何    |
 |持|  克    |    宜    |    宜      |    宜    |        |    宜    |
 +--+--------+----------+------------+----------+--------+----------+
 |承| 行政院 |          |            |          | (十三  |  行政院  |
 |辦| 主計處 |   同左   |  同左      |  同左    |  家業  |  主計處  |
 |單|電子資料|          |            |          |  者)   | 電子資料 |
 |位|處理中心|          |            |          |  不詳  | 處理中心 |
 +--+--------+----------+------------+----------+--------+----------+
 |結|2 8-bits|          |            |          |        |          |
 |  | bytes  |   同左   |  同左      |  同左    |  同左  |  同左    |
 |  | 16 bits|          |            |          |        |          |
 |構| 二元碼 |          |            |          |        |          |
 +--+--------+----------+------------+----------+--------+----------+
 |字| 32,768 | 35,344   |  35,344    |  35,344  | 35,344 |          |
 |位|(奇數碼)|          |            |          |        |          |
 +--+--------+----------+------------+----------+--------+----------+
 |字|16,000字|          |            |5,401 (   |  5,401 |5,401   ( |
 |  |王金土由|  4,808   |   4,808    |4421-7D4B)| 常用字 |4421-7D4B)|
 |  |"辭海"中| (常用字) |  (常用字)  |13,053 (  | 7,652  |7,650   ( |
 |構|任意選出|          |            |30A1-FBE2)| 次常用 |2121-7244)|
 +--+--------+----------+------------+----------+--------+----------+
 |字|1.總筆劃|1.總筆劃  |1.部首      |1.總筆劃  |1.總筆劃|1.總筆劃  |
 |序|2.部首  |2.部首    |2.總筆劃    |2.部首    |2.部首  |2.部首    |
 +--+--------+----------+------------+----------+--------+----------+
 |S|完全不合|部份合    |    同左    |   同左   |  同左  |   同左   |
 |O|        | ISO 2022 |            |          |        |          |
 +--+--------+----------+------------+----------+--------+----------+
 |獨|        |          |            | 不合     |        |          |
 |一|   合   |   同左   |    同左    | 常用字一 |   合   |    合    |
 |性|        |          |            |          |        |          |
 +--+--------+----------+------------+----------+--------+----------+
 |涵| 不合僅 |  不合    |            |  不合    |        |  不合    |
 |蓋| 32768  |  總字    |    同左    |  總字    |  同左  |  總字    |
 |性| 字位   |  4,808   |            |  13,053  |        |  13,053  |
 +--+--------+----------+------------+----------+--------+----------+
 |擴| 不合   |  不合    |            |  不合    | 不合   |          |
 |充| 無法   |  總字數  |    同左    |  無法    | 總字數 |          |
 |性| 擴充   |  35,344  |            |  擴充    | 35,344 |          |
 +--+--------+----------+------------+----------+--------+----------+
 |試|不能使用| 無人試用 |            |無業者採用|多家採用|          |
 |  |主計處  | 業者字數 |    同左    | 75年三月 |外來程式|          |
 |用|自行收回| 超過8000 |            | 宣佈放棄 |有問題  |          |
 +--+--------+----------+------------+----------+--------+----------+
 |中| 031F   |  4C50    |    4C26    |4463 32F6 |  A4A4  |  4463    |
 |華| 36AB   |  6675    |    712B    |615E B1AE |  B5D8  |  615E    |
 |國| 2730   |  5F54    |    535E    |594F A138 |  B0EA  |  594F    |
 +--+--------+----------+------------+----------+--------+----------+

 亦驢註:想知道主計處編出來的第一套碼有多荒誕,可以看看上表最後一項。
         「中」的內碼為 031F 。在 ASCII  標準中 03、1F 都是控制碼。在
         以 ASCII  為主的電腦世界,這個字碼不是非常荒謬嗎?

  ------------------------------------------------------------------------

--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 134.208.10.231
→ senas:END...sorry                                               08/31 15:52
推 EvilPrada:嗯嗯  原來是這麼一回事啊  了解                        08/31 15:52
→ acer6772:END                                                    08/31 15:52
→ s90034:End = =                                                  08/31 15:52
推 hydeeric2002:好有深度的八卦阿                                   08/31 15:53
→ ERQQ:略懂 略懂 = =                                              08/31 15:53
→ sidi:我END了....                                                08/31 15:53
推 JackaLMeI:說起來有一匹布那麼長                                  08/31 15:54
→ neofire:END,你沒事貼這麼長做啥                                  08/31 15:54
推 magecandy:幾十年遺毒 ->五個字說完                               08/31 15:55
→ hank11235813:嗯嗯                                               08/31 15:55
→ birdy590:在 Big5 以前的這些碼主要只存在紙上, 怎麼編差別都不大   08/31 15:55
推 Alexboo:將錯就錯囉 當時只是想patch而已 XD                       08/31 15:56
推 davidr:說穿了  就是官僚危害                                     08/31 15:56
→ birdy590:Big5 長成這樣跟硬體限制很有關係, Apple-2 裝不了多少字  08/31 15:56
推 ClubT:所以Unicode到底是啥??                                     08/31 15:57
推 xflies:政府各部門爭功倭過的醜態幾十年沒變                       08/31 15:58
→ magecandy:unicode就是希望全世界只用一種編碼標準                 08/31 15:59
→ magecandy:才不會某個碼在台灣代表某個字 出了台灣變其它字         08/31 16:00
→ ClubT:所以Unicode是文章說的哪種??                               08/31 16:05
→ yukihero:太長直接END                                            08/31 16:23

沒有留言:

張貼留言

您好.本資料庫並非第一手資料.如果你有對文章作者的詢問,意見與需求,請自行找尋文章作者並提供意見,謝謝.