作者: kuangjc5566 (匡匡56) 看板: Gossiping
標題: Re: [論卦] PTT 真的是不支援 Unicode
時間: Mon Aug 31 15:50:57 2009
說到中文字碼的歷史 真是他X的一本爛帳
為什麼會有那麼多字打不出來或系統衝突呢
這真是說來話長
有一篇文章已經很久了 我現在貼出來給大家看
讓那些不要臉 不懂又要面子 亂搞的人 不要被大家遺忘
--------------------------------------------
發信人: rux@cis_nctu (亦驢), 信區: 'Chinfost'
標 題: 國內中文字碼之發展
發信站: 交大資科_BBS (Wed May 28 20:55:57 1997)
來 源: 140.116.253.216
我國最早之中文字碼為民國六十九年提出之「中文資訊交換碼」 (Chinese
Character Code for Information Interchange, CCCII)。訂定此碼的原動力是
美國急需使用電腦處理東亞語文資料,因此派遣負責人赴東亞考察。當時只有日
本訂定資訊碼標準 JIS C 6226 。在「只此一家,別無分號」的情況下,美方初
步決定採用此標準。我華裔美國亞東圖書館代表與我國代表極力反對,說明日本
漢字無法代表中國文字的理由,並允諾四個月之後提出我方之標準。
我方代表返國之後,上書政務委員李國鼎及國科會、中美會等單位,集合國
內一批文字學家、圖書館學家、以及電腦學者,組成臨時性質之任務編組──國
字整理小組。經過謹慎考察、研究,一套涵蓋中日韓各國語文、以及繁體、簡體
、異體等等之「中文資訊交換碼」出爐了。此碼終為美方接受為處理中日韓資料
之正規標準。至今仍有許多圖書館系統採用,因為只有此碼才能擔當這個重任。
CCCII 在國外受到歡迎,在國內卻遭受排擠。有心人士或是想在歷史留名;
或是自認官大學問大。用盡各種方法打擊 CCCII,並玩起編碼遊戲。這個遊戲,
為咱們中文字碼的悲劇「萬碼奔騰」揭開了序幕。我想這個編碼遊戲,至少讓國
內的資訊工業停滯五年。
下列兩本書,詳細記載了這一段歷史,以及 CCCII 的技術資料。在本文之
後,我從第二本書抄錄一個章節,供無法借到這兩本書的網友參考。打這篇文章
的目的,一方面是前一陣子有許多網友詢問到 CCCII;另一方面,讓網友瞭解現
在我們使用的中文內碼的訂定過程是如何草率。
一、書名:中文字碼:萬碼奔騰,一碼當先
作者:黃大一
出版:永麒科技
二、書名:國字整理小組十年
作者:謝清俊、黃克東
出版:資訊應用國字整理小組
========================================================================
以下文章摘錄自「國字整理小組十年」p15-p18
========================================================================
四、國內外局勢之發展
(一)國內中文字碼之發展
國內有識之士早在民國六十六年起,就多次提起制訂中文字碼的事情。可惜
當時由於國內沒有標準字形而受阻。此事在六十七年、六十八年之國建會及近代
工程討論會中,亦曾討論,甚至有決議作成。然而終究因字形整理的問題而拖延
著。至六十八年,教育部公佈了 4808 個常用字的標準字形後,編字碼的是才有
一線希望。
中文資訊交換碼之所以能在六十九年三月發表,實拜教育部公佈標準常用字
形之賜。然而,在當時,除上述之標準字形外,餘無標準字形。於是國字小組只
得負擔起後續的工作,以期能在七十年將 CCCII 擴充到可實用的字數,並能符
合國際上日益迫切之需求,來維護我們的傳統文字。
當民國六十九年三月中文資訊交換碼發表之事傳到國內以後,並未受到應有
的重視和獎勵,反而引起了杯葛、謾罵、和各種侮辱的情形,此誠始料未及。
引起這種情況的主要原因是:在六十八年國建會的建議中,曾建議我國編中
文字碼,而行政院將此案交主計處電子處理資料中心研究。因此,該單位獲知
CCCII 發表後,赫然震怒。認為國字小組破壞政府體制,此事應該由他們做才是
。於是在民國六十九年五月,召開會議決定要另做一碼。當時國字小組有人出席
該次會議,曾即席說明編制 CCCII 之原委,並說明 CCCII 發表時沒有作者,
中心合作或甚至交給他們繼續未完之工作,大家戮力一致對外。非常可惜的是此
建議並未為主計處電子處理資料中心接受,反而一意孤行,非另做一碼不可。
為協調此爭執,有該年九月間在溪頭開的會議。在溪頭開的會議中,國字小
組代表對編碼的作業有詳細的報告。在當時,國內翠於 ISO 資訊交換的相關標
準之了解實在貧乏的可憐,與會人員不明白 ISO 646 及 ISO 2022 是做什麼的
,因此對 CCCII 之編碼技術無法體認。當然也就不明白 CCCII 的長處了。國
字小組之成員雖然全力說明,然而在主事人以政治手段解決技術問題的作法之下
,以為再編一碼亦非難事,而且還可以平息爭端,斷然宣佈要再設計一碼作為解
決之道,由此開啟了中文字碼十年混亂之情,迄今仍然遺禍社會無法解決。
經溪頭會議後,主計處電子處理資料中心邀王金土根據決議所編之碼為「中
文資訊標準碼」,並於民國七十年發表 (記錄上是二月,而事實上到六月才完稿)
。此碼完全不理會 ISO 之相關標準,獨斷專行,在碼的結構上主觀幼稚,在文
字上則由個人任意挑選。當然,這種碼是不能用的,然而主事者並不相信,反而
行文各單位要求採用。經過日本 NEC 及 FACOM 之技術人員在警政署強烈抗議之
下,才明白此碼真不可用,只得偃旗息鼓自行收回。然而其耗費之公帑,即以印
刷而言,上千本二吋厚之巨著就此報廢,更遑論其人力、物力,和時間之投入,
合法之浪費莫以此為甚。
事實上,由此事件之教訓,主事者應該明白溪頭會議之錯誤,以及編碼是涉
,也就罷了。可嘆的是,在此過程中,主辦單位應用各報章媒體,造成許多打擊
國字小組,對 CCCII 之技術成就惡意曲解,似是而非的謬論,一意認定他們自
國字小組,對 CCCII 之技術成就惡意曲解,似是而非的謬論,一意認定他們自
己是對的。當發現所編的王金土碼不能時,竟惱羞成怒,執意非再做一個碼不可
。至此情形,已非理性之爭,而是以一己之私,一念之差,置國家社會利益不顧
地孤行到底了。
於是主事者另起一灶,又行設計第二套碼,在民國七十一年七月發表,這碼
名為「中文資訊標準交換碼」。然而,此碼並未完全做完,同年九月又補充附冊
。這些碼雖然號稱採用 ISO 646 及 ISO 2022 標準,然而,又不真正認真執行
,所以徒具虛名,且七月發表和九月補充的字碼均不同, (詳情請月表一) 。當
然此碼依然不能用!
雖然又失敗了,可是主事者巧言隱瞞事實,暗地裡再整旗鼓,又做一碼: 「
通用漢字標準交換碼」並於民國七十二年十月發表。經過以前這許多失敗之經驗
,又從 CCCII 學到不少技術,這一次充滿信心竟以國家標準為支柱,以行政命
令強行推銷此碼,此舉已干犯到國家標準不是強制性質的原則了。雖然此碼修正
了許多過去之缺失,也越來越神似 CCCII,可是主事者所堅持的: 以一萬三千字
為限的錯誤決定,仍然使得此碼窒礙難行。許多廠商為應付採購程序上非要用國
家標準的箝制,在電腦中安置了此碼,然而實際上又不用。形成了可笑亦復可悲
傷害更是無以言喻!
之後,由於大家心裡明白此碼不可不用又不得不用的情況下,只好再造一碼
,即「五大專案碼」之誕生。爾後,至民國七十五年「通用漢字標準交換碼」又
更新一次版本,字碼又換一次,從民國七十年至七十五年之五年中,六次變易,
世界上找不出這樣子做的「國家標準」。不僅這個過程無法統一字碼,為工業界
造福,反而造成天下大亂,國內中文碼之亂,此實為罪魁禍首。
到今天,這個碼除了在個人電腦中可用以外,稍微大一些的系統都不夠用,
它仍然是採購上必要而又無用的一個設備罷了。無論在台電,自來水、瓦斯、電
信局、警政署、海關、外貿會、出版社、報社、財稅... 此碼的字均不夠用,更
不必談到國家級的系統,像戶政、地政、財稅、圖書館等等系統了。
這麼多年來,主持通用中文標準交換碼的人員對中文資訊交換碼之攻擊和打
擊不遺餘力,凡有中文資訊交換碼之廠商竟不敢明言,以免遭排擠。對通用中文
標準碼以行政命令強制推行,若任何中文系統無此碼者則禁止公家機構採購。在
標準法中明白說明國家標準無強制性,然而有關單位竟一意孤行。在這麼惡劣的
環境下,通用碼無法取得使用上之優勢,實在是該碼設計上缺陷累累 (見經建會
民國七十七年九月製版之 "中共電腦業之發展及其對我之影響 P.173) ,否則以
國家政令之力,豈有中文資訊交換碼活命之空間?
表一 中文標準碼自民國70年至75年歷年變遷簡表
+--+--------+----------+------------+----------+--------+----------+
|名|中文資訊|中文資訊 |中文資訊標準|通用漢字 | 五大 |通用漢字 |
|稱|標準碼 |標準交換碼|交換碼(附冊)|標準交換碼| 專案碼 |標準交換碼|
+--+--------+----------+------------+----------+--------+----------+
|發| | | | | | |
|表| 70年 | 71年 | 71年 | 72年 | 73年 | 75年 |
|時| 二月 | 七月 | 九月 | 十月 | 三月 | 三月 |
|間| | | | | | |
+--+--------+----------+------------+----------+--------+----------+
|發| | 國科會 | | | | 國科會 |
|表| 主計處 | 教育部 | 同左 | 同左 | 資策會 | 教育部 |
|單| | 標準局 | | | 工業局 | 標準局 |
|位| | 主計處 | | | | 主計處 |
+--+--------+----------+------------+----------+--------+----------+
|主| 李 | 何 | 何 | 何 | 果 | 何 |
|持| 克 | 宜 | 宜 | 宜 | | 宜 |
+--+--------+----------+------------+----------+--------+----------+
|承| 行政院 | | | | (十三 | 行政院 |
|辦| 主計處 | 同左 | 同左 | 同左 | 家業 | 主計處 |
|單|電子資料| | | | 者) | 電子資料 |
|位|處理中心| | | | 不詳 | 處理中心 |
+--+--------+----------+------------+----------+--------+----------+
|結|2 8-bits| | | | | |
| | bytes | 同左 | 同左 | 同左 | 同左 | 同左 |
| | 16 bits| | | | | |
|構| 二元碼 | | | | | |
+--+--------+----------+------------+----------+--------+----------+
|字| 32,768 | 35,344 | 35,344 | 35,344 | 35,344 | |
|位|(奇數碼)| | | | | |
+--+--------+----------+------------+----------+--------+----------+
|字|16,000字| | |5,401 ( | 5,401 |5,401 ( |
| |王金土由| 4,808 | 4,808 |4421-7D4B)| 常用字 |4421-7D4B)|
| |"辭海"中| (常用字) | (常用字) |13,053 ( | 7,652 |7,650 ( |
|構|任意選出| | |30A1-FBE2)| 次常用 |2121-7244)|
+--+--------+----------+------------+----------+--------+----------+
|字|1.總筆劃|1.總筆劃 |1.部首 |1.總筆劃 |1.總筆劃|1.總筆劃 |
|序|2.部首 |2.部首 |2.總筆劃 |2.部首 |2.部首 |2.部首 |
+--+--------+----------+------------+----------+--------+----------+
|S|完全不合|部份合 | 同左 | 同左 | 同左 | 同左 |
|O| | ISO 2022 | | | | |
+--+--------+----------+------------+----------+--------+----------+
|獨| | | | 不合 | | |
|一| 合 | 同左 | 同左 | 常用字一 | 合 | 合 |
|性| | | | | | |
+--+--------+----------+------------+----------+--------+----------+
|涵| 不合僅 | 不合 | | 不合 | | 不合 |
|蓋| 32768 | 總字 | 同左 | 總字 | 同左 | 總字 |
|性| 字位 | 4,808 | | 13,053 | | 13,053 |
+--+--------+----------+------------+----------+--------+----------+
|擴| 不合 | 不合 | | 不合 | 不合 | |
|充| 無法 | 總字數 | 同左 | 無法 | 總字數 | |
|性| 擴充 | 35,344 | | 擴充 | 35,344 | |
+--+--------+----------+------------+----------+--------+----------+
|試|不能使用| 無人試用 | |無業者採用|多家採用| |
| |主計處 | 業者字數 | 同左 | 75年三月 |外來程式| |
|用|自行收回| 超過8000 | | 宣佈放棄 |有問題 | |
+--+--------+----------+------------+----------+--------+----------+
|中| 031F | 4C50 | 4C26 |4463 32F6 | A4A4 | 4463 |
|華| 36AB | 6675 | 712B |615E B1AE | B5D8 | 615E |
|國| 2730 | 5F54 | 535E |594F A138 | B0EA | 594F |
+--+--------+----------+------------+----------+--------+----------+
亦驢註:想知道主計處編出來的第一套碼有多荒誕,可以看看上表最後一項。
「中」的內碼為 031F 。在 ASCII 標準中 03、1F 都是控制碼。在
以 ASCII 為主的電腦世界,這個字碼不是非常荒謬嗎?
------------------------------------------------------------------------
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 134.208.10.231
→ senas:END...sorry 08/31 15:52
推 EvilPrada:嗯嗯 原來是這麼一回事啊 了解 08/31 15:52
→ acer6772:END 08/31 15:52
→ s90034:End = = 08/31 15:52
推 hydeeric2002:好有深度的八卦阿 08/31 15:53
→ ERQQ:略懂 略懂 = = 08/31 15:53
→ sidi:我END了.... 08/31 15:53
推 JackaLMeI:說起來有一匹布那麼長 08/31 15:54
→ neofire:END,你沒事貼這麼長做啥 08/31 15:54
推 magecandy:幾十年遺毒 ->五個字說完 08/31 15:55
→ hank11235813:嗯嗯 08/31 15:55
→ birdy590:在 Big5 以前的這些碼主要只存在紙上, 怎麼編差別都不大 08/31 15:55
推 Alexboo:將錯就錯囉 當時只是想patch而已 XD 08/31 15:56
推 davidr:說穿了 就是官僚危害 08/31 15:56
→ birdy590:Big5 長成這樣跟硬體限制很有關係, Apple-2 裝不了多少字 08/31 15:56
推 ClubT:所以Unicode到底是啥?? 08/31 15:57
推 xflies:政府各部門爭功倭過的醜態幾十年沒變 08/31 15:58
→ magecandy:unicode就是希望全世界只用一種編碼標準 08/31 15:59
→ magecandy:才不會某個碼在台灣代表某個字 出了台灣變其它字 08/31 16:00
→ ClubT:所以Unicode是文章說的哪種?? 08/31 16:05
→ yukihero:太長直接END 08/31 16:23
沒有留言:
張貼留言
您好.本資料庫並非第一手資料.如果你有對文章作者的詢問,意見與需求,請自行找尋文章作者並提供意見,謝謝.