1: しじみ ★ 2017/12/25(月) 06:08:16.97 ID:CAP_USER
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、
コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、
6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、
ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、
「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、
コードが割りふられているのは1万字だけで、コードが無く、
コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、
データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、
ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、
コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、
経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、
このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、
地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、
戸籍では尊重されているがコンピューターが追いついていなかった。
文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

続きはソースで

NHKニュース
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html

2: 名無しのひみつ 2017/12/25(月) 06:16:31.64 ID:PYyQSCbE
漢字って一字で意味を持つ単語
中国はどうしてんだ

8: 名無しのひみつ 2017/12/25(月) 06:43:45.16 ID:1hFrhwM1
>>2
簡体字は簡体字で使う漢字を登録済み。
繁体字も同じく登録済み。

4: 名無しのひみつ 2017/12/25(月) 06:26:32.02 ID:Ac/xGhhU
草○歓喜

5: 名無しのひみつ 2017/12/25(月) 06:31:22.61 ID:irOM8Cqr
龍龍
龍龍

6: 名無しのひみつ 2017/12/25(月) 06:34:57.95 ID:4W2qbdqm
定義したところで新しい漢字が創作されるのが漢字という形な、定義するなら
今後増えるだろう創作文字がいくらあっても許容できる仕様でないなら、
ユニコードのコード割り当てにある明治大正昭和平成(㍾㍽㍼㍻)の次の元号文字が割り当て
コードの空きがない問題をまず考えようよ、元号が変わるのは来年だし

http://quizknock.com/heisei-owaruto-daikonran/
ユニコードは明治→大正→昭和→平成→株式会社(㍿)となっていて、株式会社のコードを捨てる?

7: 名無しのひみつ 2017/12/25(月) 06:42:07.95 ID:1hFrhwM1
>>6
連番にする意味は大してない。
プログラムを組むときはコードを意識なんてしていられないし、条件分岐が必要になるから。

10: 名無しのひみつ 2017/12/25(月) 06:53:23.71 ID:4W2qbdqm
>>7
1文字のためだけに他の文字コードの途中に割り付けるとかないから、
不連続すぎる割り当てとか後で変更されるようなコード
たとえば韓国のユニコード割り当てがユニコードのバージョンでコードそのものが違うように
そういうことはあってはならない、ユニコードのバージョンで条件分岐で対処すればいいだろうけど
それは明らかに変だろ、

9: 名無しのひみつ 2017/12/25(月) 06:52:13.63 ID:42m1Es7/
やればできるじゃない

11: 名無しのひみつ 2017/12/25(月) 07:04:14.78 ID:7VMa6lis
フォントが対応してくれなきゃ

12: 名無しのひみつ 2017/12/25(月) 07:05:07.21 ID:l2YP9E8l
中国の人名とか地名とかに使う漢字もコード化しろよ。
新聞に○辺に□とか書いてるだろ。

13: 名無しのひみつ 2017/12/25(月) 07:05:07.35 ID:WBU+WGbR
結局シフトJISやEUCなどの環境がある限り、意味がない

14: 名無しのひみつ 2017/12/25(月) 07:07:19.48 ID:bV8VduO/
コンピューターで

って漠然としてんなぁ

15: 名無しのひみつ 2017/12/25(月) 07:09:19.70 ID:S2x8lA8r
超漢字ってあったよな

17: 名無しのひみつ 2017/12/25(月) 07:32:23.96 ID:f1yolDrv
>>15
あれ、漢字は何万文字入ってるんだろ。

18: 名無しのひみつ 2017/12/25(月) 07:40:21.59 ID:tW6xk3HF
文字コードは頭痛い

元スレ:https://egg.5ch.net/test/read.cgi/scienceplus/1514149696/