Unicodeってなんじゃ？ - /var/log/masayoshi/masayoshi.life.log

今回はUnicode文字列というものに触れてみましたよ、これはですね文字列をUnicodeとして扱うんですよ。

Unicodeでは「1文字を1文字として扱う」んです、日本語でも英語や記号で同様ですよ。

しかしShift_JISやEUC-JPでは「1バイトで1文字として扱う」んですよ、その為日本語などの文字列は２バイト文字として扱われます。

だから時々問題も発生します、PHPではEUC-JPがいいとか書いてありましたが。

これはファイルの文字コードによって書き方が変わってきます、まずは文字コードをEUC-JPにした場合



# coding:EUC-JP

print unicode("How do you like wedness day?\n水曜どうでしょう","EUC-JP")

そして、UTF-8とした場合



# coding:UTF-8

print u"How do you like wedness day?\n水曜どうでしょう"

違いは「unicode」と「u」だ、まずはunicodeからまとめてみよう。

これを使うときは文字コードがUTF-8以外の文字コードを用いている場合だ、俺はもっぱらEUC-JPを使うのでこれにお世話になる機会が多そうだｗｗ

そして「u」、こいつは文字コードがUTF-8であった場合だ。

とりあえず終わりｗ