Base64 って結構カオス?
Base64 のライブラリをあまり調べたことがなかったので調べてみた。
- RFC
- http://tools.ietf.org/html/rfc4648
- 標準で、一番あたらしいやつ
- http://tools.ietf.org/html/rfc3548
- 標準だが、obsoleted らしい
- http://tools.ietf.org/html/rfc2045
- MIME 用
- http://tools.ietf.org/html/rfc1421
- オリジナルらしいが、deprecated らしい
- http://tools.ietf.org/html/rfc4648
- Wikipedia
まず、Base64 には多くの変形版が存在するという点に注意する必要がある。自分で使いたいのはどういった目的なのか、それをライブラリはサポートしているのか、のようなことだ。変形版については、Wikipedia に詳しくのっているのでそれを参照されたし。変形版は以下のような違いがある。
- 62 番目の文字を何とみなすか
- 「+」プラス
- 「-」マイナス
- 「.」ピリオド
- 「_」アンダースコア
- 「!」エクスクラメーション
- 63 番目の文字を何とみなすか
- 「/」スラッシュ
- 「-」マイナス
- 「_」アンダースコア
- 「:」アンダースコア
- パディングの有無
- 「=」か「なし」
- 1行が固定長かどうか
- 行の最大長
- 64
- 76
- 何かに依存
- 改行文字
- CRLF ( 必要な場合のみ )
- なし
- 指定された文字以外を使えるかどうか
- 行のチェックサム
標準とされる Base64 は以下のとおり。ほとんどはこれをターゲットにしているはず。
- 62 番目の文字を何とみなすか
- 「+」プラス
- 63 番目の文字を何とみなすか
- 「/」スラッシュ
- パディングの有無
- 「=」
- 1行が固定長かどうか
- はい
- 行の最大長
- 64 or 76
- 改行文字
- CRLF ( 必要な場合のみ )
- 指定された文字以外を使えるかどうか
- 禁止
- 行のチェックサム
ここまで見ると、Base64 のライブラリはこれらをどこまでサポートしているのかという情報があって、こういった点を指定することができて然るべきだ、と思えてくる。では、実際にライブラリやコードを見てみよう。
- C/C++ ライブラリ
- OpenSSL: Documents, BIO_f_base64(3)
- Crypto++: base64.cpp Source File
- 改行するかどうかを指定できる、既定ではする
- 改行位置が指定できる、既定では 72・・・72?
- 改行文字は CRLF ではなく LF
- hamigaki
- 改行できない?
- 62、63 番目の文字は、+/ か -_ のペアを使うことができる
- b64: Base-64 Encoding Library - Synesis Software - C/C++ Software Libraries Resource Site
- RFC 1113 に対応しているらしい
- 62、63 番目の文字は、+/
- 改行文字は CRLF
- 改行位置は、64 か 76 推奨で任意に指定できる
- ドキュメントがかなり詳細に記述されている
ここに書いた情報はドキュメントやソースコードを見ながら書いたが、間違いがあるかもしれないので注意してほしい。詳しいドキュメントがあったのは、b64 だけだった。それにしても、どれもこれも狙ったかのように仕様がまちまちである。どれも、それほど RFC に気を取られていないように思える。特に OpenSSL がこれでは、他のコードは互換性維持のために RFC を無視してそれに合わせる必要が出てくるだろう。・・・中々厄介である。b64 は、改行文字が選択できればよいのだが・・・。
というわけで、ライブラリをそのまま使うだけでは何か問題に遭遇する可能性が高いので、外部インターフェースとの連携が必要な場合は特に注意が必要だろう。どなたか、C/C++ でいいライブラリ知りませんか?
気になったので他の言語も調べてみた。
- C/C++ 以外の言語編
- Perl
- Ruby
- base64 - Rubyリファレンスマニュアル
- RFC 2045 らしいので、b64 と似たような感じ
- 改行に関することはドキュメントからは分からない
- base64 - Rubyリファレンスマニュアル
- Python
- 12.12 base64 -- RFC 3548: Base16, Base32, Base64 テータの符号化
- RFC 3548
- 62、63 番目の文字を任意指定できる
- 改行位置は指定できないっぽい
- 12.12 base64 -- RFC 3548: Base16, Base32, Base64 テータの符号化
- Java
- Base64 (Commons Codec 1.4 API)
- RFC 2045
- 改行文字は CRLF、変更可能
- 改行位置は 76、変更可能
- 62、63 番目の文字は、+/ か -_ のペアを使うことができる
- Base64 (Commons Codec 1.4 API)
他の言語も結構まちまち。汎用性という意味では、Java のが一番よさげか。
きっと Bae64 は、その原理のシンプルさからみんながばらばらと実装していってこんな感じになったんだろうな。Base64 なら、この辺を細かく制御できるコードを書けば天下とれそうだ。細かいけど。
以下は調査中に見つけたコード。面白そうだったので挙げておく。