m moji kit v1.0.9
変換

文字コード変換

テキストやファイルの文字コードを UTF-8 / Shift_JIS / EUC-JP / ISO-2022-JP / UTF-16 で相互変換します。自動判定にも対応。CSV を Excel で開ける形に整える、レガシー API のレスポンスを UTF-8 にする等の場面で使えます。

サンプル

こんなときに使う

Excel で開ける CSV を作る

Excel は UTF-8 BOM 付き、または Shift_JIS の CSV を期待します。本ツールで Shift_JIS に変換してダウンロードします。

レガシー API の Shift_JIS レスポンスを UTF-8 に変換

古い社内 API や金融機関のシステムは Shift_JIS や EUC-JP のレスポンスを返すことがあります。受け取り側を UTF-8 で扱いたいときに変換。

ガラケー時代のメール本文を読む

ガラケー由来のテキストは ISO-2022-JP(メール標準)が多い。本ツールで UTF-8 化して読みます。

Windows のテキストファイル(CP932)を Linux で扱う

Windows メモ帳の「ANSI」は Shift_JIS / CP932。Linux に持ち込むときに UTF-8 化します。

文字化けの原因を切り分ける

「謎の四角形」が出る場合に、可能な文字コードで順に変換して、正しく読める組み合わせを探します。

古い HTML / XML の文字コードを統一する

Shift_JIS / EUC-JP で書かれたページを UTF-8 にリプラットフォームするとき、ファイル単位で変換します。

よくあるエラーと対処

ERR 変換結果が文字化けする
原因
入力文字コードを誤って選択したか、自動判定が失敗した可能性。
対処
入力ファイルの実バイト列を確認してください。CLI なら `nkf -g file` で判定できます。本ツールでは複数の入力候補を試してみるのも手です。
ERR ISO-2022-JP の変換結果に ESC シーケンスが残る
原因
ISO-2022-JP は ESC ($ B 等) で文字集合を切り替えます。入力選択を間違えるとそのまま見えてしまいます。
対処
入力エンコーディングを ISO-2022-JP に明示してください。
ERR Shift_JIS にした文字が「・」(中黒)になる
原因
Unicode に存在するが Shift_JIS に対応コードが無い文字(絵文字、特殊記号)は代替文字になります。
対処
代替を回避するには UTF-8 のまま使うか、CP932(拡張 Shift_JIS)を使ってください。本ツールは厳格な Shift_JIS 変換です。
ERR ファイルが大きすぎて変換できない
原因
数百 MB のファイルはブラウザのメモリで一括処理しきれない可能性があります。
対処
10MB を超えるなら CLI(iconv / nkf)を推奨。例: `iconv -f SHIFT-JIS -t UTF-8 in.csv > out.csv`。

CLI / 他言語でやる方法

iconv
iconv -f SHIFT-JIS -t UTF-8 input.csv > output.csv

Linux / macOS 標準。-f が変換元、-t が変換先。CP932 として扱いたいときは -f CP932。

nkf
nkf -w input.csv > output.csv

日本語特化。-w で UTF-8、-s で Shift_JIS、-e で EUC-JP、-j で ISO-2022-JP。-g で文字コード判定のみ。

Python
python -c "import sys; sys.stdout.write(open('input.csv','rb').read().decode('shift_jis'))" > out.csv

codecs.open で encoding 指定するのも常套手段。

よくある質問

CP932 と Shift_JIS は同じ?
ほぼ同じですが、CP932 は Microsoft 拡張で「①」「㈱」など機種依存文字を含みます。Shift_JIS(厳密版)にはこれらがありません。本ツールは encoding-japanese の SJIS(CP932 互換)を使います。
BOM が必要なケースは?
Excel で UTF-8 CSV を開く場合、BOM 付き UTF-8 だと文字化けせず開けます。BOM なしだと Excel が ASCII と誤認することがあります。
自動判定は信頼できますか?
短い文字列では誤判定することがあります。バイト列のパターンから判定するため、文字数が少ないと候補が確定しません。長めのサンプル、または明示指定を推奨します。
絵文字が変換で消えてしまう
Shift_JIS / EUC-JP / ISO-2022-JP には絵文字が含まれません。UTF-8 → これら への変換は情報損失します。逆方向(→ UTF-8)は損失なし。
メールに添付された ISO-2022-JP テキストを開きたい
本ツールに貼り付けて自動判定または「ISO-2022-JP」を選んで UTF-8 に変換してください。多くのメール添付テキストはこの形式です。
UTF-16 の BE / LE は?
BOM が先頭にあれば自動判定できます。BOM なしの場合はバイト順を選んで指定する必要があります。本ツールは BOM 付き UTF-16 をデフォルトサポート。
サーバーに送信されますか?
送信されません。すべて encoding-japanese ライブラリでブラウザ内処理です。機密文書も安心。

もっと深く知る

公式ドキュメント / 仕様

学習サイト / 記事

※ Amazon へのリンクはアフィリエイトリンク(Amazon アソシエイト)を含みます。

関連ツール