VBAでファイルの文字コード判定を行う

VBA

2019.05.152025.02.27

この記事は約12分で読めます。

VBAで文字コードの判定を行います。

[2025/02/27] バグ修正。対象外の文字があったら判定を打ち切るように修正。

何故かVBAに無い「文字コード判定」
関数を追加する
使い方

何故かVBAに無い「文字コード判定」

Microsoft Excel では、［データ］→［テキストファイル］と選んでいって、ファイルを選択すると文字コードの判定を自動でしてくれます。

この判定がVBAから利用できれば便利なのに、VBAにはその命令がありません。

関数を追加する

そこで、文字コード（文字エンコード）を判定する関数を作成してみました。

VBAのエディタを開いたら、プロジェクトエクスプローラーで右クリック→［挿入］→［標準モジュール］として、以下を貼り付けてください。

Option Explicit

'fncGetCharset Ver2.0 @popozure
Function fncGetCharset(FileName As String) As String
    Dim i                   As Long     '汎用指数
      
    Dim lngFileLen          As Long     'ファイルサイズ
    Dim bytFile()           As Byte     'ファイル内容
    Dim b1                  As Byte     '1バイト目
    Dim b2                  As Byte     '2バイト目
    Dim b3                  As Byte     '3バイト目
    Dim b4                  As Byte     '4バイト目
      
    Dim lngSJIS             As Long     'Shift_JISの可能性
    Dim lngUTF8             As Long     'UTF-8もの可能性
    Dim lngEUC              As Long     'EUC-JPの可能性
    
    'ADODB定数
    Const adModeUnknown = 0
    Const adModeRead = 1
    Const adModeWrite = 2
    Const adModeReadWrite = 3
    Const adModeShareDenyRead = 4
    Const adModeShareDenyWrite = 8
    Const adModeShareExclusive = 12
    Const adModeShareDenyNone = 16
    Const adTypeBinary = 1
    Const adTypeText = 2
    Const adReadAll = -1
    Const adReadLine = -2
    
    'ファイル読み込み（バイナリー）
    On Error Resume Next
    With CreateObject("ADODB.Stream")
        .Mode = adModeUnknown
        .Open
        .Type = adTypeBinary
        .LoadFromFile FileName
        lngFileLen = .Size
        bytFile = .Read(adReadAll)
        .Close
    End With
    If (Err.Number <> 0) Then
        fncGetCharset = "OPEN FAILED"
        Exit Function
    End If
    On Error GoTo 0
    
    'BOMによる判断
    If (bytFile(0) = &HEF And bytFile(1) = &HBB And bytFile(2) = &HBF) Then
        fncGetCharset = "UTF-8 BOM"
        Exit Function
    ElseIf (bytFile(0) = &HFF And bytFile(1) = &HFE) Then
        fncGetCharset = "UTF-16 LE BOM"
        Exit Function
    ElseIf (bytFile(0) = &HFE And bytFile(1) = &HFF) Then
        fncGetCharset = "UTF-16 BE BOM"
        Exit Function
    End If
      
    'BINARY
    For i = 0 To lngFileLen - 1
        b1 = bytFile(i)
        If ((b1 >= &H0 And b1 <= &H1F) And (b1 <> &H9) And (b1 <> &HA) And (b1 <> &HD) And (b1 <> &H1A) And (b1 <> &H1B)) Or (b1 = &H7F) Then
            fncGetCharset = "BINARY"
            Exit Function
        End If
    Next i

    'SJIS
    For i = 0 To lngFileLen - 1
        b1 = bytFile(i)
        If (b1 = &H9) Or (b1 = &H1A) Or (b1 = &H1B) Or (b1 >= &H20 And b1 <= &H7E) Or (b1 >= &HB0 And b1 <= &HDF) Then
            lngSJIS = lngSJIS + 1
        Else
            If (i < lngFileLen - 1) Then
                b2 = bytFile(i + 1)
                If (b1 = &HD And b2 = &HA) Then
                    lngSJIS = lngSJIS + 1
                    i = i + 1
                Else
                    If ((b1 >= &H81 And b1 <= &H9F) Or (b1 >= &HE0 And b1 <= &HFC)) And _
                       ((b2 >= &H40 And b2 <= &H7E) Or (b2 >= &H80 And b2 <= &HFC)) Then
                        lngSJIS = lngSJIS + 2
                        i = i + 1
                    Else
                        i = lngFileLen - 1
                    End If
                End If
            End If
        End If
    Next i

    'UTF-8
    For i = 0 To lngFileLen - 1
        b1 = bytFile(i)
        If (b1 = &H9) Or (b1 = &H1A) Or (b1 = &H1B) Or (b1 >= &H20 And b1 <= &H7E) Then
            lngUTF8 = lngUTF8 + 1
        Else
            If (i < lngFileLen - 2) Then
                b2 = bytFile(i + 1)
                If (b1 = &HD And b2 = &HA) Then
                    lngUTF8 = lngUTF8 + 1
                    i = i + 1
                Else
                    If ((b1 >= &HC2 And b1 <= &HDF) And (b2 >= &H80 And b2 <= &HBF)) Then
                        lngUTF8 = lngUTF8 + 2
                        i = i + 1
                    Else
                        If (i < lngFileLen - 1) Then
                            b3 = bytFile(i + 2)
                            If (b1 >= &HE0 And b1 <= &HEF) And (b2 >= &H80 And b2 <= &HBF) And (b3 >= &H80 And b3 <= &HBF) Then
                                lngUTF8 = lngUTF8 + 3
                                i = i + 2
                            Else
                                If (i < lngFileLen - 2) Then
                                    b4 = bytFile(i + 3)
                                    If (b1 >= &HF0 And b1 <= &HF7) And (b2 >= &H80 And b2 <= &HBF) And (b3 >= &H80 And b3 <= &HBF) And (b4 >= &H80 And b4 <= &HBF) Then
                                        lngUTF8 = lngUTF8 + 4
                                        i = i + 3
                                    Else
                                        i = lngFileLen - 1
                                    End If
                                End If
                            End If
                        End If
                    End If
                End If
            End If
        End If
    Next i

    'EUC-JP
    For i = 0 To lngFileLen - 1
        b1 = bytFile(i)
        If (b1 = &H9) Or (b1 = &H1A) Or (b1 = &H1B) Or (b1 >= &H20 And b1 <= &H7E) Then
            lngEUC = lngEUC + 1
        Else
            If (i < lngFileLen - 2) Then
                b2 = bytFile(i + 1)
                If (b1 = &HD And b2 = &HA) Then
                    lngEUC = lngEUC + 1
                    i = i + 1
                Else
                    If ((b1 >= &HA1 And b1 <= &HFE) And _
                       (b2 >= &HA1 And b2 <= &HFE)) Or _
                       ((b1 = &H8E) And (b2 >= &HA1 And b2 <= &HDF)) Then
                        lngEUC = lngEUC + 2
                        i = i + 1
                    Else
                        i = lngFileLen - 1
                    End If
                End If
            End If
        End If
    Next i
             
    '文字コード出現順位による判断
    If (lngSJIS <= lngUTF8) And (lngEUC <= lngUTF8) Then
        fncGetCharset = "UTF-8"
        Exit Function
    End If
    If (lngUTF8 <= lngSJIS) And (lngEUC <= lngSJIS) Then
        fncGetCharset = "Shift_JIS"
        Exit Function
    End If
    If (lngUTF8 <= lngEUC) And (lngSJIS <= lngEUC) Then
        fncGetCharset = "EUC-JP"
        Exit Function
    End If
    
    '判定不能
    fncGetCharset = "UNKNOWN"
End Function

判定方法については以下のサイトを参考にさせていただきました。

dobon.net

文字コードを判別する

https://dobon.net/vb/dotnet/string/detectcode.html

文字コードを判別する BOMで判断する方法 Jcode.pmを参考にした方法第三者の作成したクラス、コードを使う方法 mlang.dllのIMultiLanguage2::DetectInputCodepageを使う方法 COMを登録して、参照設定に追加する DetectInputCodepageメソッドを使用するサンプルこの記事への評価、コメント

使い方

VBAの中から関数として呼び出します。

ファイル名のダイアログが表示されるので検査したいファイル名を指定すると可能性の高い文字コードが表示されます。

'関数のテスト処理
Sub Main()
    Application.FileDialog(msoFileDialogFilePicker).Show
    MsgBox "ファイル名: " & Dir(Application.FileDialog(msoFileDialogFilePicker).SelectedItems(1)) & vbCrLf & "判定結果: " & fncGetCharset(Application.FileDialog(msoFileDialogFilePicker).SelectedItems(1)), vbInformation
End Sub

結果としては、以下の文字列が返ってきます。

返り値	文字コード
UTF-16 LE BOM	Unicode (UTF-16 LE)（BOM付き）
UTF-16 BE BOM	Unicode (UTF-16 BE)（BOM付き）
UTF-8 BOM	UTF-8（BOM付き）
UTF-8	UTF-8（BOM無し）
Shift_JIS	シフトJIS
BINARY	テキストでは無いファイル
OPEN FAILED	アクセス失敗もしくは0バイト
UNKNOWN	判定不能

手元にあるファイルで試したところ十分に判定してくれています。

Unicodeの基本コード（エンコーディング・符号化）であるUTF-8は互換性のために、英数字（ASCII文字）だけを使用したテキストファイルはANSIと全く同じファイルになります。

もうちょっと簡単に言うと半角英数字だけを使った場合、「UTF-8」でもあり、「Shift_JIS」でもある状態になります。この関数では「UTF-8」を返すようになっています。（多くのテキストエディタではShift_JISと判定していると思います）

では、この辺で。(^-^)o

名前:おぼれ : 投稿日：2025/02/26(水) 09:58:53 ID：g2NDQxNjg

お世話になっております。
有用させていただいてるのですが誤判断が発生しましたのでご報告します。

UTF-8 NoBOM CRLF 環境で

SELECT
選択

という2行のテキストファイルで実行させたところ Shift_JIS が返却されました。

返信

名前:ぽぽろん : 投稿日：2025/02/26(水) 12:18:13 ID：c2Njg3Mzk

コメントありがとうございます。
このロジックでは「それぞれの文字コードとしてあり得そうな字」をカウントして点数を付けて、最終的に点数が多い物に決定しています。

今回の場合、

■「UTF-8（BOM無し）」で「SELECT↩️選択↩️」（最後に改行がある）
　Shift_JIS として評価　→15点
　UTF-8 として評価　　　→16点
　EUC として評価　　　　→12点

■「UTF-8（BOM無し）」で「SELECT↩️選択」（最後に改行が無い）
　Shift_JIS として評価　→13点
　UTF-8 として評価　　　→11点
　EUC として評価　　　　→10点

と評価されており、最後に改行があるか無いかで判定が分かれていました。

返信

名前:ぽぽろん : 投稿日：2025/02/26(水) 12:28:49 ID：c2Njg3Mzk

今回の場合、「1文字でも無さそうなコードがあったら判定を打ち切る」コードであったら正しく判定されたのだと思います。（これはこれで課題が出てきます）

100%自動判定は難しいため、自分の使うファイルで一番正解が多いものを使用するのが良いという感じになりますね。
なので、今回の件は「仕様通り」となります。

もしも変な文字が来たら判定打ち切り型が必要とかであればソースを示すことも出来るかなと思います。

報告ありがとうございました

返信

名前:おぼれ : 投稿日：2025/02/27(木) 08:23:30 ID：A4ODI0NzQ

リプライありがとうございます。

IF文だらけで全体の仕様をつかんではいないのですが

＞■「UTF-8（BOM無し）」で「SELECT↩️選択↩️」（最後に改行がある）
＞■「UTF-8（BOM無し）」で「SELECT↩️選択」（最後に改行が無い）

・・・ということは・・・
コード47行目
On Error GoTo 0
の後部に

lngFileLen = lngFileLen + 2
ReDim Preserve bytFile(lngFileLen – 1)
bytFile(lngFileLen – 2) = 13
bytFile(lngFileLen – 1) = 10

と無理やり改行コードを追加すればいいのかなと想像してやってみたら判断できました。
あとは他に影響がでなければいいのですけれど…

返信

名前:ぽぽろん : 投稿日：2025/02/27(木) 17:57:30 ID：AyNTE1MTU

その修正方法ですと今回のファイルの場合は「結果として正しい判定」をされますが、誤判定される場合もあると思います。

元のVer.1.6を見直したところ「スコアがやや低めに出る」のが分かったので、その辺を修正して、対象外のコードが来たら判定を打ち切るように修正しました。

コピペし直して試してみてください。

返信

名前:おぼれ : 投稿日：2025/02/28(金) 07:41:25 ID：MxMjA4NTU

早々の対応に感謝申し上げます。

それと余談ですが、当方環境では垂直タブ（VT : Chr(&HB)）が含まれる
（おそらくWebコピペでのテキストファイル）
が散在していたので、各チェックセクションの条件に追加記述して利用させてもらっています。

返信

名前:ぽぽろん : 投稿日：2025/03/01(土) 23:08:13 ID：M1NzYwOTI

環境によってはVTも入りうるんですね、打ち切り型はこの辺が弱点になりますね。自分も仕事で使ってる頃は変なコードが入りうるのでファイル全部を回して点数型にした感じでした

使っていただいてありがとうございます。

返信

名前:たこぶつ : 投稿日：2022/04/12(火) 16:38:32 ID：MyODY5NzM

　「たこぶつの家計簿アプリ研究所」というブログを運営している者です。家計簿アプリ相互間でデータをやりとりするためのExcel VBAマクロを開発・公開しておりますが、最近は家計簿アプリが出力するテキストファイルがShift-JISとUTF-8でエンコードが混在するようになっており、文字化け等を回避してファイルを読み取るために、事前にエンコードを判定する処理が必要になっておりました。
　近日中に公開する新バージョンに、ぽぽろんさんのプログラムを使わせていただきたく存じます。これで処理がかなり楽に、かつ判りやすくなりました。ありがとうございます。まずは御礼まで。

返信

名前:ぽぽろん : 投稿日：2022/04/22(金) 12:41:13 ID：c4NDMyODk

たこぶつさん、コメントありがとうございます。

VBAで文字コードをあれこれするのを調べたとき、情報が少なすぎて悩んだのもあって役に立ったなら幸いです。

返信

名前:dd : 投稿日：2021/06/05(土) 21:20:12 ID：M1MjQwNDk
プログラミング初心者です。とても参考になる記事で助かります。
一つ質問なのですが、 ‘BINARY の行から数えて４行目の
```
b1 >= &HA And b1 <=&H9
```
は不等号の表記間違いでいいんでしょうか？
大小関係が逆に見えます
返信

名前:ぽぽろん : 投稿日：2021/06/06(日) 23:38:15 ID：cwNDYzMjM
ddさん、コメントありがとうございます。

参考になったようで良かったです。

ソースを表示するプラグインが無効となっていたため見づらくて申し訳ありませんでした。

さて、ご指摘の行ですが「そもそもその行は削除する」のが正しかったのですが削除をし忘れていました。

可読性が上がるか分かりませんが表記を変更しました。

ちなみにここのIf文は、テキストに存在しないコードがあった場合はバイナリーと判断する部分です。

具体的には制御コードの内、&H09 TAB、&H0A LF、&H0D CR、&H1B ESC はテキストに存在しうるという判定です。&H7FはDELでテキストには含まれません。

【修正前】
```
If (b1 >= &H00 And b1 <= &H08) Or _  '&H00 - &H08
   (b1 >= &H0A And b1 <= &H09) Or _  'この条件は不要だった
   (b1 >= &H0B And b1 <= &H0C) Or _  '&H0B - &H0C
   (b1 >= &H0E And b1 <= &H19) Or _  '&H0E - &H19
   (b1 >= &H1C And b1 <= &H1F) Or _  '&H1C - &H1F
   (b1  = &H7F) Then                 '&H7F
```
【修正後】
```
If ((b1 >= &H0 And b1 <= &H1F) And _  '&H00-&H1Fは制御コード
     b1 <> &H9 And _                  '&H09 TAB
     b1 <> &HA And _                  '&H0A 改行
     b1 <> &HD And _                  '&H0D 改行
     b1 <> &H1B) Or _                 '&H1B ESC
   (b1 = &H7F) Then                   '&H7Fは制御コード
```
返信

名前:松の間 : 投稿日：2020/09/07(月) 12:07:07 ID：QxNDMxMjg
すみません教えてください。

UTF8 の下記判定について。
```
b4 >= &H80 And b3 <= &HBF
```
となっていますが、2番目はb4だったりするでしょうか？
返信

名前:ぽぽろん : 投稿日：2020/09/14(月) 19:03:16 ID：g0ODMzNjc
松の間さん、コメントありがとうございます。

ご指摘の箇所ですが、
```
And (b3 >= &H80 And b3 <= &HBF) And (b4 >= &H80 And b3 <= &HBF) Then
```
という表記でしたが、最後の「b3」は「b4」が正しいです。
```
And (b3 >= &H80 And b3 <= &HBF) And (b4 >= &H80 And b4 <= &HBF) Then
```
記事を修正しました。
返信

名前:おぼれ : 投稿日：2019/11/28(木) 09:20:17 ID：AzOTUyOTY

有意義な記事で助かります。
掲載コードの５２～６３行目にかけて適切な改行がなされていないようです。
単なるコピペでは動きませんです。

返信

名前:ぽぽろん : 投稿日：2019/12/01(日) 19:35:10 ID：IxNzM5MDc

おぼれさん、コメント＆ご指摘ありがとうございます。

なかなかこの手の話題が見つからなくて、自分で記事にしたものなので活用していただけるとありがたいです。

記事内のプログラムを修正しました。

返信