pdfをコピペすると文字化けする

カテゴリー: タグ:


請求書や稟議書、webデザイン前のワイヤーフレームなど、そのものを作成する際のソフトは様々ですが、出来上がったものを相手に渡す際はほぼpdfが主流になり、ひと昔前と比べたらとても便利な世の中になりました。
その便利なはずのpdfですが、まれにやっかいなことをしてくれます。
文字化け!
例えば、受け取ったpdf内にある文字や文章をそのまま利用しようと、コピペ(コピーアンドペーストする)すると文字化けをおこし、そのままでは利用できなかったりします。



この症状も時と場合によって様々なようで、どうにかできないかと色々調べた結果、私がよくつかまる文字化けは簡単な漢字ほど文字化けを起こす症状がほとんどのため、まずはこの症状を回避する方法を下記していこうと思います。
といっても下記サイトの受け売りです。
https://note.com/side7/n/n957809e268bf



pdfが文字化けする文字

上記した通り、私の場合は簡単な漢字ほど文字化けします。
例えば、西、入、姿、女、門、見、水等など
あとは記号「・」とかもです
最初は文字化けしている箇所だけ修正していたのですが、書類やワイヤーフレームとかになると文字数も多く、チェックするだけでも時間がかかるため、結果、全て手入力するようになりました。
ですが目の前にそのものがあるのにわざわざ手入力するのも・・・と思い、調べ直してみたのです。


pdfが文字化けする原因

文字化けする原因は正直なところ様々なようです。
ただ、私のような簡単な漢字が文字化けをおこすのは、康煕部首というユニコードが原因のようです。
こちらのページ→https://www.hanano-ya.jp/blog/web/12729 によると、
「word等で文書を作成してそれをPDF化したりするときに、Microsoft Print to PDFを使うと勝手に変換されてしまう」
とのこと。 あくまで勝手な憶測ですが、webデザイン前に送られてくるワイヤフレームをwordで作ることなんてあるのか?と。
というか、excelならまだしもwordで作る方がもの凄く手間がかかりそうだぞと思うのです。
勿論直接相手に伺ったことがないので、実際のところは不明なのですが、これもまた憶測で、wordが勝手に変換するならexcelも勝手に変換するんじゃないの?と。
まぁそこを深堀しても仕方ないので、とりあえず先にすすめますが、なんにせよ、この文字化けしてしまうpdfは相手次第のため防ぎようがないということです。
ではどうするか・・・


pdfの文字化けを正常化する方法

文字化けを起こしている文字を正常化してくれるサイトがありました。
こちらです → https://ao-system.net/kangxiradical/
使い方もとてもシンプルで、pdfの文字をコピーし、このサイトに貼り付ければ、エラー箇所が幾つあり、正常化された同文がその下に表示されます。
こういうことを理解し、プログラムを組める頭になりたいです(苦笑)。