コラム

 公開日: 2014-03-09  最終更新日: 2014-08-08

OCR認識後のテキストを「整形」する(1)

PDFから文字を抽出する」との関連です。

たとえば、5行ごとに行番号の入った英文があるとします。
OCRのプログラムには、どこが本文で、どこが行番号なのか、区別がつきません。
すべて、「文字」として扱われます。

このため、OCRでテキスト化した文字を選択すると、下の画像のようになります。

OCRテキストコピー

そのままコピーしてWordやエディタなどに貼り付けると、どうなるでしょう。

OCR貼り付け

行番号の数字(画像中で赤字表記)が、文の中に混じってしまいます。
その上、もともとあったはずのタブ(黄色のハイライト位置)まで、落ちてしまいました。
タブはともかくとして、数字の混入は、困りますよね。

この数字を消したいときに、どうするか。
Wordのワイルドカード機能を使えば、簡単です。

ワイルドカード置換

検索する文字列には、
   ^13<([12350]{1,2})
と入れてあります。末尾の「)」の後ろに、見えませんが半角スペースが1つあります。

置換後の文字列は、半角スペース1つです。
(上の画像は、わかりやすいようカーソル位置に縦棒が入る形で取得しましたが、文字として縦棒を入れてあるわけではありません。)

そしてオプションの「ワイルドカードを使用する」にチェックをつけて、置換を実行します。
一括置換だと行番号以外のものがあったときに怖いという人は、「次を置換」でひとつずつ目視確認した上で置換すればよいと思います。

検索する文字列の意味は、

^13 = 改行
< = 単語の先頭
([12350]{1,2}) = 半角1、2、3、5、0のうち任意の1文字または2文字

です。
使用したデータに含まれる行番号が5、10、15、20、25、30、35でしたので、このように書きました。

もし、45まであるなら、
^13([123450]{1,2})
とすればよいでしょう。

単語の先頭を示す文字は、なくても構いません。ある意味での保険的な位置付けです。

改行記号を使っているのは、OCRテキストが各行末に改行を入れてくるからです。
置換後の文字列を半角スペース1つにすることで、この改行が消えます。

もし、純粋に行番号だけを消して改行は残したいのなら、置換後の文字列は改行コード1つ(^13)にします。

タブ部分の戻し方については、次回に。


■関連コラム記事
PDFから文字を抽出する
複数のファイルを一括でPDFに
OCR認識後のテキストを「整形」する(2)

■関連メールマガジン記事
PDFからテキストを取得するのは・・・
OCRテキストを使う「実験」とは

この記事を書いたプロ

有限会社サグラーシェ

通訳・翻訳 水野麻子

東京都西東京市新町4-1-3-601 [地図]
TEL:0422-38-5035

  • 問い合わせ

このコラムを読んでよかったと思ったら、クリックしてください。

「よかった」ボタンをクリックして、あなたがいいと思ったコラムを評価しましょう。

2

こちらの関連するコラムもお読みください。

<< 前のコラム 次のコラム >>
最近投稿されたコラムを読む
著作・講演など

■著書・『語学力ゼロで8ヵ国語翻訳できるナゾ―どんなビジネスもこの考え方ならうまくいく』 (講談社 2010.2;現在6刷)・『大人のための「超手抜き」英語勉強法』...

メディア掲載
ジャパンタイムズ

Japan Times(2002/2/18)TRANSLATION AND INTERPRETATION(6面) 特許翻訳業界の現状と将来の展望に関する記事です。英日翻訳で10,000ワード/日(※)の処理速度や、方法...

 
このプロの紹介記事
特許翻訳のノウハウは自著などで公開。

9つの言語で特許翻訳を手がけた経験がある(1/3)

 特許翻訳のスペシャリストとして活躍中の水野麻子さん。この道22年のベテランです。玩具、食品、電気、機械、化学、最先端のバイオやITなど、手がける特許翻訳は多岐にわたります。かなり専門性の高い内容でも、その完成度が高い仕事ぶりが水野さんの強...

水野麻子プロに相談してみよう!

朝日新聞 マイベストプロ

完成度の高い特許翻訳をスピーディーに行う

会社名 : 有限会社サグラーシェ
住所 : 東京都西東京市新町4-1-3-601 [地図]
TEL : 0422-38-5035

プロへのお問い合わせ

マイベストプロを見たと言うとスムーズです

0422-38-5035

勧誘を目的とした営業行為の上記電話番号によるお問合せはお断りしております。

水野麻子(みずのあさこ)

有限会社サグラーシェ

アクセスマップ

このプロにメールで問い合わせる
プロのおすすめコラム
科学技術英語 1700万語のコーパス
イメージ

サイト側のモバイル対応の有無を検索順位決定に使うGoogleの仕様変更や、サイト運営者によるSEO対策、機械翻訳コン...

[ 訳語調べ&情報収集 ]

誤訳訂正制度があるから安心?

日本では、平成6年の改正特許法(7年7月1日施行)で外国語書面出願制度が導入されました。同時に、翻訳文の...

[ 特許明細書 ]

政府の権利 珍訳・迷訳の原因は?

ときどき、英文明細書の冒頭に「Government Rights」の記載がなされていることがあります。発明(の少なくとも一...

[ 特許明細書 ]

複数のWord/Excel文書をまとめてPDFに
イメージ

WordやExcelで作成した複数の文書ファイルを、一括でPDFに変換したいという需要はわりとあるようです。それも、...

[ 各種ソフトウェア ]

アスタミューゼを使った「誤訳」判断

「世界中の課題を解決し、未来を創る人のプラットフォーム」であることを掲げたastamuse(アスタミューゼ)という...

[ 訳語調べ&情報収集 ]

コラム一覧を見る

スマホで見る

モバイルQRコード このプロの紹介ページはスマートフォンでもご覧いただけます。 バーコード読み取り機能で、左の二次元バーコードを読み取ってください。

ページの先頭へ