コラム

 公開日: 2014-03-01  最終更新日: 2015-03-27

PDFから文字を抽出する

コンピューターと役割分担をしながら翻訳の品質と速度を同時に向上させるには、テキストデータが不可欠です。
翻訳ソフトを「使用しない」前提でも、いろいろな場面でテキストデータが役に立つからです。
ただ、原稿を紙で受け取ることもあれば、PDFで受け取ることもあります。

PDFの場合、Wordなどのテキストファイルから単純にPDF変換したものは、文字部分の選択→コピーで文字だけ抽出することができますが、スキャン画像がもとになっている場合は、同じ方法が使えません。
複合機に紙原稿をスキャンしてPDFファイルを作る機能があり、これで作成されたものが典型です。

この場合、Adobe AcrobatのOCR(光学文字認識)機能で、文字だけ抜き出すことが可能です。
まず、[文書]メニューの[OCRテキスト認識]から、[OCRを使用してテキストを認識]を選んでください。

PDFのOCR

下のような項目が出ますので、条件を設定してOKボタンを押します。
設定項目を変えるには、右下の「編集」ボタンを押してください。

言語選択

言語だけでも、相当数の言語が選択肢として出てきます。
画像はロシア語で試したものですが、かなりの識字率でした。

OCRで取得したテキストの用途にもよりますが、少なくとも翻訳の品質と速度を向上させる目的であれば、識字率100%は必要ありません。

誤認識があるという前提で作業工程を組めばよいだけなので、AcrobatのOCRで十分すぎるくらい十分に役立ちます。
なお、複数のファイルに対してOCRをかけたいときは、いちど結合すると便利です。


■関連記事
複数のファイルを一括でPDFに
OCR認識後のテキストを「整形」する(1)
OCR認識後のテキストを「整形」する(2)

この記事を書いたプロ

有限会社サグラーシェ

通訳・翻訳 水野麻子

東京都西東京市新町4-1-3-601 [地図]
TEL:0422-38-5035

  • 問い合わせ

このコラムを読んでよかったと思ったら、クリックしてください。

「よかった」ボタンをクリックして、あなたがいいと思ったコラムを評価しましょう。

5

こちらの関連するコラムもお読みください。

<< 前のコラム 次のコラム >>
最近投稿されたコラムを読む
著作・講演など

■著書・『語学力ゼロで8ヵ国語翻訳できるナゾ―どんなビジネスもこの考え方ならうまくいく』 (講談社 2010.2;現在6刷)・『大人のための「超手抜き」英語勉強法』...

メディア掲載
ジャパンタイムズ

Japan Times(2002/2/18)TRANSLATION AND INTERPRETATION(6面) 特許翻訳業界の現状と将来の展望に関する記事です。英日翻訳で10,000ワード/日(※)の処理速度や、方法...

 
このプロの紹介記事
特許翻訳のノウハウは自著などで公開。

9つの言語で特許翻訳を手がけた経験がある(1/3)

 特許翻訳のスペシャリストとして活躍中の水野麻子さん。この道22年のベテランです。玩具、食品、電気、機械、化学、最先端のバイオやITなど、手がける特許翻訳は多岐にわたります。かなり専門性の高い内容でも、その完成度が高い仕事ぶりが水野さんの強...

水野麻子プロに相談してみよう!

朝日新聞 マイベストプロ

完成度の高い特許翻訳をスピーディーに行う

会社名 : 有限会社サグラーシェ
住所 : 東京都西東京市新町4-1-3-601 [地図]
TEL : 0422-38-5035

プロへのお問い合わせ

マイベストプロを見たと言うとスムーズです

0422-38-5035

勧誘を目的とした営業行為の上記電話番号によるお問合せはお断りしております。

水野麻子(みずのあさこ)

有限会社サグラーシェ

アクセスマップ

このプロにメールで問い合わせる
プロのおすすめコラム
科学技術英語 1700万語のコーパス
イメージ

サイト側のモバイル対応の有無を検索順位決定に使うGoogleの仕様変更や、サイト運営者によるSEO対策、機械翻訳コン...

[ 訳語調べ&情報収集 ]

誤訳訂正制度があるから安心?

日本では、平成6年の改正特許法(7年7月1日施行)で外国語書面出願制度が導入されました。同時に、翻訳文の...

[ 特許明細書 ]

政府の権利 珍訳・迷訳の原因は?

ときどき、英文明細書の冒頭に「Government Rights」の記載がなされていることがあります。発明(の少なくとも一...

[ 特許明細書 ]

複数のWord/Excel文書をまとめてPDFに
イメージ

WordやExcelで作成した複数の文書ファイルを、一括でPDFに変換したいという需要はわりとあるようです。それも、...

[ 各種ソフトウェア ]

アスタミューゼを使った「誤訳」判断

「世界中の課題を解決し、未来を創る人のプラットフォーム」であることを掲げたastamuse(アスタミューゼ)という...

[ 訳語調べ&情報収集 ]

コラム一覧を見る

スマホで見る

モバイルQRコード このプロの紹介ページはスマートフォンでもご覧いただけます。 バーコード読み取り機能で、左の二次元バーコードを読み取ってください。

ページの先頭へ