国内最高水準の多言語機械翻訳MT Plus

 

グローバル知財戦略の要はグローバルな知財情報・技術情報

 

特許庁データから明らかなように、日本特許のみならず米国特許・中国特許・欧州特許・韓国特許など外国特許調査が必須になってきました。特許庁J-PlatPatや日本特許情報機構 JGPG検索サービスでは、いち早く外国特許公報を日本語で串刺し検索して、公報テキストを日本語で表示する検索サービスを提供しています。日本特許翻訳株式会社では、特許庁J-PlatPatの中国実案抄録で用いられたMT Plus翻訳技術を開発した翻訳技術を保有しています。

 

 

MT Plusの翻訳エンジンとその精度比較

欧米圏の言語では、S(主語)-V(動詞)-O(目的語)の語順が同一であり、このような言語間の機械翻訳は精度がよく広く実用化されています。一方日本語ではS-O-Vとその語順が大きく異なり、英日の統計的機械翻訳(SMT)の精度はルールベース翻訳を上回ることができませんでした。

2010年頃を境に、あらかじめ訳文対となる英文をS-O-V形式の語順変換を行ってからSMTを適用する方法を用いることで、英日でも「わからない」⇒「わかる」へ質的に精度が向上し、2013年のNTCIR-10タスクで、SMTがルールベースの精度を上回ることが初めて立証されました。(Isao Goto, Ka Po Chow,Bin Lu,Eiichiro Sumita and Benjamin K. Tsou. Overview of the Patent Machine Translation Task at the NTCIR-10 Workshop. NTCIR-10, 2013.) SMTの特許業界への適用事例も2013年に相次いで発表されました。

2013年3月21日 (独)情報通信研究機構-日本発明資料株式会社 “英語特許文”の高精度「自動翻訳ソフトウェア」を開発

2013年3月28日 (独)情報通信研究機構-一般財団法人日本特許情報機構 NICTの高精度な中日自動翻訳ソフトウェアがJapioのサービスに

 

日本特許翻訳株式会社ではSMTエンジンに独自のプリエディット+ポストエディットエンジンを加えた中日・英日高精度機械翻訳システムMT Plusを特許専用の翻訳サーバーシステムとして商用サービスを開始しました。競合他社に比べて、USPや中国実案の1段落当たりの翻訳誤り数が少なく、最も高精度である結果が得られています。

AAMT Journal Vol.56 P40

 

XML対応多言語翻訳システムMT Plus

公報原文はXMLで記述されており、XMLはタグにより構造化されたドキュメントです。翻訳システムは一般にタグを破壊することが多く、XML非対応の翻訳システムでは、公報原文をプレーンテキスト化して翻訳し、翻訳結果はプレーンテキストで表示されます。この場合、数式・上付き文字・下付き文字・化学式・テキスト中への図挿入・表組み・構成要素段落構造などの公報原文の重要な情報が失われることがあります。

MT Plusは、公報XMLに対応可能なシステムであり、タグ情報が破壊されない改善を行っています。またMT Plusでは、日本特許翻訳株式会社の保有する電子組版技術(XML組版)により、翻訳結果を原文タグ情報を反映した独自のXML文書に再構築してpdf化するため、公報原文情報を損なうことなく文書化することが可能です。

 

 

 

 

外国翻訳明細書PatSpreadの特徴

 

(1)公報XML対応の見開きレイアウト

PatSpreadは、米国特許、中国特許・実案、韓国特許、ヨーロッパ特許、WO特許の五大特許庁の外国公報を多言語翻訳システムMT Plusにより日本語化されたXML対応のPDF翻訳明細書です。公報原文はXML形式で各国特許庁より提供されており、PatSpreadは数式や化学式、図、改行などのXMLタグ情報を翻訳結果に反映可能としまた。

あわせて、PatSpreadは以下に述べるメリットを有する2頁見開き形式(スプレッド)で提供されます。一般に、公報種別(公開・登録)や国により公報の段落の順序が異なりますが、PatSpreadでは、書誌情報、発明の名称、要約+代表図、請求の範囲、詳細な説明、図面という順番に規格化されています。その結果、PatSpreadでは、最初の頁に発明特定事項に関係する重要情報が、次ページ以降に詳細な説明、最後に図面という順番でどの公報でも同じように表示されます。そのために、翻訳結果をPatSpreadXML形式に変換してからXMLPDF出力を行っています。

PatSpreadフロントページ例:図とテキストが統合されて横長見開き2ページで表示されます。 

       

 

(2)図と図の説明の本文への組み込み

  中国特許の図の本文への組み込み例

  韓国特許の組み込み例

従来の公報では、本文テキストと図の説明、図面が別々の頁にあるため、検索システムで2画面表示するなどの工夫が必要でした。NEFスプレッドでは、本文中に図と図の説明を組み込むことで精読しやすくすると同時に、 90°回転した図の向きも自動検知して正しい向きにしています。(: 図のテキストが手書きや不鮮明な場合対応できないことがあります)

 

図と図の説明段落では、以下に示すように各図に説明を付けて、全ての図とその説明をまとめて表示します。

 

(3)数式XMLの高精細な表示が可能

外国XML公報では数式をmathMLというXML形式で表しています。PatSpreadでは下のような複雑なmathMLにも対応しており、高精細に数式を表示可能です。下は中国実用新案で、数式が請求の範囲になっている例です。

 

(4)本文中の化合物構造式の表示や下付き文字に続く化合物名が正しく翻訳

USP で、請求の範囲が化学構造式になっている例です。 

 

 

(5)本文中の表も翻訳されて表示

本文の中に表が組み込まれ、セル内データも翻訳されて表示されます。

 

 

 

(6)原文PatSpreadにより原文参照が容易

PatSpreadダウンロード時に同時にダウロード可能な原文PatSpreadを用いて、同じルールで表示される段落番号により原文対応がとりやすい。原文もテキストなので、テキスト抽出が可能です。

詳細な説明はXML指定通りの段落番号が[00001]などの5桁の数字で表示されます。

 

  原文PatSpread                                                                                                      

 

 

 

(7)テキスト部の論理構造と句読点・セミコロン

PatSpreadは、発明特定事項の論理構造をわかりやすく表現するためのいくつかの工夫を行っています。

()列挙表現(英語でA,B and C )の場合の列挙要素区切りは半角コンマとして、読点は使わないようにして区別しています。下記CN101714997Aの例では、「方法,装置及びシステム」 は「 A=方法 B=装置 C=システム」の列挙表現になっています。「半角コンマ」と「及び」 や 「と」 で列挙要素をつなげて表現します。PatSpreadでは列挙要素を「読点」で区切らないように区別しています。 

()セミコロンで区切られる構成要素単位で体言止め表現として改行します。上の例の・・・ことと、改行

 (注: テキスト中の文字の色は説明用です。実際には文字色は黒一色のみです)

例:CN101714997

【要約】

本発明は、ファイアウォール・ポリシーを生成する方法,装置及びシステムを提供する。そこにおいては、ファイアウォール・ポリシーを生成する方法は要求元アドレス,要求先アドレスと要求サービスの種類を含むポリシー要求情報を受信することと、

要求元に基づいてアドレス及び要求先アドレスを予め記憶されたアドレス領域関係テーブルからオリジンサーバと宛先サーバが位置する領域を取得することと、

起点サーバと宛先サーバが配置される領域は、予め記憶された領域からポリシー関係テーブルと起点サーバと宛先サーバが配置される領域に対応する戦略を送信元アドレス,ポリシーの宛先アドレス,およびポリシーサービスタイプを含む領域のポリシー情報を取得することと、

要求元アドレス戦略を送信元アドレスとの論理演算を行う送信元アドレスは、論理結果を生成する。要求先アドレス戦略を宛先アドレスに論理演算を行う目的アドレス論理結果を生成する。要求サービスタイプのポリシーは、サービスの種類との論理演算を行うサービスタイプ論理結果を生成することと、

ソースアドレス論理結果,宛先アドレス論理結果およびサービスタイプの論理結果,要求状態およびポリシー状態の関係に基づいて、ファイアウォール・ポリシーを生成する。

 

 

(8)長文テキスト部の短文化など

PatSpreadでは、原文が長文でもプリエディットエンジンにより翻訳文は短文化されます。(下のCN101719593Aの例では、原文の句点数は3個→翻訳文の句点数8個。)

・原文半角のアルファベット・数字は、原文通り半角文字を使用。(注: テキスト中の文字の色は説明用です。実際には文字色は黒一色のみです)

・詳細な説明はXML指定通りの段落番号が[00001]などの5桁の数字で表示されます。

(注: テキスト中の文字の色は説明用です。実際には文字色は黒一色のみです)

例:CN101719593

【要約】

本発明は、広帯域,多周波無指向性アレイアンテナが開示されている、従来の全アレイアンテナの帯域が狭く,無指向特性を受けやすい周辺環境に影響する問題を解決する。この広帯域,多周波無指向性アレイアンテナは、誘電材料プレート(1),放射素子(2),輻射床(3),フィードネットワーク(4)を含む。アレイアンテナの放射素子及びアレイアンテナ輻射床媒体材料のシート(1)の一方の側に印刷され、給電ネットワーク媒体材料のシート(1)の他方の側に配置されている。放射素子(2)は、指数曲線aebx折り線とアームダイポール構造を構成する。各放射素子は、順方向および逆方向クロスを配置する方式を採用して、または順次半分で順方向配置され、残りの半分は逆方向に配置されている。給電ネットワークそして、供給 ()給電方式を採用して、各放射素子そして、供給 ()給電ネットワーク上のバランを介してそれぞれ結合励起する。本発明は、広帯域,多周波,全性能に優れた利点を有している。IMT-Advancedシステムで無指向性アレイアンテナを使用するように、移動通信分野として使用することができる。

 ・

 ・

[00001]

【技術分野】

[00002]

本発明は、アンテナ技術の分野に属し、特に広い,マルチバンド無指向性アレイアンテナに関するものである。移動体通信における基地局アンテナとして機能する。

[00003]

【背景技術】

[00004]

 

 

利用シーン

インターネットから外国公報番号を一括指定して、PatSpread(原文と翻訳pdf)を一括ダウンロードすることができます。以下の利用シーンにお使いいただけます。

 

 

機能サマリー

PatSpreadの仕様を表1にまとめました。

表1 PatSpread機能サマリー

項目

PatSpread機能 2

翻訳方式・ファイル形式

処理時間

オンデマンド翻訳方式(最新辞書が常に反映される)pdfファイル

リアルタイムに翻訳されない。10分程度処理に時間がかかる。

見やすさと操作性

見開き2ページ横長で書誌+要約+代表図+請求の範囲が一画面に集約。また全図と図の説明が上下に配置される。

中国特許・実案  

データカバレッジ(発行日)

 1986/1-直近(1日程度の遅れ) 

翻訳文の特徴

構成要素単位に改行挿入や列挙表現は半角コンマで区切るなど論理構造をわかりやすく表現。

数式表示

数式タグを数式変換して表示が可能(高精細表示可)

フォント

 游明朝体(pdfフォント埋め込み方式)

 ジャギーにならず濃くつぶれもなく自然な字体

 アルファベット数字:半角文字使用

xmlの表

 対応可(セルデータ翻訳可)

上付き/下付文字

 対応可

対訳表示

原文参照

  対応せず

原文PatSpreadが同時にダウンロードされる。この原文PatSpreadを用いて、同一の段落番号で原文参照可能。

 

最終更新日 201543