化学論文を自動翻訳は正しく訳せるか?
比較検証!T-4OO VS 無料翻訳

世界中で新型コロナウイルスが猛威を振るう中、各国の研究者は治療薬やワクチンの開発に向けた研究に猛スピードで取り組んでいます。1分1秒を争う今回のようなパンデミックでは、研究データや成果を迅速に世界と共有することが求められ、 査読や編集などのプロセスが行われる前に論文が投稿される動きが広がっています。

そのため自身の論文をいち早く世界と共有したり、発表された論文を自分の研究に活かしたりするには、スピーディーかつ精度の高い翻訳が重要であることは言うまでもありません。 もはや自動翻訳はなくてはならないツールですが、すべてが問題なく専門分野に対応できるとは限らないようです。

そこで今回はAI翻訳「T-4OO」と無料の自動翻訳を比較し、化学論文の翻訳を検証してみました。

化学論文の「テキスト翻訳」で見えたT-4OOと無料翻訳との違い

専門性の高い化学論文の翻訳は、従来、同分野で修士号や博士号を取得したエキスパートが行ってきました。 化学論文には特殊な固有名詞や成分名、言い回しなどが多数存在し、知識のある者が翻訳を手がけないと意味が通じない可能性があるからです。

例えば、日本語に翻訳されるものもあれば(例:Oxygen=酸素)、英語の発音通りに表記するもの(例:Adenosine=アデノシン)や、語源によって表記するもの(例:Ether=エチール)もあり、さらには常用漢字で書けない「フッ素」や「シュウ酸」はカナ書きにするなど、素人には難しいルールや統一用語が多いのが特徴です。

この専門的な化学分野において、AI翻訳「T-4OO」と無料の自動翻訳はどれくらいの精度で訳すことができるのでしょうか。実際に論文の一部を「テキスト翻訳」して検証してみましょう。

【原文】
Chloroquine, a widely-used anti-malarial and autoimmune disease drug, has recently been reported as a potential broad-spectrum antiviral drug. 8,9 Chloroquine is known to block virus infection by increasing endosomal pH required for virus/cell fusion, as well as interfering with the glycosylation of cellular receptors of SARS-CoV. 10

(引用元:https://www.nature.com/articles/s41422-020-0282-0)

【T-4OO】
クロロキンは、広く使用されている抗マラリアおよび自己免疫疾患薬であり、最近、潜在的な広域スペクトル抗ウイルス薬として報告されている。 8,9 クロロキンは、ウイルス/細胞融合に必要なエンドソームpHを上昇させるとともに、SARS-CoVの細胞受容体のグリコシル化を妨げることにより、ウイルス感染を阻止することが知られている。 10

専門用語の訳し方が正しいのはもちろんのこと、文章の構成もわかりやすく、論文としてそのまま活用できる翻訳です。 また、論文に多用される引用や参考資料を示す脚注番号(上記「8,9」や「10」など)に惑わされず、正確に翻訳ができているのも特筆すべきポイントです。

【Google翻訳】
広く使用されている抗マラリアおよび自己免疫疾患治療薬であるクロロキンは、潜在的な広域抗ウイルス薬として最近報告されました。 8,9 クロロキンは、ウイルス/細胞融合に必要なエンドソームpHを上昇させることでウイルス感染を阻止することも知られています SARS-CoV. 10 の細胞受容体のグリコシル化を妨害する。

Google翻訳は、どうにかして「8,9」と「10」の脚注番号を文章の一部として翻訳しようとしたため、誤訳が生じたのではないでしょうか。 この翻訳をポストエディット無しに使用してしまったら、重大なミスが起きてしまいます。

論文ではいたるところに出典や引用を示す脚注番号が登場するので、T-4OOがいかに論文翻訳において優れているかというのがわかりました。

【Webilo翻訳】
SARS-CoV.10の細胞レセプターのグリコシル化に干渉するだけでなく、クロロキン(広く使われている抗マラリア薬と自己免疫病気薬)は最近潜在的幅広いスペクトル抗ウイルスdrug.8(クロロキンがウイルス/細胞融合のために必要とされるendosomalなpHを増やしてウイルス感染を妨げることが知られている9)として報告されました。

「Google翻訳」と同様に脚注番号の判別に失敗し、誤訳が生じています。また、 “endosomal pH”はそのまま“endosomalなpH”に、また細胞受容体である“cellular receptors”は“細胞レセプター”と直訳されてしまいました。

続いて日英翻訳を比較してみましょう。

【原文】
SARS-CoV-2 ウイルス感染の場合、炎症誘導にはその細胞受容体である ACE2 が関連する経路も活性化して炎症誘導に関連します。前述したように、SARS-CoV-2 が細胞に感染すると細胞膜上の ACE2 発現が減少し、そのリガンドであるアンジオテンシン 2(AngII)が増加し、アンジオテンシン受容体タイプ1(AT1R)との結合を介して炎症増強作用を発揮します。

(引用元:https://www.hokudai.ac.jp/news/pdf/200424_pr3.pdf)

【T-4OO】
In SARS-CoV-2 viral infections, ACE2, a cellular receptor, also activates relevant pathways to induce inflammation and is associated with induction of inflammation. As mentioned above, when SARS-CoV-2 infects cells, it decreases ACE2 expression on the plasma membrane and increases its ligand angiotensin 2 (AngII), which exerts an inflammation-enhancing effect through binding with angiotensin receptor type 1 (AT1R).

こちらも専門用語の訳は正しく、英語ならではの文章構成に沿って翻訳されています。 違和感なく、すらすらと読める翻訳で、ポストエディットなしに世界と共有できる論文翻訳となりました。

【Google翻訳】
In the case of SARS-CoV-2 virus infection, the pathway associated with its cellular receptor, ACE2, is also involved in the induction of inflammation and is involved in induction of inflammation. As described above, infection of cells with SARS-CoV-2 decreases ACE2 expression on the cell membrane, increases its ligand, angiotensin 2 (AngII), and mediates its binding to angiotensin receptor type 1 (AT1R). Exerts an effect of enhancing inflammation.

専門用語は正しく訳されているものの、翻訳の重複を含め、わかりにくい文章構成です。 さらには論文には不適切ともいえるカジュアルトーンが指摘でき、ポストエディットなしでは厳しい翻訳だと言わざるをえません。

化学論文を丸ごと翻訳できる「ファイル翻訳」に感じたT-4OOの真骨頂

ここまで紹介した翻訳例は「テキスト翻訳」を活用したものです。しかし、実際の論文は何万文字にもおよび、表やグラフ・画像が取り込まれた複雑なレイアウトです。 そのような論文を部分的にコピーペーストして翻訳にかけるのは必然的に忍耐力と時間を要します。

そこで欠かせないのが、ファイルを丸ごと翻訳できる 「ファイル翻訳」 です。なお、ごく一部の無料翻訳もファイル翻訳を提供していますが、レイアウトが大幅に崩れたり、余計な改行により翻訳精度が大幅に落ちたり、またアップロード可能なデータ量の上限が小さかったりと、デメリットが目立ちました。

一方で最大100MBまで可能なT-4OOのファイル翻訳は、翻訳のクオリティを妥協することなく、そのままのレイアウトを維持できるため、論文翻訳にはうってつけのツールといえます。

今回、ファイル翻訳してみたのは、こちらの論文です。

(引用元:https://www.nature.com/articles/s41467-020-16048-4)

まず、無料翻訳はタイトルの時点で「迷訳」に陥ってしまいました。

【原文】Neutralization of SARS-CoV-2 spike pseudotyped virus by recombinant ACE2-Ig
【T-4OO】組換えACE2-IgによるSARS-CoV-2スパイク偽型ウイルスの中和
【Google翻訳】SARS-CoV-2スパイク偽型の中和組換えACE2-Igによるウイルス

興味深いのは、このタイトルのみを同じ無料翻訳でテキスト翻訳してみると、正確な翻訳が作成されることです。 T-4OOがいかにファイル翻訳にも長けているかを物語っています。

さらに、論文でよく見られる節と節の関係性がわかりづらい文章構成についても違いが明確に現れました。

【原文】
Here, we show that recombinant protein of the extracellular domain of human ACE2 fused with the Fc region of the humanimmunoglobulin IgG1 (termed as ACE2-Ig) shows high-affinity binding to the receptor-binding domain (RBD) of SARS-CoV and SARS-COV-2 and exerted desired pharmacological properties.

【T-4OO】
ここでは、ヒト免疫グロブリンIgG1(ACE2‐Igと呼ばれる)のFc領域と融合したヒトACE2の細胞外ドメインの組換え蛋白質が、SARS‐CoVおよびSARS‐COV‐2の受容体結合ドメイン(RBD)への高親和性結合を示し、所望の薬理学的特性を発揮することを示した。

【Google翻訳】
ここでは、細胞外の組換えタンパク質ヒトのFc領域と融合したヒトACE2のドメイン免疫グロブリンIgG1(ACE2-Igと呼ばれる)は高親和性を示しますSARS-CoVの受容体結合ドメイン(RBD)への結合SARS-COV-2および望ましい薬理学的特性を発揮しました。

Google翻訳の結果と比較すると、T-4OOは日本語の文章構成に沿って訳文が作成されているため、混乱を招きにくい優れた翻訳です。 また、「たんぱく質」「タンパク質」「蛋白質」と、あらゆる表記が存在する“Protein”の翻訳においては、日本医学会が推奨する「蛋白質」を選択するなど、ここでもT-4OOのファイル翻訳の精度の高さがうかがえました。

高精度なAI翻訳がアフターコロナの化学論文翻訳には不可欠

論文を世界中の研究者と共有するために欠かせない自動翻訳。しかし、今回の検証からもわかるように無料の自動翻訳だけに頼ってしまうと、重大な翻訳ミスが生じたり、ポストエディットに時間を要してしまったりというデメリットを避けられません。

AI自動翻訳T-4OOなら、専門分野における翻訳精度はもとより、訳される言語の文章構成に沿って訳文が作成されるため、ポストエディットなしでも十分に活用できることがわかりました。 また、優れたファイル翻訳により、タイムロスなしに効率的に翻訳できるのも魅力です。

人間のライフスタイルや価値観が変わるといわれているアフターコロナ。今後はよりスピードが求められると推測できる研究の世界で、T-4OOの導入は大きな成果を見込めるでしょう。

筆者:大庭有美(オオバ ユミ)/バイリンガル·ライター
オーストラリア·シドニー在住30年。15年に渡りオーストラリアの日系媒体にて編集ライターおよび翻訳·通訳として活動。グルメ、芸能、インタビュー、育児、イベント、スポーツ関連の記事を主に担当している。