J-STAGEの全文XML作成ツールでWordから全文XMLに変換してみた

J-STAGE, 2022.11.30

どうも。菊池です。最近は朝晩の冷え込みが厳しくなってきました。秋から冬にかけての衣替えの時期になり、外でクリスマスツリーを見かけるとあっという間の一年としみじみ考えてしまいます。今年の抱負も達成できたかな、とか。

それはさておき、J-STAGEでは全文HTML公開に力を入れており、J-STAGE全文XML関連機能改修が2022年3月にリリースされています。こちらの改修により、現在公開している書誌事項のみの記事も全文HTMLで公開することが可能になりました。

J-STAGEで全文HTML公開の需要が増える可能性があります。アトラスでは普段からJ-STAGEやPMC公開用の全文XMLを作成していますので、データを作る側の観点から全文XML作成ツールを利用しました。

今回は全文XML作成ツールの概要と各機能のWord原稿変換、チェック、プレビュー、エクスポートの確認と実際に使ってみた使用感についてお届けします。

なお、全文XML作成ツールはJ-STAGE編集登載システムログイン後に利用可能なツールのため、操作画面はJ-STAGEのマニュアルや動画があるXMLフォーマットガイドラインのページをご参照ください。

全文XML作成ツールについて

全文XML作成ツールは、WordまたはTeXからJ-STAGE登載用の全文XMLを作成するツールです。インポート機能もありますのでXMLを読み込み、データの編集やチェックに使用できます。

原稿変換でXMLを作成できますが、作成後に本文などXMLを編集するケースもありますのでXMLに関する知識は必要です。

全文XML作成ツールの各機能について

原稿変換機能

原稿変換は全文XMLを作成する上で一番大事な機能になります。今回はWordを変換します。原稿変換で全文XMLへ出力する項目は、①J-STAGEの資料情報から取得、②原稿変換時に入力、③Wordのスタイルから抽出、④Wordの機能から抽出の4つに分けられます。

Word原稿変換元の表

全文XMLの構成で資料情報、書誌事項、本文、後書きの4つに分けて原稿変換で作成される項目を表にしました。

資料情報

項目 変換元 変換後の確認・対応
資料コード ①J-STAGEの資料情報から取得
資料名 ①J-STAGEの資料情報から取得
ISSN情報 ①J-STAGEの資料情報から取得
発行機関情報 ①J-STAGEの資料情報から取得

書誌事項

項目 変換元 変換後の確認・対応
記事記述言語 ②原稿変換時に入力
記事種別 ②原稿変換時に入力
②原稿変換時に入力
②原稿変換時に入力
開始ページ
終了ページ
②原稿変換時に入力
※変換方法が「個別」のみ入力可
変換方法が「複数」の場合は、各記事毎に設定が必要
論文番号 ②原稿変換時に入力
※変換方法が「個別」のみ入力可
変換方法が「複数」の場合は、各記事毎に設定が必要
記事タイトル ③Wordのスタイル
記事サブタイトル ③Wordのスタイル
著者姓名
著者所属番号
③Wordのスタイル 変換できないケースもあるため要確認
所属機関名 ③Wordのスタイル 変換できないケースもあるため要確認
抄録の見出し なし 原稿変換では対応していないため、変換後に修正
抄録 ③Wordのスタイル
キーワード ③Wordのスタイル
発行年
発行日
②原稿変換時に入力 変換時は同じ日付を設定するため、記事毎に日付を確認
受付日 ②原稿変換時に入力 変換時は同じ日付を設定するため、記事毎に日付を確認
改訂日 ②原稿変換時に入力 変換時は同じ日付を設定するため、記事毎に日付を確認
受理日 ②原稿変換時に入力 変換時は同じ日付を設定するため、記事毎に日付を確認
査読有無 ②原稿変換時に入力
最終査読日 ②原稿変換時に入力
※査読有無が「あり」のみ入力可
変換時は同じ日付を設定するため、記事毎に日付を確認
著作権 ②原稿変換時に入力
※デフォルト値は資料情報
ライセンス ②原稿変換時に入力
※デフォルト値は資料情報

本文

項目 変換元 変換後の確認・対応
章節項目 ③Wordのスタイル
※Word標準の「見出し」スタイル
変換後の影響が大きいため、Word時点で要確認
本文 ④Wordの段落
※各項目で変換しない段落すべて
不要な情報も抽出するため、削除が必要な箇所を確認
④Wordの機能(画像)
図キャプション なし 原稿変換では対応していないため、変換後に修正
④Wordの機能(表)
表キャプション なし 原稿変換では対応していないため、変換後に修正
表脚注 なし 原稿変換では対応していないため、変換後に修正
リスト ④Wordの機能(リスト)
・箇条書き
・段落番号
・アウトライン
引用文 ④Wordの機能(インデント)
※字下げした段落
Wordのレイアウト上、字下げする場合もあるため、要確認
数式 ④Wordの機能(数式)
外字 ④Wordの機能(画像)
図表や引用文献の参照リンク ④Wordの機能(ハイパーリンク)
・見出しは見出しへのリンクを設定
・図表や引用文献はブックマークを作成してリンクを設定
※脚注は自動でリンクを付与

後書き

項目 変換元 変換後の確認・対応
謝辞の見出し ③Wordのスタイル
※謝辞前のスタイル「見出し1」
謝辞 ③Wordのスタイル
引用文献の見出し なし
引用文献 ③Wordのスタイル
注釈の見出し ③Wordのスタイル
※注釈前のスタイル「見出し1」
注釈 ③Wordのスタイル
脚注の見出し なし 原稿変換では対応していないため、必要な場合はXML編集で追加
脚注 ④Wordの機能(脚注)
「脚注の挿入」から設定
※自動でリンクを付与

Wordの機能

Word原稿変換はWordのスタイル以外にWordの機能から変換している項目もあります。Wordでどの機能を利用するか分かるように、Wordメニューの各機能を画像にしましたので参考にしてください。

図・外字(挿入->画像)

表(挿入->表)

リスト(ホーム->箇条書き、段落番号、アウトライン)

引用文(レイアウト->インデント)

数式(挿入->数式)

参照リンク(挿入->ブックマーク、リンク)

脚注(参考資料->脚注の挿入)

チェック機能

全文XML作成ツールではXMLのチェック機能があり、データの編集中や作成後にまとめてチェックすることもできます。事前にエラーの箇所を確認できますが、少しエラーメッセージがシステム寄りで分かりづらいケースがあり、注意が必要です。

また、作成したデータはアカウント毎にデータを保持しておりますので他アカウントでプレビューする場合は、エクスポート機能とインポート機能を利用してデータを移す必要があります。

プレビュー機能

全文XML作成ツールでは公開画面と異なり、PDFと全文HTMLを並列で表示することができます。PDFと比較することで段落の抜けなど、修正箇所を見つけやすくなります。

エクスポート機能

J-STAGEのアップロード構成でZIPを出力することができます。XML編集時にセキュリティ設定した公開用のPDFに差し替えておくことで、エクスポート後にそのままJ-STAGEにアップロードできます。

全文XML作成ツールの使用感

実際にツールを使用してみて、問題点と良い点があると感じました。

問題点としてはやはりWordです。元データがPDFであることが多く、PDFからWordに変換しても構成が複雑なWordになるため、原稿変換した後もXMLを見直す必要があります。

良い点は原稿変換で書誌事項は5割、本文は8割、後書きは9割の変換を体感できました。その点を踏まえるとWordの見直しや作成までのフローを見直すと比較的簡単に全文XMLを作成できると感じています。また、書誌事項の5割もWeb登載と同じようにUIから入力する対応で解決できます。

全文XML作成ツールは機能改修により複数の記事対応や書誌事項を入力できるUIの実装など、作業者に便利な改修でした。これからの改修も期待しています。

また、今回Wordの原稿変換で試していて、本文を作りやすいように各Wordの機能をスタイルに設定したWordのテンプレートを作成しました。スタイルに設定することでレイアウトも保たれますので1つの方法として参考になれば幸いです。

Atlas_Full-J_Sample

最後に

J-STAGEへ論文を公開されているジャーナルの制作フローの多くは、校正などが終わった最終原稿を印刷会社などで組版されたPDFに変換し利用している事がほとんどです。

一般的にWordは組版前のデータとして利用されており、最終原稿のPDFと中身が同一ではありません。

一方で、全文XML作成ツールはWordを利用するため、最終原稿がPDFとなっている制作フローのジャーナルで利用するのは難しいと思います。

もし全文XML作成ツールを利用する場合は、手順としては以下の2つが考えられますが、この2つはとても手間がかかりそうです。もちろん費用もかかります。

  1. 最終原稿のPDFの内容をWordに転記する。
    チェックポイント:PDFはWordへ変換する事もできますが、100%の完全な変換はできませんので、例えばイタリックや上付き・下付き文字など変換後のWordの内容をPDFと同一であるか、すべてチェック・修正する必要があります。
  2. 転記したWordにスタイルを設定する。
    チェックポイント:Wordのすべての内容にスタイルを設定する必要がありますので、原稿変換後にスタイル設定がなされていない部分があった場合は、Wordに再度スタイル設定をするか、XMLデータを直接修正する必要があります。

最近はJ-STAGEでオンライン公開のみをするジャーナルも増えていますが、制作フローが冊子体と同じままですと上記のとおり手間と費用がかかるため、結果として全文XML作成ツールを利用した全文HTML公開は難しそうです。

全文HTML公開にご興味ございましたら、アトラスでは今回紹介した全文XML作成ツールとは異なる、全文XMLデータ作成を含めたJ-STAGEへのジャーナル公開支援サービスを提供しております。

今後のご参考としてJ-STAGE利用事例なども踏まえたジャーナル公開支援サービスのご説明・オンラインジャーナルに適した制作フローのご相談も可能ですので、こちらからお気軽にご連絡ください。

キーワード : , ,