J-STAGEの全文XML作成ツールでWordから全文XMLに変換してみた
J-STAGE, 2022.11.30どうも。菊池です。最近は朝晩の冷え込みが厳しくなってきました。秋から冬にかけての衣替えの時期になり、外でクリスマスツリーを見かけるとあっという間の一年としみじみ考えてしまいます。今年の抱負も達成できたかな、とか。
それはさておき、J-STAGEでは全文HTML公開に力を入れており、J-STAGE全文XML関連機能改修が2022年3月にリリースされています。こちらの改修により、現在公開している書誌事項のみの記事も全文HTMLで公開することが可能になりました。
J-STAGEで全文HTML公開の需要が増える可能性があります。アトラスでは普段からJ-STAGEやPMC公開用の全文XMLを作成していますので、データを作る側の観点から全文XML作成ツールを利用しました。
今回は全文XML作成ツールの概要と各機能のWord原稿変換、チェック、プレビュー、エクスポートの確認と実際に使ってみた使用感についてお届けします。
なお、全文XML作成ツールはJ-STAGE編集登載システムログイン後に利用可能なツールのため、操作画面はJ-STAGEのマニュアルや動画があるXMLフォーマットガイドラインのページをご参照ください。
全文XML作成ツールについて
全文XML作成ツールは、WordまたはTeXからJ-STAGE登載用の全文XMLを作成するツールです。インポート機能もありますのでXMLを読み込み、データの編集やチェックに使用できます。
原稿変換でXMLを作成できますが、作成後に本文などXMLを編集するケースもありますのでXMLに関する知識は必要です。
全文XML作成ツールの各機能について
原稿変換機能
原稿変換は全文XMLを作成する上で一番大事な機能になります。今回はWordを変換します。原稿変換で全文XMLへ出力する項目は、①J-STAGEの資料情報から取得、②原稿変換時に入力、③Wordのスタイルから抽出、④Wordの機能から抽出の4つに分けられます。
Word原稿変換元の表
全文XMLの構成で資料情報、書誌事項、本文、後書きの4つに分けて原稿変換で作成される項目を表にしました。
資料情報
項目 | 変換元 | 変換後の確認・対応 |
資料コード | ①J-STAGEの資料情報から取得 | |
資料名 | ①J-STAGEの資料情報から取得 | |
ISSN情報 | ①J-STAGEの資料情報から取得 | |
発行機関情報 | ①J-STAGEの資料情報から取得 |
書誌事項
項目 | 変換元 | 変換後の確認・対応 |
記事記述言語 | ②原稿変換時に入力 | |
記事種別 | ②原稿変換時に入力 | |
巻 | ②原稿変換時に入力 | |
号 | ②原稿変換時に入力 | |
開始ページ 終了ページ |
②原稿変換時に入力 ※変換方法が「個別」のみ入力可 |
変換方法が「複数」の場合は、各記事毎に設定が必要 |
論文番号 | ②原稿変換時に入力 ※変換方法が「個別」のみ入力可 |
変換方法が「複数」の場合は、各記事毎に設定が必要 |
記事タイトル | ③Wordのスタイル | |
記事サブタイトル | ③Wordのスタイル | |
著者姓名 著者所属番号 |
③Wordのスタイル | 変換できないケースもあるため要確認 |
所属機関名 | ③Wordのスタイル | 変換できないケースもあるため要確認 |
抄録の見出し | なし | 原稿変換では対応していないため、変換後に修正 |
抄録 | ③Wordのスタイル | |
キーワード | ③Wordのスタイル | |
発行年 発行日 |
②原稿変換時に入力 | 変換時は同じ日付を設定するため、記事毎に日付を確認 |
受付日 | ②原稿変換時に入力 | 変換時は同じ日付を設定するため、記事毎に日付を確認 |
改訂日 | ②原稿変換時に入力 | 変換時は同じ日付を設定するため、記事毎に日付を確認 |
受理日 | ②原稿変換時に入力 | 変換時は同じ日付を設定するため、記事毎に日付を確認 |
査読有無 | ②原稿変換時に入力 | |
最終査読日 | ②原稿変換時に入力 ※査読有無が「あり」のみ入力可 |
変換時は同じ日付を設定するため、記事毎に日付を確認 |
著作権 | ②原稿変換時に入力 ※デフォルト値は資料情報 |
|
ライセンス | ②原稿変換時に入力 ※デフォルト値は資料情報 |
本文
項目 | 変換元 | 変換後の確認・対応 |
章節項目 | ③Wordのスタイル ※Word標準の「見出し」スタイル |
変換後の影響が大きいため、Word時点で要確認 |
本文 | ④Wordの段落 ※各項目で変換しない段落すべて |
不要な情報も抽出するため、削除が必要な箇所を確認 |
図 | ④Wordの機能(画像) | |
図キャプション | なし | 原稿変換では対応していないため、変換後に修正 |
表 | ④Wordの機能(表) | |
表キャプション | なし | 原稿変換では対応していないため、変換後に修正 |
表脚注 | なし | 原稿変換では対応していないため、変換後に修正 |
リスト | ④Wordの機能(リスト) ・箇条書き ・段落番号 ・アウトライン |
|
引用文 | ④Wordの機能(インデント) ※字下げした段落 |
Wordのレイアウト上、字下げする場合もあるため、要確認 |
数式 | ④Wordの機能(数式) | |
外字 | ④Wordの機能(画像) | |
図表や引用文献の参照リンク | ④Wordの機能(ハイパーリンク) ・見出しは見出しへのリンクを設定 ・図表や引用文献はブックマークを作成してリンクを設定 ※脚注は自動でリンクを付与 |
後書き
項目 | 変換元 | 変換後の確認・対応 |
謝辞の見出し | ③Wordのスタイル ※謝辞前のスタイル「見出し1」 |
|
謝辞 | ③Wordのスタイル | |
引用文献の見出し | なし | |
引用文献 | ③Wordのスタイル | |
注釈の見出し | ③Wordのスタイル ※注釈前のスタイル「見出し1」 |
|
注釈 | ③Wordのスタイル | |
脚注の見出し | なし | 原稿変換では対応していないため、必要な場合はXML編集で追加 |
脚注 | ④Wordの機能(脚注) 「脚注の挿入」から設定 ※自動でリンクを付与 |
Wordの機能
Word原稿変換はWordのスタイル以外にWordの機能から変換している項目もあります。Wordでどの機能を利用するか分かるように、Wordメニューの各機能を画像にしましたので参考にしてください。
図・外字(挿入->画像)
表(挿入->表)
リスト(ホーム->箇条書き、段落番号、アウトライン)
引用文(レイアウト->インデント)
数式(挿入->数式)
参照リンク(挿入->ブックマーク、リンク)
脚注(参考資料->脚注の挿入)
チェック機能
全文XML作成ツールではXMLのチェック機能があり、データの編集中や作成後にまとめてチェックすることもできます。事前にエラーの箇所を確認できますが、少しエラーメッセージがシステム寄りで分かりづらいケースがあり、注意が必要です。
また、作成したデータはアカウント毎にデータを保持しておりますので他アカウントでプレビューする場合は、エクスポート機能とインポート機能を利用してデータを移す必要があります。
プレビュー機能
全文XML作成ツールでは公開画面と異なり、PDFと全文HTMLを並列で表示することができます。PDFと比較することで段落の抜けなど、修正箇所を見つけやすくなります。
エクスポート機能
J-STAGEのアップロード構成でZIPを出力することができます。XML編集時にセキュリティ設定した公開用のPDFに差し替えておくことで、エクスポート後にそのままJ-STAGEにアップロードできます。
全文XML作成ツールの使用感
実際にツールを使用してみて、問題点と良い点があると感じました。
問題点としてはやはりWordです。元データがPDFであることが多く、PDFからWordに変換しても構成が複雑なWordになるため、原稿変換した後もXMLを見直す必要があります。
良い点は原稿変換で書誌事項は5割、本文は8割、後書きは9割の変換を体感できました。その点を踏まえるとWordの見直しや作成までのフローを見直すと比較的簡単に全文XMLを作成できると感じています。また、書誌事項の5割もWeb登載と同じようにUIから入力する対応で解決できます。
全文XML作成ツールは機能改修により複数の記事対応や書誌事項を入力できるUIの実装など、作業者に便利な改修でした。これからの改修も期待しています。
また、今回Wordの原稿変換で試していて、本文を作りやすいように各Wordの機能をスタイルに設定したWordのテンプレートを作成しました。スタイルに設定することでレイアウトも保たれますので1つの方法として参考になれば幸いです。
最後に
J-STAGEへ論文を公開されているジャーナルの制作フローの多くは、校正などが終わった最終原稿を印刷会社などで組版されたPDFに変換し利用している事がほとんどです。
一般的にWordは組版前のデータとして利用されており、最終原稿のPDFと中身が同一ではありません。
一方で、全文XML作成ツールはWordを利用するため、最終原稿がPDFとなっている制作フローのジャーナルで利用するのは難しいと思います。
もし全文XML作成ツールを利用する場合は、手順としては以下の2つが考えられますが、この2つはとても手間がかかりそうです。もちろん費用もかかります。
- 最終原稿のPDFの内容をWordに転記する。
チェックポイント:PDFはWordへ変換する事もできますが、100%の完全な変換はできませんので、例えばイタリックや上付き・下付き文字など変換後のWordの内容をPDFと同一であるか、すべてチェック・修正する必要があります。 - 転記したWordにスタイルを設定する。
チェックポイント:Wordのすべての内容にスタイルを設定する必要がありますので、原稿変換後にスタイル設定がなされていない部分があった場合は、Wordに再度スタイル設定をするか、XMLデータを直接修正する必要があります。
最近はJ-STAGEでオンライン公開のみをするジャーナルも増えていますが、制作フローが冊子体と同じままですと上記のとおり手間と費用がかかるため、結果として全文XML作成ツールを利用した全文HTML公開は難しそうです。
全文HTML公開にご興味ございましたら、アトラスでは今回紹介した全文XML作成ツールとは異なる、全文XMLデータ作成を含めたJ-STAGEへのジャーナル公開支援サービスを提供しております。
今後のご参考としてJ-STAGE利用事例なども踏まえたジャーナル公開支援サービスのご説明・オンラインジャーナルに適した制作フローのご相談も可能ですので、こちらからお気軽にご連絡ください。