このオープンソースのドキュメント コンバータを試してみてください
<本文>
ワードプロセッサの「名前を付けて保存」機能やさまざまなオンラインコンバータなど、ドキュメントをある形式から別の形式に変換するためのオプションは無限にあります。私が常に使用しているこの仕事用のオープンソース ユーティリティもあります。Pandoc です。
Pandoc は自らを「ユニバーサル ドキュメント コンバーター」と呼んでおり、数十のマークアップ形式とドキュメント タイプをサポートしています。 Microsoft Word ファイル、Markdown の複数のバリエーション、PDF、OpenDocument ファイル (主に LibreOffice で使用)、Jupyter ノートブック、MediaWiki マークアップ、EPUB、PowerPoint プレゼンテーション、LaTeX、その他多くの形式を処理できます。一部のファイル形式は、インポートまたはエクスポートの両方に使用できず、インポートまたはエクスポートにのみ使用できます。
Pandoc は多くの Linux ディストリビューションのパッケージ マネージャーで利用でき、Homebrew がインストールされている Mac 所有者はそのリポジトリで Pandoc を入手できます。 Windows を使用している場合は、Pandoc の Web サイトからパッケージ インストーラーをダウンロードするか、Chocolatey や Winget などのパッケージ マネージャーを使用してインストールできます。
基本的な使い方
Pandoc はコマンドライン アプリケーションですが、ほとんどのドキュメント変換には 2 つのパラメータが必要です。入力ファイルへのパスを指定し、-o パラメータを使用して、変換されたファイルを保存する場所を指定します。 Markdown ファイルを HTML に変換する基本的な例を次に示します。
pandoc “readme.md”-o “readme.html"非常に簡単ですね。 Pandoc は入力ファイル形式と出力ファイル形式を自動的に検出しようとするため、毎回それらを定義する必要はありません。
ただし、自動チェックが機能しない場合があります。Markdown ファイルの拡張子が .TXT であるか、出力ファイルにファイル拡張子があってはならない、またはその他の理由が考えられます。そのような場合、次のように、-f を使用して入力形式を定義し、-t を使用して出力形式を定義できます。
pandoc “readme.md”-f markdown-t html-o “readme.html"長いテキスト ファイルを EPUB 形式に変換して、電子書籍リーダーで開けるようにしたいと考えていますか? Pandoc では次のことができます。
pandoc “readme.txt”-o “readme_converted.epub"Word がインストールされていないユーザーでもブラウザで表示できるように、HTML に変換する必要がある Word 文書がいくつかある場合があります。問題ありません。Pandoc で処理できます。
pandoc “manual.docx”-o “manual.html"このコマンドは、スタイルの書式設定を行わずに、テキストの基本的な HTML マークアップを作成するだけです。エクスポートされた HTML ファイルを、応答性の高いページマージンやその他の読みやすさの向上を備えた完全なスタンドアロンドキュメントにしたい場合は、次のように -s パラメーターを使用できます。
pandoc “manual.docx”-s-o “manual.html"Pandoc には、エクスポートされた HTML に特定の CSS スタイルシートを使用する、ドキュメント内のコード ブロックを書式設定する、LaTeX ファイルから数式を変換する方法を変更するなど、他にも多くのオプションがあります。 Pandoc の Web サイトのデモ ページでは、ツールの機能をよりよく理解できます。
Pandoc にはファイルを一括変換するための組み込みオプションがありませんが、ディレクトリ内の各ファイルを反復処理する小さな Bash スクリプトまたは PowerShell スクリプトでそれをラップすることができます。これは、Word で 1 つずつ個別に開くよりも、何百もの Word 文書を変換する方がはるかに高速な方法です。
仕事のスピードアップ
私が初めて Pandoc を発見したのは、記事を書くために MS-DOS エディターを使用しようとしていたときでした。これはプレーン テキスト エディターですが、Markdown を入力してリンク、ヘッダー、その他の書式設定をドキュメントに追加できます。保存された Markdown テキストを、コンテンツ管理システム (CMS) で使用される HTML 形式に迅速に変換する方法が必要でした。
Pandoc は最終的にこのタスクでは完璧に機能しましたが、一部のシンボルを正しく表示するには –ascii=true パラメーターを追加する必要がありました。ファイルに出力する代わりに、出力を macOS の pbcopy コマンドにパイプして、HTML テキストをクリップボードに貼り付けました。
pandoc “/Users/corbin/Documents/DOS/MAIN.TXT”-f markdown-t html–ascii=true | pbcopy
このコマンド全体を Mac のショートカットにラップしたので、ドキュメントを保存し、ショートカットを実行して、職場の CMS のソース ビューに HTML を貼り付けるだけで済みました。 MS-DOS エディタを使ったその具体的な実験は長くは続きませんでしたが、別の古いテキスト エディタを試したときにもう一度掘り下げてみます。
現在は Microsoft Word で記事を書くことに戻っています。 Word からテキストを直接コピーして、職場の CMS またはその他のリッチ テキスト エディターに貼り付けると、すべての書式設定が含まれます。ヘッダー、リンク、その他の重要な書式設定は保存したいのですが、正確なフォントとフォント サイズは数十のランダムタグにわたって保存したくないのです。
ありがたいことに、Pandoc はこのタスクに完璧に機能します。スクラッチパッド ドキュメントを HTML に変換し、元のファイルから改行を削除して、結果をクリップボードに保存する短いスクリプトを作成しました。
pandoc-f docx-t html–ascii=true–extract-media="$HOME/デスクトップ/""$HOME/Documents/Scratch Pad.docx”–wrap=none | pbcopy
唯一の問題は、このスクリプトがスクラッチパッドのドキュメントにハードコーディングされていることです。長いガイドやレビューの場合、私は通常、下書き フォルダーに新しい Word 文書を作成します。必要に応じてターミナルを開いてそれらを変換することもできましたが、ショートカットが再び役に立ちました。
Finder 内のドキュメントに「HTML としてコピー」右クリック メニュー オプションを追加する新しいショートカットを作成しました。実行すると、Shortcut はファイルのパスを Pandoc に渡し、Pandoc は変換された HTML をクリップボードに貼り付けます。 Pandoc はファイル形式を自動的に検出できるため、これは Word 文書以外にも機能します。

つまり、Pandoc のおかげで、書式設定エラーや頭痛の種を引き起こすことなく、必要なテキスト エディターでの書き込みがはるかに簡単かつ迅速に行えるようになりました。これは、他の多くの出版およびアーカイブのユースケースにも役立ちます。次回ドキュメントを変換する必要があるときは、ぜひ試してみてください。
*️⃣ 出典リンク:
Pandoc 、Homebrew がインストールされている Mac 所有者、 そのリポジトリで取得する 、 Pandoc の Web サイトからパッケージ インストーラーをダウンロード 、 Pandoc のデモ ページ ウェブサイト 、 小さな Bash スクリプト 、Mac 上の MS-DOS エディタ、ショートカットを使用しようとしています、