失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > docx转换成txt linux 如何将doc / docx文件转换为markdown或结构化文本?

docx转换成txt linux 如何将doc / docx文件转换为markdown或结构化文本?

时间:2018-09-11 16:06:58

相关推荐

docx转换成txt linux 如何将doc / docx文件转换为markdown或结构化文本?

为什么选择转换工具?

虽然Markdown编辑喜欢精彩的iA Writer可以将“从Markdown”导出到docx,html和pdf,(一次一个文件),但它们是处理单个文件的交互式工具,通常无法将旧文档文件“转换为”makrdown(iA) writer在这里有一些'limited'功能 .

为此,我们需要一个转换工具!

哪个转换工具?

我测试了这三个: Pandoc / Mammoth / w2m

macOS/Linux/Cygwin Windows 用户,请在这里阅读......

Windows Users - 请看下面的 'Writage'

潘多克

经过大量的测试, pandoc 是迄今为止最好的工具 .

语法: pandoc -s -f docx -t gfm --wrap=preserve somedoc.docx -o somedoc.md

我最初没有意识到的是,为了让 pandoc 导出Github Flavored Markdown(GFM)表(在pandoc中称为"pipe_tables"),你必须使用GFM pandoc格式 .

注意:MultiMarkdown是功能更丰富的格式,支持其他内容 - 元数据,目录,脚注,YAML - 但gfm也很棒 .

Pandoc支持的格式

-t gfm (GitHub-Flavored Markdown)

-t markdown_mmd (MultiMarkdown)

-t markdown (pandoc’s extended Markdown)

-t markdown_strict (original unextended Markdown)

-t markdown_phpextra (PHP Markdown Extra)

-t commonmark (CommonMark Markdown)

-t docx (docx)

-t html (HTML)

-t latex (LaTeX)

-t mediawiki (MediaWiki markup)

-t textile (Textile)

-t rst (reStructuredText)

-t docbook (DocBook)

-t t2t (txt2tags)

-t odt (ODT)

-t epub (EPUB)

-t opml (OPML)

-t org (Emacs Org mode)

-t twiki (TWiki markup)

-t haddock (Haddock markup)

NB: 如果您只需要导出"from" markdown而不是"to" markdown,并且一次只能输出一个文件,那么像Typora(跨平台)或iA Writer这样的WYSIWYG编辑器将可以访问优质字体以获得更好的屏幕可读性 - 例如包括表情符号和其他unicode字符 . 但 pandoc pdf将打印得很好 .

书写MS Word扩展

Writage(MS Word扩展)可以在Microsoft Word中读取markdown文件 . 然后,您可以将其另存为 .docx 文件 . 或者,使用像Markdown Viewer这样的Chrome和复制粘贴到word中 . 这将保持格式您在Markdown Viewer中选择的主题 .

更新:

PDF&Papersize:A4或US Letter

pandoc 默认行为是输出到美国信纸尺寸 - 这使我当地的印刷店引起了人们的注意 .

修复: pandoc -s -V geometry:a4paper -o outfile.pdf infile.md

NOTE: pandoc 使用 LaTeX 模板格式化为PDF,因此如果该命令无法开箱即用,您可能需要为您的操作系统安装 LaTeX 软件包 .

如果觉得《docx转换成txt linux 如何将doc / docx文件转换为markdown或结构化文本?》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。