Дополнение №37


Извлечение текста из файлов различных форматов.



Извлечение текста используется в различных параметрах и командах:

1. В команде sends и подобных.

Примеры команд:

;; преобразовать содержимое html, chm файла (и другие форматы) под курсором в txt, сохранить в активной панели в именной файл txt
sends=`%P%N creat="%p"||"%O".txt||content<GLOBALSENDS<x1>>||code<4>

;; преобразовать содержимое html, chm файла (и другие форматы) под курсором в txt, сохранить в активной панели в файл и просмотреть
sends=`%P%N creat="%p"||"%O".txt||content<GLOBALSENDS<x1>>||code<4> textv=GLOBALCREAT<1>||viewtext<GLOBALCREAT<1>|0|0|0|0|Consolas>||pos<1>


2. В команде spech.

  При открытии или перетаскивании файла в окно программы из этих форматов будет извлечён текст.

3. В параметре info

Примеры команд:

;; для выделенных файлов получить 2D массив: путь и извлечённый текст (типы файлов в Дополнении №37)
anf2d=%WL||1||##@@t38:://||progres<> GLOBALANF2D<a>



Поддерживаемые форматы из которых извлекается текст:

   HTM, HTML, XHTML - HTML (см. Дополнение №15)

   MHT, MHTML - WEB archive (см. Дополнение №15)

   CHM - HTML Help (см. Дополнение №15)

   HHK - HTML Help Index.

   HHC - HTML Help Table Of Contents.

   RTF - RICH text.

   WRI - Windows 3.1 Write.

   MP3 - MPEG Layer3 - извлечение текста песни.

   EPUB - Electronic Publication.

   FB2, FB2.ZIP, FBZ, FB3 - FictionBook (FictionBook archive).

   SXW, STW, STI, STC, STD, SXC, SXI, SXD, SXG, SXM - OpenOffice Format ("Documents", "Presentations", "Tables").

   EML - E-Mail Message.

   CSV - Tables Text Format.

   TXTZ - Compressed eBook File.

   HTMLZ - Zipped HTML EBook.

   UUE, XXE, B64 - B64/MIME/UUE/XXE/BinHex.

   TMDX, PSW, PWD, TMVX - TextMaker SoftMaker.

   PMDX, PMVX - PlanMaker SoftMaker.

   PRVX - Presentations SoftMaker.

   DOCX, DOCM, DOTX, XPS - Microsoft Word Open XML Document.

   XLSX, XLSM, XLAM, XLTM, XLTX, DIF - Microsoft Excel Open XML Document.

   PPTX, PPTM, POTX, POTM, PPSX, PPSM - Microsoft PowerPoint XML Document.

   VSDX, VSSX, VSTX, VSDM, VSTM, SVG, SVGZ - Microsoft Visio XML Document.

   ODT, OTT, FODT, UOT - OpenDocument Text Format.

   ODS, OTS, FODTS, UOS - OpenDocument Flat XML Spreadsheet.

   ODP, OTP, OTG, OTR, ODG, FODP, PRDX, PRSX, UOP - OpenDocument XML Apache Impress.



   DOC, DOT, WPS, ASD - работает, если установлен Microsoft Word.

   XLS, XLT, XLSB, SLK, XLA, DBF - работает, если установлен Microsoft Exel.

   PPT, POT, PPS - работает, если установлен Microsoft PowerPoint.

   VSD, VDW, VSS, VST - работает, если установлен Microsoft Visio.



   XML - (некоторые xml файлы, созданные MS Office).

   ADML - Microsoft System Files.


Файлы субтитров:

   SRT - Sub Ripper.

   SUB - 9 форматов: Sub Sonic, Sub Viewer 1.0, Sub Viewer 2.0, DVDSubtitle, MicroDVD, MPSub, Philips SVCD Designer, Sofni, SonicDVD Creator.

   SSA - Sub Station Alpha.

   ASS - Advanced SubStation Alpha.

   XML - Timed Text.

   TXT - 18 форматов: TM Player, Ulead DVD Workshop 2.0, Wincaps Text Timecoded, Adobe Encore DVD, Captions, Cavena, CPC-600, DVD Junior, DVD Subtitle System, FAB Subtitler, I-Author Script, Inscriber CG, MAC DVD Studio Pro, MicroDVD, Pinnacle Impression, PowerPixel, QuickTime Text, SubCreator 1.x.

   TTS - Turbo Titler.

   VSF - ViPlay Subtitle File.

   SBV - YouTube Captions File.

   ZEG - ZeroG Subtitles Format.

   XAS - Advanced Subtitles.

   AQT - AQTitle.

   ASC - Cheetah.

   DKS - DKS Subtitle Format.

   JSS - JACOSub 2.7+.

   LRC, VKT - Karaoke Lyrics.

   SCR - MacSUB.

   MPL - MPlayer, MPlayer2.

   OVR - OVR Script.

   PAN - Panimator.

   PJS - Phoenix Japanimation Society.

   PSB - PowerDivX.

   RT - RealTime.

   SAMI, SMI - SAMI Captioning.

   S2K - Sasami Script.

   SBT - SBT Subtitle Format.

   SST - Sonic Scenarist.

   SON - Spruce DVDMaestro.

   STL - Spruce Subtitle File.

   SSTS - Stream SubText Script.


Файлы для которых требуются дополнительные утилиты:

   HLP - Microsoft Help Format (для распаковки используются cmdTotal + hlp.wcx).

   SVGZ - Microsoft Visio XML Document (для распаковки используются 7-Zip или cmdTotal + Total7zip.wcx).

Дополнительные файлы прописываются в TCIMG.ini (TCIMGU.ini) в секции [Programs].

Пример записи:

[Programs]
; 7-ZIP - свободный файловый архиватор, скачать.
7-ZIP=%COMMANDER_PATH%\Programs\Arhive\7-Zip\7z.exe

; cmdTotal - инструмент командной строки для распаковки архивов с использованием плагинов, скачать.
cmdTotal=%COMMANDER_PATH%\Utilities\Images\cmdTotal\cmdTotal.exe

; Total7zip - архиваторный плагин на основе 7-ZIP, скачать
Total7zip=%COMMANDER_PATH%\Plugins\Wcx\Total7zip\Total7zip.wcx

; hlp - архиваторный плагин для распаковки HLP файлов, скачать
hlp=%COMMANDER_PATH%\Plugins\Wcx\Hlp\hlp.wcx





   Другие файлы txt, ini, и.т.д. считываются как текстовые.



Дополнение:

   Это не 100%-е извлечение, идеального получения текста, думаю, не существует (тестировал 10-ки утилит на заявленных типах файлов, но ни одна не справилась на 100%), т.к. программы в одни и те же типы файлов записывают информацию по разному: со своей кодировкой, шифрованием, разметкой..., что затрудняет выявление текста. Но Вы можете помочь!!!

   Функционал извлечения текста тестируется, будет улучшаться по мере нахождения неточностей.

   Если из каких-либо файлов некорректно извлекается текстовая информация, то вы можете их прислать для исправления форматирования...

   Если нужно извлечь текст из других типов файлов, которых нет выше - сообщайте, возможно получиться это реализовать.

   Для извлечения текста из "больших" файлов требуется время, т.к. ряд типов являются 7-zip, zip, chm или другими архивами и перед получением текста их приходится распаковывать, а затем получать и форматировать текст.


© Аверин Андрей для Total Commander Image  Averin-And@yandex.ru