Дополнение №37


Извлечение текста из файлов различных форматов.



Извлечение текста используется в различных параметрах и командах:

1. В команде sends и подобных.

Примеры команд:

;; преобразовать содержимое html, chm файла (и другие форматы) под курсором в txt, сохранить в активной панели в именной файл txt
sends=`%P%N creat="%p"||"%O".txt||content<GLOBALSENDS<x1>>||code<4>

;; преобразовать содержимое html, chm файла (и другие форматы) под курсором в txt, сохранить в активной панели в файл и просмотреть
sends=`%P%N creat="%p"||"%O".txt||content<GLOBALSENDS<x1>>||code<4> textv=GLOBALCREAT<1>||viewtext<GLOBALCREAT<1>|0|0|0|0|Consolas>||pos<1>

;; извлечь текст из файла под курсором и открыть в просмотрщике
sends=`%P%N textv=GLOBALSENDS<x1>||viewtext<%P%N|0|0|0|0|Consolas>||pos<1>


2. В команде spech.

  При открытии или перетаскивании файла в окно программы из этих форматов будет извлечён текст.

3. В параметре info

Примеры команд:

;; для выделенных файлов получить 2D массив: путь и извлечённый текст (типы файлов в Дополнении №37)
anf2d=%WL||1||##@@t38:://||progres<> GLOBALANF2D<a>



Поддерживаемые форматы из которых извлекается текст:

   HTM, HTML, XHTML - HTML (см. Дополнение №15)

   MHT, MHTML - WEB archive (см. Дополнение №15)

   CHM - HTML Help (см. Дополнение №15)

   HHK - HTML Help Index.

   HHC - HTML Help Table Of Contents.

   RTF - RICH text.

   WRI - Windows 3.1 Write.

   MP3 - MPEG Layer3 - извлечение текста песни.

   EPUB - Electronic Publication.

   FB2, FB2.ZIP, FBZ, FB3 - FictionBook (FictionBook archive).

   SXW, STW, STI, STC, STD, SXC, SXI, SXD, SXG, SXM - OpenOffice Format ("Documents", "Presentations", "Tables").

   EML - E-Mail Message.

   CSV - Tables Text Format.

   TXTZ - Compressed eBook File.

   HTMLZ - Zipped HTML EBook.

   UUE, XXE, B64 - B64/MIME/UUE/XXE/BinHex.

   TMDX, PSW, PWD, TMVX - TextMaker SoftMaker.

   PMDX, PMVX - PlanMaker SoftMaker.

   PRVX - Presentations SoftMaker.

   DOCX, DOCM, DOTX, XPS - Microsoft Word Open XML Document.

   XLSX, XLSM, XLAM, XLTM, XLTX, DIF - Microsoft Excel Open XML Document.

   PPTX, PPTM, POTX, POTM, PPSX, PPSM - Microsoft PowerPoint XML Document.

   VSDX, VSSX, VSTX, VSDM, VSTM, SVG, SVGZ - Microsoft Visio XML Document.

   ODT, OTT, FODT, UOT - OpenDocument Text Format.

   ODS, OTS, FODTS, UOS - OpenDocument Flat XML Spreadsheet.

   ODP, OTP, OTG, OTR, ODG, FODP, PRDX, PRSX, UOP - OpenDocument XML Apache Impress.



   DOC, DOT, WPS, ASD - работает, если установлен Microsoft Word.

   XLS, XLT, XLSB, SLK, XLA, DBF - работает, если установлен Microsoft Exel.

   PPT, POT, PPS - работает, если установлен Microsoft PowerPoint.

   VSD, VDW, VSS, VST - работает, если установлен Microsoft Visio.



   XML - (некоторые xml файлы, созданные MS Office).

   ADML - Microsoft System Files.


Файлы субтитров:

   AQT - AQTitle.

   ASC - Cheetah.

   ASS - Advanced SubStation Alpha.

   ATS - ATS ISS.

   BCC - Bilibili Json.

   C - Subtitle.

   CAC - Caption Assistant.

   CAP - Lambda Cap.

   CAPTION - PList Caption xml.

   CIP - Rtf Cip Subtitle.

   CRK - Caraoke Xml.

   CSV - 10 форматов: Csv1, Csv2, Csv3, Csv4, Csv5, Csv Nuendo, Edius Marker List 2 Ms, Edius Marker List 2 Frames, Edius Marker List 3 Frames, Edius Marker List 3 Ms.

   CTM - Subtitle Data.

   DETX - Cappella.

   DFXP - 3 формата: DFXP Basic, Netflix Timed Text, Timed Text draft 2006-04 Ooyala.

   DKS - DKS Subtitle Format.

   DTC - Drtic.

   DV - DV Subtitle.

   EDL - EDL Subtitles.

   EZTXML - EZT XML.

   FCPXML - 14 форматов: Final Cut Pro X Chapter Marker, Final Cut Pro X Xml, Final Cut Pro Xml 1.3, Final Cut Pro Xml 1.4, Final Cut Pro Xml 1.4 Text, Final Cut Pro Xml 1.5, Final Cut Pro Xml 1.6, Final Cut Pro Xml 1.7, Final Cut Pro Xml 1.8, Final Cut Pro Xml 1.9, Final Cut Pro Xml 1.10, Final Cut Pro Xml 1.11, Final Cut Pro Xml Name, Final Cut Xml Gap.

   FLC - NCI Timed Roll Up Captions.

   JSON - 32 формата: AWS Transcribe, Google Play Json, HoliStar Json, JSON, JSON Aeneas, JSON TED, JSON Type 10, JSON Type 11, JSON Type 12, JSON Type 13, JSON Type 14, JSON Type 15, JSON Type 16, JSON Type 17, JSON Type 18, JSON Type 19, JSON Type 2, JSON Type 20, JSON Type 21, JSON Type 22, JSON Type 3, JSON Type 4, JSON Type 5, JSON Type 6, JSON Type 7, JSON Type 8, JSON Type 8b, JSON Type 9, sSubUrbia, TwentyThree json, TwentyThree json embed, TwentyThree json embed srt.

   JSS - JACOSub 2.7+, JACOSub.

   GST - Gremots json.

   INQSCR - InqScribe 1.1.

   HTML - 2 формата: Kanopy Html, SMIL Timesheet.

   IMTPRO - MediaTransData.

   ITT - iTunes Timed Text.

   LRC, VKT - 2 формата: LRC Lyrics, LRC Lyrics No End Time.

   MPL - MPlayer, MPlayer2.

   MVT - Magic Video Titler.

   OVR - OVR Script.

   PAN - Panimator.

   PJS - 2 формата: Phoenix Japanimation Society, Phoenix Subtitle.

   PSB - PowerDivX.

   PSL - Projection Subtitle List.

   RT - RealTime.

   RTF - 4 формата: F4 Rich Text Format, Image Logic Autocaption, RTF 1, RTF 2.

   S2K - Sasami Script.

   SAMI - SAMI Captioning.

   SIF - Swift Interchange File V2.

   SMI - 4 формата: SAMI, SAMI AVDicPlayer, SAMI modern, SAMI YouTube.

   SBT - SBT Subtitle Format.

   SBV - YouTube Captions File.

   SCR - MacSUB.

   SON - Spruce DVDMaestro.

   SRT - Sub Ripper.

   SSA - Sub Station Alpha.

   SST - Sonic Scenarist.

   SSTS - Stream SubText Script.

   STL - 6 форматов: Spruce Subtitle With Space, DVD Studio Pro, DVD Studio Pro with one space, DVD Studio Pro with one space/semicolon, DVD Studio Pro with space, Spruce Subtitle File.

   STP - Belle Nuit Subtitler.

   SUB - 17 форматов: DVDSubtitle, MicroDVD, MPSub, Philips SVCD Designer, Sofni, SoftNi Colon Sub, SoftNi Sub, SonicDVD Creator, Sony DVDArchitect, Sony DVDArchitect Explicit Duration, Sony DVDArchitect Tabs, Sony DVDArchitect w. line#, Sub Sonic, Sub Viewer 1.0, Sub Viewer 2.0, SubViewer 1.0, SubViewer 2.0.

   SUBTITLE - Tmpeg Encoder Text

   TEK - Smart Titler.

   TILL - TILL Subtitles.

   TMX - Translation Memory Xml.

   TRS - Transcriber Xml.

   TTS - Turbo Titler.

   TTXT - Gpac Ttxt.

   TXT - 55 форматов: Adobe Encore, Adobe Encore (line#/tabs/n), Adobe Encore (tabs), Adobe Encore DVD, Adobe Encore NTSC, Adobe Encore w. line#, Avid Caption, Avid Caption Drop Frame, Avid DVD, Avid Loc Markers, Captions, Cavena, CPC-600, DigiBeta, DVD Junior, DVD Subtitle System, ELR Studio Print, F4 Text, FAB Subtitler, I-Author Script, Inscriber CG, MAC DVD Studio Pro, MacSub, MicroDVD, Midway Inscriber CG-X, MPlayer2, nVivo Transcript, OGM Chapters, Oresme, Otter AI Transcription, PE2, Pinnacle Impression, PowerPixel, QubeMasterPro Import, QuickTime Text, RX Marker, Scenarist, Sony DVDArchitect line/duration, Speechmatics, Structured titles, SubCreator 1.x, SubRip, Swift text, Swift text line#, Swift text line# +dur, TitleExchange Pro, Titra, TM Player, TMPlayer, Ulead DVD Workshop 2.0, Ulead Subtitle Format, Whisper Raw, Wincaps Text Timecoded, YouTube Transcript, YouTube Transcript one line.

   VSF - ViPlay Subtitle File.

   USF - Universal Subtitle Format.

   UTX - 2 формата: UTX, UTX (frames).

   VID - VID Subtitles.

   VTT - 2 формата: WebVTT, WebVTT File with#.

   XAS - Advanced Subtitles.

   XIF - XIF Subtitles.

   XMP - XMP Subtitles.

   XSUBTITLE - 2 формата: TMPGEnc AW5, TMPGEnc VME.

   XML - 36 форматов: ABC iView, Adobe After Effects ft-MarkerExporter., Captionate, Captionate MS, D-Cinema interop, D-Cinema SMPTE 2007, D-Cinema SMPTE 2010, D-Cinema SMPTE 2014, Edius 4 Frames, Edius 4 Ms, EEG 708, ESUB-XF, F4 Xml, Film Edit xml, Final Cut Pro Test Xml, Final Cut Pro Test2 Xml, Final Cut Pro Xml, Flash Xml, FLVCoreCuePoints, MS Office Workbook, Netflix IMSC 1.1 Japanese, Ninsight Xml, OpenDVT, Oresme Docx Document, Rhozet Harmonic, SMPTE-TT 2052, Subtitle Editor Project, Timed Text, Timed Text 1.0, Timed Text Draft 2006-04, Timed Text Draft 2006-04 CDATA, Timed Text Draft 2006-10, UT Subtitle Xml, Xml 1, Xml 2, YouTube Annotations.

   ZEG - ZeroG Subtitles Format.


Извлечение ссылок или путей из плейлистов.

   AIMPPL, AIMPPL4 - AIMP Playlist.

   ASX - Advanced Stream Redirector Playlist.

   CUE - Cue sheet Format Playlist.

   DPL - Playlist PotPlayer.

   FPL - Foobar2000 Playlist.

   HTML - VLC Generated Playlist.

   KPL - Kalliope PlayList.

   M3U, M3U8 - The Most Common Playlist Format.

   MPCPL - MPC-HC Playlist.

   PLC - PLC Playlist Format.

   PLS - Playlist Light Alloy.

   WPL - Playlist Windows Media Player.

   XSPF - Playlist XSPF Web Music.


Извлечение текста из изображений работает на Windows 10 и выше.

   BMP, GIF, PNG, JPG, JPEG, JPE, TIF, TIFF, DIB, RLE - изображения (чем лучше качество, тем больше вероятность получить точный текст).


Файлы для которых требуются дополнительные утилиты:

   HLP - Microsoft Help Format (для распаковки используются cmdTotal + hlp.wcx).

   SVGZ - Microsoft Visio XML Document (для распаковки используются 7-Zip или cmdTotal + Total7zip.wcx).

Для некоторых типы файлов, являющимися zip архивами (pptx, epub, и др.), которые упакованы не стандартно, используются 7-Zip или cmdTotal + Total7zip.wcx

Дополнительные файлы прописываются в TCIMG.ini (TCIMGU.ini) в секции [Programs].

Пример записи:

[Programs]
; 7-ZIP - свободный файловый архиватор, скачать.
7-ZIP=%COMMANDER_PATH%\Programs\Arhive\7-Zip\7z.exe

; cmdTotal - инструмент командной строки для распаковки архивов с использованием плагинов, скачать.
cmdTotal=%COMMANDER_PATH%\Utilities\Images\cmdTotal\cmdTotal.exe

; Total7zip - архиваторный плагин на основе 7-ZIP, скачать
Total7zip=%COMMANDER_PATH%\Plugins\Wcx\Total7zip\Total7zip.wcx

; hlp - архиваторный плагин для распаковки HLP файлов, скачать
hlp=%COMMANDER_PATH%\Plugins\Wcx\Hlp\hlp.wcx





   Другие файлы txt, ini, и.т.д. считываются как текстовые.



Дополнение:

   Это не 100%-е извлечение, идеального получения текста, думаю, не существует (тестировал 10-ки утилит на заявленных типах файлов, но ни одна не справилась на 100%), т.к. программы в одни и те же типы файлов записывают информацию по разному: со своей кодировкой, шифрованием, разметкой..., что затрудняет выявление текста. Но Вы можете помочь!!!

   Функционал извлечения текста тестируется, будет улучшаться по мере нахождения неточностей.

   Если из каких-либо файлов некорректно извлекается текстовая информация, то вы можете их прислать для исправления форматирования (кроме изображений).

   Если нужно извлечь текст из других типов файлов, которых нет выше - сообщайте, возможно получиться это реализовать.

   Для извлечения текста из "больших" файлов требуется время, т.к. ряд типов являются 7-zip, zip, chm или другими архивами и перед получением текста их приходится распаковывать, а затем получать и форматировать текст.


© Аверин Андрей для Total Commander Image  Averin-And@yandex.ru