;; преобразовать содержимое html, chm файла (и другие форматы) под курсором в txt, сохранить в активной панели в именной файл txt sends=`%P%Ncreat="%p"||"%O".txt||content<GLOBALSENDS<x1>>||code<4>
;; преобразовать содержимое html, chm файла (и другие форматы) под курсором в txt, сохранить в активной панели в файл и просмотреть sends=`%P%Ncreat="%p"||"%O".txt||content<GLOBALSENDS<x1>>||code<4>textv=GLOBALCREAT<1>||viewtext<GLOBALCREAT<1>|0|0|0|0|Consolas>||pos<1>
;; извлечь текст из файла под курсором и открыть в просмотрщике
sends=`%P%Ntextv=GLOBALSENDS<x1>||viewtext<%P%N|0|0|0|0|Consolas>||pos<1>
;; для выделенных файлов получить 2D массив: путь и извлечённый текст (типы файлов в Дополнении №37) anf2d=%WL||1||##@@t38:://||progres<>GLOBALANF2D<a>
Поддерживаемые форматы из которых извлекается текст:
⦔ FCPXML - 14 форматов: Final Cut Pro X Chapter Marker, Final Cut Pro X Xml, Final Cut Pro Xml 1.3, Final Cut Pro Xml 1.4, Final Cut Pro Xml 1.4 Text, Final Cut Pro Xml 1.5, Final Cut Pro Xml 1.6, Final Cut Pro Xml 1.7, Final Cut Pro Xml 1.8, Final Cut Pro Xml 1.9, Final Cut Pro Xml 1.10, Final Cut Pro Xml 1.11, Final Cut Pro Xml Name, Final Cut Xml Gap.
⦔ FLC - NCI Timed Roll Up Captions.
⦔ JSON - 32 формата: AWS Transcribe, Google Play Json, HoliStar Json, JSON, JSON Aeneas, JSON TED, JSON Type 10, JSON Type 11, JSON Type 12, JSON Type 13, JSON Type 14, JSON Type 15, JSON Type 16, JSON Type 17, JSON Type 18, JSON Type 19, JSON Type 2, JSON Type 20, JSON Type 21, JSON Type 22, JSON Type 3, JSON Type 4, JSON Type 5, JSON Type 6, JSON Type 7, JSON Type 8, JSON Type 8b, JSON Type 9, sSubUrbia, TwentyThree json, TwentyThree json embed, TwentyThree json embed srt.
⦔ JSS - JACOSub 2.7+, JACOSub.
⦔ GST - Gremots json.
⦔ INQSCR - InqScribe 1.1.
⦔ HTML - 2 формата: Kanopy Html, SMIL Timesheet.
⦔ IMTPRO - MediaTransData.
⦔ ITT - iTunes Timed Text.
⦔ LRC, VKT - 2 формата: LRC Lyrics, LRC Lyrics No End Time.
⦔ RTF - 4 формата: F4 Rich Text Format, Image Logic Autocaption, RTF 1, RTF 2.
⦔ S2K - Sasami Script.
⦔ SAMI - SAMI Captioning.
⦔ SIF - Swift Interchange File V2.
⦔ SMI - 4 формата: SAMI, SAMI AVDicPlayer, SAMI modern, SAMI YouTube.
⦔ SBT - SBT Subtitle Format.
⦔ SBV - YouTube Captions File.
⦔ SCR - MacSUB.
⦔ SON - Spruce DVDMaestro.
⦔ SRT - Sub Ripper.
⦔ SSA - Sub Station Alpha.
⦔ SST - Sonic Scenarist.
⦔ SSTS - Stream SubText Script.
⦔ STL - 6 форматов: Spruce Subtitle With Space, DVD Studio Pro, DVD Studio Pro with one space, DVD Studio Pro with one space/semicolon, DVD Studio Pro with space, Spruce Subtitle File.
⦔ STP - Belle Nuit Subtitler.
⦔ SUB - 17 форматов: DVDSubtitle, MicroDVD, MPSub, Philips SVCD Designer, Sofni, SoftNi Colon Sub, SoftNi Sub, SonicDVD Creator, Sony DVDArchitect, Sony DVDArchitect Explicit Duration, Sony DVDArchitect Tabs, Sony DVDArchitect w. line#, Sub Sonic, Sub Viewer 1.0, Sub Viewer 2.0, SubViewer 1.0, SubViewer 2.0.
⦔ SUBTITLE - Tmpeg Encoder Text
⦔ TEK - Smart Titler.
⦔ TILL - TILL Subtitles.
⦔ TMX - Translation Memory Xml.
⦔ TRS - Transcriber Xml.
⦔ TTS - Turbo Titler.
⦔ TTXT - Gpac Ttxt.
⦔ TXT - 55 форматов: Adobe Encore, Adobe Encore (line#/tabs/n), Adobe Encore (tabs), Adobe Encore DVD, Adobe Encore NTSC, Adobe Encore w. line#, Avid Caption, Avid Caption Drop Frame, Avid DVD, Avid Loc Markers, Captions, Cavena, CPC-600, DigiBeta, DVD Junior, DVD Subtitle System, ELR Studio Print, F4 Text, FAB Subtitler, I-Author Script, Inscriber CG, MAC DVD Studio Pro, MacSub, MicroDVD, Midway Inscriber CG-X, MPlayer2, nVivo Transcript, OGM Chapters, Oresme, Otter AI Transcription, PE2, Pinnacle Impression, PowerPixel, QubeMasterPro Import, QuickTime Text, RX Marker, Scenarist, Sony DVDArchitect line/duration, Speechmatics, Structured titles, SubCreator 1.x, SubRip, Swift text, Swift text line#, Swift text line# +dur, TitleExchange Pro, Titra, TM Player, TMPlayer, Ulead DVD Workshop 2.0, Ulead Subtitle Format, Whisper Raw, Wincaps Text Timecoded, YouTube Transcript, YouTube Transcript one line.
⦔ XML - 36 форматов: ABC iView, Adobe After Effects ft-MarkerExporter., Captionate, Captionate MS, D-Cinema interop, D-Cinema SMPTE 2007, D-Cinema SMPTE 2010, D-Cinema SMPTE 2014, Edius 4 Frames, Edius 4 Ms, EEG 708, ESUB-XF, F4 Xml, Film Edit xml, Final Cut Pro Test Xml, Final Cut Pro Test2 Xml, Final Cut Pro Xml, Flash Xml, FLVCoreCuePoints, MS Office Workbook, Netflix IMSC 1.1 Japanese, Ninsight Xml, OpenDVT, Oresme Docx Document, Rhozet Harmonic, SMPTE-TT 2052, Subtitle Editor Project, Timed Text, Timed Text 1.0, Timed Text Draft 2006-04, Timed Text Draft 2006-04 CDATA, Timed Text Draft 2006-10, UT Subtitle Xml, Xml 1, Xml 2, YouTube Annotations.
⦔ ZEG - ZeroG Subtitles Format.
Извлечение ссылок или путей из плейлистов.
⦔ AIMPPL, AIMPPL4 - AIMP Playlist.
⦔ ASX - Advanced Stream Redirector Playlist.
⦔ CUE - Cue sheet Format Playlist.
⦔ DPL - Playlist PotPlayer.
⦔ FPL - Foobar2000 Playlist.
⦔ HTML - VLC Generated Playlist.
⦔ KPL - Kalliope PlayList.
⦔ M3U, M3U8 - The Most Common Playlist Format.
⦔ MPCPL - MPC-HC Playlist.
⦔ PLC - PLC Playlist Format.
⦔ PLS - Playlist Light Alloy.
⦔ WPL - Playlist Windows Media Player.
⦔ XSPF - Playlist XSPF Web Music.
Извлечение текста из изображений работает на Windows 10 и выше.
⦔ BMP, GIF, PNG, JPG, JPEG, JPE, TIF, TIFF, DIB, RLE - изображения (чем лучше качество, тем больше вероятность получить точный текст).
Файлы для которых требуются дополнительные утилиты:
⦔ HLP - Microsoft Help Format (для распаковки используются cmdTotal + hlp.wcx).
⦔ SVGZ - Microsoft Visio XML Document (для распаковки используются 7-Zip или cmdTotal + Total7zip.wcx).
Для некоторых типы файлов, являющимися zip архивами (pptx, epub, и др.), которые упакованы не стандартно, используются 7-Zip или cmdTotal + Total7zip.wcx
Дополнительные файлы прописываются в TCIMG.ini (TCIMGU.ini) в секции [Programs].
; cmdTotal - инструмент командной строки для распаковки архивов с использованием плагинов, скачать. cmdTotal=%COMMANDER_PATH%\Utilities\Images\cmdTotal\cmdTotal.exe
; Total7zip - архиваторный плагин на основе 7-ZIP, скачать Total7zip=%COMMANDER_PATH%\Plugins\Wcx\Total7zip\Total7zip.wcx
⦔ Другие файлы txt, ini, и.т.д. считываются как текстовые.
Дополнение:
⏩ Это не 100%-е извлечение, идеального получения текста, думаю, не существует (тестировал 10-ки утилит на заявленных типах файлов, но ни одна не справилась на 100%), т.к. программы в одни и те же типы файлов записывают информацию по разному: со своей кодировкой, шифрованием, разметкой..., что затрудняет выявление текста. Но Вы можете помочь!!!
⏩ Функционал извлечения текста тестируется, будет улучшаться по мере нахождения неточностей.
⏩ Если из каких-либо файлов некорректно извлекается текстовая информация, то вы можете их прислать для исправления форматирования (кроме изображений).
⏩ Если нужно извлечь текст из других типов файлов, которых нет выше - сообщайте, возможно получиться это реализовать.
⏩ Для извлечения текста из "больших" файлов требуется время, т.к. ряд типов являются 7-zip, zip, chm или другими архивами и перед получением текста их приходится распаковывать, а затем получать и форматировать текст.