MAGIC(4) Интерфейсы ядра BSD Справочник MAGIC(4)
NAME
magic — файл шаблонов magic команды file
DESCRIPTION
Эта страница справочника документирует формат файлов magic, используемых
командой file(1), версии 5.46. Команда file(1) определяет тип файла,
используя, помимо других тестов, проверку на наличие определённых
“шаблонов magic”. База данных этих “шаблонов magic” обычно находится в
двоичном файле в /usr/share/misc/magic.mgc или в каталоге с исходными
текстовыми фрагментами файлов шаблонов magic в /usr/share/misc/magic.
База данных указывает, какие шаблоны нужно проверить, какое сообщение
или тип MIME выводить, если определённый шаблон найден, и дополнительную
информацию для извлечения из файла.
Формат исходных фрагментных файлов, которые используются для создания
этой базы данных, следующий: Каждая строка фрагментного файла указывает
тест для выполнения. Тест сравнивает данные, начиная с определённого
смещения в файле, с байтовым значением, строкой или числовым значением.
Если тест успешен, выводится сообщение. Строка состоит из следующих
полей:
offset Число, указывающее смещение (в байтах) в файле данных,
которые нужно протестировать. Это смещение может быть
отрицательным, если оно:
• Первое прямое смещение записи magic (на уровне
продолжения 0), в этом случае оно интерпретируется как
смещение от конца файла в обратном направлении. Это
работает только когда доступен дескриптор файла и это
обычный файл.
• Смещение продолжения относительно конца последнего поля
верхнего уровня (&).
Если смещение начинается с символа “+”, то все смещения
интерпретируются от начала файла (по умолчанию).
type Тип данных для тестирования. Возможные значения:
byte Однобайтовое значение.
short Двухбайтовое значение в машинном порядке байтов.
long Четырёхбайтовое значение в машинном порядке байтов.
quad Восьмибайтовое значение в машинном порядке байтов.
float 32-битное число с плавающей запятой одинарной точности
IEEE в машинном порядке байтов.
double 64-битное число с плавающей запятой двойной точности
IEEE в машинном порядке байтов.
string Строка байтов. Спецификация типа string может
опционально следовать /<width> и опционально набор
флагов /[bCcftTtWw]*. Width ограничивает количество
копируемых символов. Ноль означает все символы.
Поддерживаются следующие флаги:
b Принудительно тестировать как бинарный файл.
C Использовать регистронезависимое сопоставление
с учётом верхнего регистра: символы верхнего
регистра в шаблоне magic сопоставляются с
символами нижнего и верхнего регистра в цели,
в то время как символы нижнего регистра в
шаблоне magic сопоставляются только с
символами верхнего регистра в цели.
c Использовать регистронезависимое сопоставление
с учётом нижнего регистра: символы нижнего
регистра в шаблоне magic сопоставляются с
символами нижнего и верхнего регистра в цели,
в то время как символы верхнего регистра в
шаблоне magic сопоставляются только с
символами верхнего регистра в цели. Для
полного сопоставления без учёта регистра
укажите и “c”, и “C”.
f Требовать, чтобы сопоставленная строка была
полным словом, а не частичным.
T Обрезать строку, т.е. удалять начальные и
конечные пробелы.
t Принудительно тестировать как текстовый файл.
W Сжимать пробелы в цели, которая должна
содержать хотя бы один символ пробела. Если
в magic есть n последовательных пробелов, то
в цели должно быть как минимум n
последовательных пробелов для сопоставления.
w Считать каждый пробел в magic необязательным.
Перед печатью строки пробелы удаляются.
pstring Строка в стиле Pascal, где первый байт/short/int
интерпретируется как неподписанная длина. Длина по
умолчанию байт и может быть указана как модификатор.
Поддерживаются следующие модификаторы:
B Длина в байтах (по умолчанию).
H Длина в 2 байтах, big endian.
h Длина в 2 байтах, little endian.
L Длина в 4 байтах, big endian.
l Длина в 4 байтах, little endian.
J Длина включает себя в счёт.
Строка не заканчивается NUL. “J” используется
вместо более ценного “I”, потому что этот тип
длины является особенностью формата JPEG.
date Четырёхбайтовое значение, интерпретируемое как дата
UNIX.
qdate Восьмибайтовое значение, интерпретируемое как дата
UNIX.
ldate Четырёхбайтовое значение, интерпретируемое как дата
в стиле UNIX, но как локальное время, а не UTC.
qldate Восьмибайтовое значение, интерпретируемое как дата
в стиле UNIX, но как локальное время, а не UTC.
qwdate Восьмибайтовое значение, интерпретируемое как дата
в стиле Windows.
msdosdate Двухбайтовое значение, интерпретируемое как дата в
стиле FAT/DOS.
msdostime Двухбайтовое значение, интерпретируемое как время в
стиле FAT/DOS.
beid3 32-битная длина ID3 в порядке байтов big-endian.
beshort Двухбайтовое значение в порядке байтов big-endian.
belong Четырёхбайтовое значение в порядке байтов big-endian.
bequad Восьмибайтовое значение в порядке байтов big-endian.
befloat 32-битное число с плавающей запятой одинарной точности
IEEE в порядке байтов big-endian.
bedouble 64-битное число с плавающей запятой двойной точности
IEEE в порядке байтов big-endian.
bedate Четырёхбайтовое значение в порядке байтов big-endian,
интерпретируемое как дата UNIX.
beqdate Восьмибайтовое значение в порядке байтов big-endian,
интерпретируемое как дата UNIX.
beldate Четырёхбайтовое значение в порядке байтов big-endian,
интерпретируемое как дата в стиле UNIX, но как
локальное время, а не UTC.
beqldate Восьмибайтовое значение в порядке байтов big-endian,
интерпретируемое как дата в стиле UNIX, но как
локальное время, а не UTC.
beqwdate Восьмибайтовое значение в порядке байтов big-endian,
интерпретируемое как дата в стиле Windows.
bemsdosdate
Двухбайтовое значение в порядке байтов big-endian,
интерпретируемое как дата в стиле FAT/DOS.
bemsdostime
Двухбайтовое значение в порядке байтов big-endian,
интерпретируемое как время в стиле FAT/DOS.
bestring16 Двухбайтовая строка unicode (UCS16) в порядке байтов
big-endian.
leid3 32-битная длина ID3 в порядке байтов little-endian.
leshort Двухбайтовое значение в порядке байтов little-endian.
lelong Четырёхбайтовое значение в порядке байтов little-endian.
lequad Восьмибайтовое значение в порядке байтов little-endian.
lefloat 32-битное число с плавающей запятой одинарной точности
IEEE в порядке байтов little-endian.
ledouble 64-битное число с плавающей запятой двойной точности
IEEE в порядке байтов little-endian.
ledate Четырёхбайтовое значение в порядке байтов little-endian,
интерпретируемое как дата UNIX.
leqdate Восьмибайтовое значение в порядке байтов little-endian,
интерпретируемое как дата UNIX.
leldate Четырёхбайтовое значение в порядке байтов little-endian,
интерпретируемое как дата в стиле UNIX, но как
локальное время, а не UTC.
leqldate Восьмибайтовое значение в порядке байтов little-endian,
интерпретируемое как дата в стиле UNIX, но как
локальное время, а не UTC.
leqwdate Восьмибайтовое значение в порядке байтов little-endian,
интерпретируемое как дата в стиле Windows.
lemsdosdate
Двухбайтовое значение в порядке байтов big-endian,
интерпретируемое как дата в стиле FAT/DOS.
lemsdostime
Двухбайтовое значение в порядке байтов big-endian,
интерпретируемое как время в стиле FAT/DOS.
lestring16 Двухбайтовая строка unicode (UCS16) в порядке байтов
little-endian.
melong Четырёхбайтовое значение в порядке байтов middle-endian
(PDP-11).
medate Четырёхбайтовое значение в порядке байтов middle-endian
(PDP-11), интерпретируемое как дата UNIX.
meldate Четырёхбайтовое значение в порядке байтов middle-endian
(PDP-11), интерпретируемое как дата в стиле UNIX, но
как локальное время, а не UTC.
indirect Начиная с заданного смещения, снова обратиться к базе
данных magic. Смещение косвенного magic по умолчанию
абсолютное в файле, но можно указать /r, чтобы
указать, что смещение относительно от начала записи.
name Определить “именованный” экземпляр magic, который можно
вызвать из другой записи use magic, как вызов
подпрограммы. Прямые смещения именованных экземпляров
magic относительно смещения предыдущей совпавшей
записи, но косвенные смещения относительно начала
файла, как обычно. Записи именованного magic всегда
совпадают.
use Рекурсивно вызвать именованный magic, начиная с
текущего смещения. Если имя ссылки начинается с ^,
то порядок байтов magic переключается; если, например,
указано leshort, оно обрабатывается как beshort и
наоборот. Это полезно, чтобы избежать дублирования
правил для разных порядков байтов.
regex Сопоставление регулярного выражения в расширенном
синтаксисе POSIX (как в egrep). Регулярные выражения
могут требовать экспоненциального времени обработки,
и их производительность трудно предсказать, поэтому
их использование не рекомендуется. При использовании
в производственных средах их производительность
следует тщательно проверять. Размер строки для
поиска также следует ограничивать, указав /<length>,
чтобы избежать проблем с производительностью при
сканировании длинных файлов. Спецификация типа может
также опционально следовать /[c][s][l]. Флаг “c”
делает сопоставление регистронезависимым, а флаг “s”
обновляет смещение до начального смещения
сопоставления, а не до конца. Модификатор “l”
изменяет предел длины на количество строк вместо
количества байтов. Строки разделяются родным
разделителем строк платформы. При указании количества
строк также вычисляется неявное количество байтов,
предполагая, что каждая строка имеет длину 80
символов. Если ни количество байтов, ни строк не
указано, поиск автоматически ограничивается 8KiB. ^ и
$ сопоставляются с началом и концом отдельных строк,
соответственно, а не с началом и концом файла.
search Поиск буквальной строки, начиная с заданного смещения.
Можно использовать те же модификаторы, что и для
шаблонов string. Выражение поиска должно содержать
диапазон в форме /number, то есть количество
позиций, в которых будет попытка сопоставления,
начиная с начального смещения. Это подходит для
поиска больших бинарных выражений с переменными
смещениями, используя \ экраны для специальных
символов. Порядок модификатора и числа не важен.
default Это предназначено для использования с тестом x (который
всегда истинен) и у него нет типа. Он совпадает, когда
ни один другой тест на этом уровне продолжения не
совпал ранее. Очистка совпавших тестов для уровня
продолжения можно выполнить с помощью теста clear.
clear Этот тест всегда истинен и сбрасывает флаг совпадения
для этого уровня продолжения. Он предназначен для
использования с тестом default.
der Разобрать файл как файл сертификата DER. Поле теста
используется как тип der, который нужно сопоставить.
Типы DER: eoc, bool, int, bit_str, octet_str, null,
obj_id, obj_desc, ext, real, enum, embed, utf8_str,
rel_oid, time, res2, seq, set, num_str, prt_str,
t61_str, vid_str, ia5_str, utc_time, gen_time,
gr_str, vis_str, gen_str, univ_str, char_str,
bmp_str, date, tod, datetime, duration, oid-iri,
rel-oid-iri. Эти типы могут следовать необязательному
числовому размеру, который указывает ширину поля в
байтах.
guid Глобально уникальный идентификатор, разбираемый и
выводимый как XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX. Его
формат — строка.
offset Quad-значение, указывающее текущее смещение файла. Оно
может использоваться для определения размера файла или
буфера magic. Например, записи magic:
-0 offset x this file is %lld bytes
-0 offset <=100 must be more than 100 \
bytes and is only %lld
octal Строка, представляющая восьмеричное число.
Для совместимости со стандартом Single UNIX, спецификаторы
типов dC и d1 эквивалентны byte, спецификаторы типов uC
и u1 эквивалентны ubyte, спецификаторы типов dS и d2
эквивалентны short, спецификаторы типов uS и u2
эквивалентны ushort, спецификаторы типов dI, dL и d4
эквивалентны long, спецификаторы типов uI, uL и u4
эквивалентны ulong, спецификатор типов d8 эквивалентен
quad, спецификатор типов u8 эквивалентен uquad, и
спецификатор типов s эквивалентен string. Кроме того,
спецификатор типов dQ эквивалентен quad, а спецификатор
типов uQ эквивалентен uquad.
Каждый шаблон magic верхнего уровня (см. ниже для
объяснения уровней) классифицируется как текст или
бинарный в зависимости от используемых типов. Типы
“regex” и “search” классифицируются как тесты текста,
если в шаблоне не используются непечатаемые символы. Все
другие тесты классифицируются как бинарные. Шаблон
верхнего уровня считается тестом текста, когда все его
шаблоны являются текстовыми; в противном случае он
считается бинарным. При сопоставлении файла сначала
проверяются бинарные шаблоны; если совпадение не найдено,
и файл выглядит как текст, то определяется его кодировка
и проверяются текстовые шаблоны.
Числовые типы могут опционально следовать & и числовым
значением, чтобы указать, что значение должно быть
объединено с числовым значением с помощью AND перед
любыми сравнениями. Добавление u к типу указывает, что
упорядоченные сравнения должны быть беззнаковыми.
test Значение для сравнения со значением из файла. Если тип
числовой, это значение указывается в форме C; если это
строка, оно указывается как строка C с обычными экранами
(например, \n для новой строки).
Числовые значения могут предшествовать символом,
указывающим операцию. Это может быть =, чтобы указать,
что значение из файла должно быть равно указанному
значению, <, чтобы указать, что значение из файла должно
быть меньше указанного значения, >, чтобы указать, что
значение из файла должно быть больше указанного значения,
&, чтобы указать, что значение из файла должно иметь все
установленные биты, которые установлены в указанном
значении, ^, чтобы указать, что значение из файла должно
иметь очищенные биты, которые установлены в указанном
значении, или ~, указанное после значение инвертируется
перед тестированием. x, чтобы указать, что любое значение
подойдёт. Если символ omitted, предполагается =. Операторы
&, ^ и ~ не работают с числами с плавающей запятой и
double. Оператор ! указывает, что строка совпадает, если
тест не успешен.
Числовые значения указываются в форме C; например, 13
— десятичное, 013 — восьмеричное, а 0x13 — шестнадцатеричное.
Числовые операции не выполняются над типами дат, вместо
этого числовое значение интерпретируется как смещение.
Для строковых значений строка из файла должна совпадать с
указанной строкой. Операторы =, < и > (но не &) могут
применяться к строкам. Используемая длина для
сопоставления — длина строкового аргумента в файле magic.
Это означает, что строка может совпадать с любой
непустой строкой (обычно используется для последующего
вывода строки), с >\0 (потому что все непустые строки
больше пустой строки).
Даты обрабатываются как числовые значения в
соответствующем внутреннем представлении.
Специальный тест x всегда оценивается как истинный.
message Сообщение для вывода, если сравнение успешно. Если строка
содержит спецификацию формата printf(3), значение из файла
(с любыми указанными масками) выводится с использованием
сообщения как строки формата. Если строка начинается с
“\b”, выводимое сообщение — остаток строки без добавления
пробелов перед ним: несколько совпадений обычно
разделяются одним пробелом.
APPLE 4+4 символа APPLE creator и type можно указать как:
!:apple CREATYPE
Список разделённых слэшами распространённых расширений имён файлов можно
указать как:
!:ext ext[/ext...]
т.е. буквальная строка “!:ext”, за которой следует список расширений,
разделённых слэшами; например, для изображений JPEG:
!:ext jpeg/jpg/jpe/jfif
Тип MIME указывается на отдельной строке, которая должна быть следующей
непустой или некомментарийной строкой после строки magic, идентифицирующей
тип файла, и имеет следующий формат:
!:mime MIMETYPE
т.е. буквальная строка “!:mime”, за которой следует тип MIME.
Опциональную силу можно указать на отдельной строке, которая относится к
текущему описанию magic, используя следующий формат:
!:strength OP VALUE
Операнд OP может быть: +, -, *, или / и VALUE — константа от 0 до 255.
Эта константа применяется с использованием указанного операнда к
текущему вычисленному значению по умолчанию силы magic.
Некоторые форматы файлов содержат дополнительную информацию, которую нужно
выводить вместе с типом файла или требуют дополнительных тестов для
определения истинного типа файла. Эти дополнительные тесты вводятся
одним или несколькими символами > перед смещением. Количество > на
строке указывает уровень теста; строка без > в начале считается на уровне
0. Тесты организованы в иерархию, похожую на дерево: если тест на строке
уровня n успешен, то все последующие тесты уровня n+1 выполняются, и
сообщения выводятся, если тесты успешны, до появления строки с уровнем n
или меньше. Для более сложных файлов можно использовать пустые сообщения,
чтобы получить эффект “if/then”, следующим образом:
0 string MZ
>0x18 uleshort <0x40 MS-DOS executable
>0x18 uleshort >0x3f extended PC executable (e.g., MS Windows)
Смещения не обязательно должны быть постоянными, но могут также
читаться из проверяемого файла. Если первый символ после последнего >
— (, то строка после скобки интерпретируется как косвенное смещение.
Это означает, что число после скобки используется как смещение в файле.
Значение по этому смещению читается и используется снова как смещение в
файле. Косвенные смещения имеют форму: (x [[.,][bBcCeEfFgGhHiIlmosSqQ]][+-][ y ]).
Значение x используется как смещение в файле. По этому смещению читается
байт, длина id3, short или long в зависимости от спецификатора типа
[bBcCeEfFgGhHiIlLmsSqQ]. Значение считается знаковым, если указан “,”,
или беззнаковым, если указан “.”. Заглавные типы интерпретируют число как
big endian, в то время как строчные версии интерпретируют число как little
endian; тип m интерпретирует число как middle endian (PDP-11). К этому
числу добавляется значение y, и результат используется как смещение в
файле. Тип по умолчанию, если не указан, — long. Распознаются следующие
типы:
Type Sy Mnemonic Sy Endian Sy Size
bcBC Byte/Char N/A 1
efg Double Little 8
EFG Double Big 8
hs Half/Short Little 2
HS Half/Short Big 2
i ID3 Little 4
I ID3 Big 4
l Long Little 4
L Long Big 4
m Middle Middle 4
o Octal Textual Variable
q Quad Little 8
Q Quad Big 8
Таким образом можно проверить переменной длины структуры:
# MS Windows executables are also valid MS-DOS executables
0 string MZ
>0x18 uleshort <0x40 MZ executable (MS-DOS)
# skip the whole block below if it is not an extended executable
>0x18 uleshort >0x3f
>>(0x3c.l) string PE\0\0 PE executable (MS-Windows)
>>(0x3c.l) string LX\0\0 LX executable (OS/2)
Эта стратегия проверки имеет недостаток: нужно убедиться, что в итоге
что-то выводится, иначе пользователи могут получить пустой вывод (как в
случае, если нет ни PE\0\0, ни LE\0\0 в приведённом выше примере).
Если это косвенное смещение нельзя использовать напрямую, возможны
простые расчёты: добавление [+-*/%&|^]number внутри скобок позволяет
изменить значение, прочитанное из файла, перед использованием его как
смещения:
# MS Windows executables are also valid MS-DOS executables
0 string MZ
# sometimes, the value at 0x18 is less that 0x40 but there's still an
# extended executable, simply appended to the file
>0x18 uleshort <0x40
>>(4.s*512) leshort 0x014c COFF executable (MS-DOS, DJGPP)
>>(4.s*512) leshort !0x014c MZ executable (MS-DOS)
Иногда точное смещение неизвестно, так как оно зависит от длины или
позиции (когда ранее использовалось косвенное смещение) предыдущих полей.
Можно указать смещение относительно конца последнего поля верхнего уровня,
используя ‘&’ как префикс смещения:
0 string MZ
>0x18 uleshort >0x3f
>>(0x3c.l) string PE\0\0 PE executable (MS-Windows)
# immediately following the PE signature is the CPU type
>>>&0 leshort 0x14c for Intel 80386
>>>&0 leshort 0x8664 for x86-64
>>>&0 leshort 0x184 for DEC Alpha
Косвенные и относительные смещения можно комбинировать:
0 string MZ
>0x18 uleshort <0x40
>>(4.s*512) leshort !0x014c MZ executable (MS-DOS)
# if it's not COFF, go back 512 bytes and add the offset taken
# from byte 2/3, which is yet another way of finding the start
# of the extended executable
>>>&(2.s-514) string LE LE executable (MS Windows VxD driver)
Или наоборот:
0 string MZ
>0x18 uleshort >0x3f
>>(0x3c.l) string LE\0\0 LE executable (MS-Windows)
# at offset 0x80 (-4, since relative offsets start at the end
# of the up-level match) inside the LE header, we find the absolute
# offset to the code area, where we look for a specific signature
>>>(&0x7c.l+0x26) string UPX \b, UPX compressed
Или даже оба!
0 string MZ
>0x18 uleshort >0x3f
>>(0x3c.l) string LE\0\0 LE executable (MS-Windows)
# at offset 0x58 inside the LE header, we find the relative offset
# to a data area where we look for a specific signature
>>>&(&0x54.l-3) string UNACE \b, ACE self-extracting archive
Если нужно работать с парами смещение/длина в файле, даже второе значение
в выражении в скобках можно взять из самого файла, используя другой набор
скобок. Обратите внимание, что это дополнительное косвенное смещение
всегда относительно начала основного косвенного смещения.
0 string MZ
>0x18 uleshort >0x3f
>>(0x3c.l) string PE\0\0 PE executable (MS-Windows)
# search for the PE section called ".idata"...
>>>&0xf4 search/0x140 .idata
# ...and go to the end of it, calculated from start+length;
# these are located 14 and 10 bytes after the section name
>>>>(&0xe.l+(-4)) string PK\3\4 \b, ZIP self-extracting archive
Если у вас есть список известных значений на определённом уровне
продолжения и вы хотите предоставить переключатель-подобный случай по
умолчанию:
# clear that continuation level match
>18 clear x
>18 lelong 1 one
>18 lelong 2 two
>18 default x
# print default match
>>18 lelong x unmatched 0x%x
SEE ALSO
file(1) — команда, которая читает этот файл.
BUGS
Форматы long, belong, lelong, melong, short, beshort и leshort не
зависят от длины типов данных C short и long на платформе, даже если
стандарт Single UNIX подразумевает обратное. Однако, поскольку OS X
Mountain Lion прошла проверку на соответствие стандарту Single UNIX и
поставляет версию file(1), в которой они не зависят от размеров типов
данных C и которая построена для 64-битной среды, в которой long имеет
размер 8 байтов, а не 4 байта, предполагается, что проверочный набор не
тестирует, например, является ли long элементом с тем же размером, что и
тип данных C long. Вероятно, должны быть имена типов int8, uint8, int16,
uint16, int32, uint32, int64 и uint64, а также их варианты с указанным
порядком байтов, чтобы сделать это более ясным.
BSD 27 ноября 2024 BSD
MAGIC(4) BSD Kernel Interfaces Manual MAGIC(4)
NAME
magic — file command's magic pattern file
DESCRIPTION
This manual page documents the format of magic files as used by the
file(1) command, version 5.46. The file(1) command identifies the type
of a file using, among other tests, a test for whether the file contains
certain “magic patterns”. The database of these “magic patterns” is usu‐
ally located in a binary file in /usr/share/misc/magic.mgc or a directory
of source text magic pattern fragment files in /usr/share/misc/magic.
The database specifies what patterns are to be tested for, what message
or MIME type to print if a particular pattern is found, and additional
information to extract from the file.
The format of the source fragment files that are used to build this data‐
base is as follows: Each line of a fragment file specifies a test to be
performed. A test compares the data starting at a particular offset in
the file with a byte value, a string or a numeric value. If the test
succeeds, a message is printed. The line consists of the following
fields:
offset A number specifying the offset (in bytes) into the file of the
data which is to be tested. This offset can be a negative num‐
ber if it is:
• The first direct offset of the magic entry (at continuation
level 0), in which case it is interpreted an offset from end
end of the file going backwards. This works only when a
file descriptor to the file is available and it is a regular
file.
• A continuation offset relative to the end of the last up-
level field (&).
If the offset starts with the symbol “+”, then all offsets are
interpreted as from the beginning of the file (the default).
type The type of the data to be tested. The possible values are:
byte A one-byte value.
short A two-byte value in this machine's native byte or‐
der.
long A four-byte value in this machine's native byte or‐
der.
quad An eight-byte value in this machine's native byte
order.
float A 32-bit single precision IEEE floating point number
in this machine's native byte order.
double A 64-bit double precision IEEE floating point number
in this machine's native byte order.
string A string of bytes. The string type specification
can be optionally followed by a /<width> option and
optionally followed by a set of flags /[bCcftTtWw]*.
The width limits the number of characters to be
copied. Zero means all characters. The following
flags are supported:
b Force binary file test.
C Use upper case insensitive matching: upper
case characters in the magic match both lower
and upper case characters in the target,
whereas lower case characters in the magic
only match upper case characters in the tar‐
get.
c Use lower case insensitive matching: lower
case characters in the magic match both lower
and upper case characters in the target,
whereas upper case characters in the magic
only match upper case characters in the tar‐
get. To do a complete case insensitive
match, specify both “c” and “C”.
f Require that the matched string is a full
word, not a partial word match.
T Trim the string, i.e. leading and trailing
whitespace
t Force text file test.
W Compact whitespace in the target, which must
contain at least one whitespace character.
If the magic has n consecutive blanks, the
target needs at least n consecutive blanks to
match.
w Treat every blank in the magic as an optional
blank. is deleted before the string is
printed.
pstring A Pascal-style string where the first byte/short/int
is interpreted as the unsigned length. The length
defaults to byte and can be specified as a modifier.
The following modifiers are supported:
B A byte length (default).
H A 2 byte big endian length.
h A 2 byte little endian length.
L A 4 byte big endian length.
l A 4 byte little endian length.
J The length includes itself in its count.
The string is not NUL terminated. “J” is used
rather than the more valuable “I” because this type
of length is a feature of the JPEG format.
date A four-byte value interpreted as a UNIX date.
qdate An eight-byte value interpreted as a UNIX date.
ldate A four-byte value interpreted as a UNIX-style date,
but interpreted as local time rather than UTC.
qldate An eight-byte value interpreted as a UNIX-style
date, but interpreted as local time rather than UTC.
qwdate An eight-byte value interpreted as a Windows-style
date.
msdosdate A two-byte value interpreted as FAT/DOS-style date.
msdostime A two-byte value interpreted as FAT/DOS-style time.
beid3 A 32-bit ID3 length in big-endian byte order.
beshort A two-byte value in big-endian byte order.
belong A four-byte value in big-endian byte order.
bequad An eight-byte value in big-endian byte order.
befloat A 32-bit single precision IEEE floating point number
in big-endian byte order.
bedouble A 64-bit double precision IEEE floating point number
in big-endian byte order.
bedate A four-byte value in big-endian byte order, inter‐
preted as a Unix date.
beqdate An eight-byte value in big-endian byte order, inter‐
preted as a Unix date.
beldate A four-byte value in big-endian byte order, inter‐
preted as a UNIX-style date, but interpreted as lo‐
cal time rather than UTC.
beqldate An eight-byte value in big-endian byte order, inter‐
preted as a UNIX-style date, but interpreted as lo‐
cal time rather than UTC.
beqwdate An eight-byte value in big-endian byte order, inter‐
preted as a Windows-style date.
bemsdosdate
A two-byte value in big-endian byte order, inter‐
preted as FAT/DOS-style date.
bemsdostime
A two-byte value in big-endian byte order, inter‐
preted as FAT/DOS-style time.
bestring16 A two-byte unicode (UCS16) string in big-endian byte
order.
leid3 A 32-bit ID3 length in little-endian byte order.
leshort A two-byte value in little-endian byte order.
lelong A four-byte value in little-endian byte order.
lequad An eight-byte value in little-endian byte order.
lefloat A 32-bit single precision IEEE floating point number
in little-endian byte order.
ledouble A 64-bit double precision IEEE floating point number
in little-endian byte order.
ledate A four-byte value in little-endian byte order, in‐
terpreted as a UNIX date.
leqdate An eight-byte value in little-endian byte order, in‐
terpreted as a UNIX date.
leldate A four-byte value in little-endian byte order, in‐
terpreted as a UNIX-style date, but interpreted as
local time rather than UTC.
leqldate An eight-byte value in little-endian byte order, in‐
terpreted as a UNIX-style date, but interpreted as
local time rather than UTC.
leqwdate An eight-byte value in little-endian byte order, in‐
terpreted as a Windows-style date.
lemsdosdate
A two-byte value in big-endian byte order, inter‐
preted as FAT/DOS-style date.
lemsdostime
A two-byte value in big-endian byte order, inter‐
preted as FAT/DOS-style time.
lestring16 A two-byte unicode (UCS16) string in little-endian
byte order.
melong A four-byte value in middle-endian (PDP-11) byte or‐
der.
medate A four-byte value in middle-endian (PDP-11) byte or‐
der, interpreted as a UNIX date.
meldate A four-byte value in middle-endian (PDP-11) byte or‐
der, interpreted as a UNIX-style date, but inter‐
preted as local time rather than UTC.
indirect Starting at the given offset, consult the magic
database again. The offset of the indirect magic is
by default absolute in the file, but one can specify
/r to indicate that the offset is relative from the
beginning of the entry.
name Define a “named” magic instance that can be called
from another use magic entry, like a subroutine
call. Named instance direct magic offsets are rela‐
tive to the offset of the previous matched entry,
but indirect offsets are relative to the beginning
of the file as usual. Named magic entries always
match.
use Recursively call the named magic starting from the
current offset. If the name of the referenced be‐
gins with a ^ then the endianness of the magic is
switched; if the magic mentioned leshort for exam‐
ple, it is treated as beshort and vice versa. This
is useful to avoid duplicating the rules for differ‐
ent endianness.
regex A regular expression match in extended POSIX regular
expression syntax (like egrep). Regular expressions
can take exponential time to process, and their per‐
formance is hard to predict, so their use is dis‐
couraged. When used in production environments,
their performance should be carefully checked. The
size of the string to search should also be limited
by specifying /<length>, to avoid performance issues
scanning long files. The type specification can
also be optionally followed by /[c][s][l]. The “c”
flag makes the match case insensitive, while the “s”
flag update the offset to the start offset of the
match, rather than the end. The “l” modifier,
changes the limit of length to mean number of lines
instead of a byte count. Lines are delimited by the
platforms native line delimiter. When a line count
is specified, an implicit byte count also computed
assuming each line is 80 characters long. If nei‐
ther a byte or line count is specified, the search
is limited automatically to 8KiB. ^ and $ match the
beginning and end of individual lines, respectively,
not beginning and end of file.
search A literal string search starting at the given off‐
set. The same modifier flags can be used as for
string patterns. The search expression must contain
the range in the form /number, that is the number of
positions at which the match will be attempted,
starting from the start offset. This is suitable
for searching larger binary expressions with vari‐
able offsets, using \ escapes for special charac‐
ters. The order of modifier and number is not rele‐
vant.
default This is intended to be used with the test x (which
is always true) and it has no type. It matches when
no other test at that continuation level has matched
before. Clearing that matched tests for a continua‐
tion level, can be done using the clear test.
clear This test is always true and clears the match flag
for that continuation level. It is intended to be
used with the default test.
der Parse the file as a DER Certificate file. The test
field is used as a der type that needs to be
matched. The DER types are: eoc, bool, int,
bit_str, octet_str, null, obj_id, obj_desc, ext,
real, enum, embed, utf8_str, rel_oid, time, res2,
seq, set, num_str, prt_str, t61_str, vid_str,
ia5_str, utc_time, gen_time, gr_str, vis_str,
gen_str, univ_str, char_str, bmp_str, date, tod,
datetime, duration, oid-iri, rel-oid-iri. These
types can be followed by an optional numeric size,
which indicates the field width in bytes.
guid A Globally Unique Identifier, parsed and printed as
XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX. It's format
is a string.
offset This is a quad value indicating the current offset
of the file. It can be used to determine the size
of the file or the magic buffer. For example the
magic entries:
-0 offset x this file is %lld bytes
-0 offset <=100 must be more than 100 \
bytes and is only %lld
octal A string representing an octal number.
For compatibility with the Single UNIX Standard, the type speci‐
fiers dC and d1 are equivalent to byte, the type specifiers uC
and u1 are equivalent to ubyte, the type specifiers dS and d2
are equivalent to short, the type specifiers uS and u2 are
equivalent to ushort, the type specifiers dI, dL, and d4 are
equivalent to long, the type specifiers uI, uL, and u4 are
equivalent to ulong, the type specifier d8 is equivalent to
quad, the type specifier u8 is equivalent to uquad, and the type
specifier s is equivalent to string. In addition, the type
specifier dQ is equivalent to quad and the type specifier uQ is
equivalent to uquad.
Each top-level magic pattern (see below for an explanation of
levels) is classified as text or binary according to the types
used. Types “regex” and “search” are classified as text tests,
unless non-printable characters are used in the pattern. All
other tests are classified as binary. A top-level pattern is
considered to be a test text when all its patterns are text pat‐
terns; otherwise, it is considered to be a binary pattern. When
matching a file, binary patterns are tried first; if no match is
found, and the file looks like text, then its encoding is deter‐
mined and the text patterns are tried.
The numeric types may optionally be followed by & and a numeric
value, to specify that the value is to be AND'ed with the nu‐
meric value before any comparisons are done. Prepending a u to
the type indicates that ordered comparisons should be unsigned.
test The value to be compared with the value from the file. If the
type is numeric, this value is specified in C form; if it is a
string, it is specified as a C string with the usual escapes
permitted (e.g. \n for new-line).
Numeric values may be preceded by a character indicating the op‐
eration to be performed. It may be =, to specify that the value
from the file must equal the specified value, <, to specify that
the value from the file must be less than the specified value,
>, to specify that the value from the file must be greater than
the specified value, &, to specify that the value from the file
must have set all of the bits that are set in the specified
value, ^, to specify that the value from the file must have
clear any of the bits that are set in the specified value, or ~,
the value specified after is negated before tested. x, to spec‐
ify that any value will match. If the character is omitted, it
is assumed to be =. Operators &, ^, and ~ don't work with
floats and doubles. The operator ! specifies that the line
matches if the test does not succeed.
Numeric values are specified in C form; e.g. 13 is decimal, 013
is octal, and 0x13 is hexadecimal.
Numeric operations are not performed on date types, instead the
numeric value is interpreted as an offset.
For string values, the string from the file must match the spec‐
ified string. The operators =, < and > (but not &) can be ap‐
plied to strings. The length used for matching is that of the
string argument in the magic file. This means that a line can
match any non-empty string (usually used to then print the
string), with >\0 (because all non-empty strings are greater
than the empty string).
Dates are treated as numerical values in the respective internal
representation.
The special test x always evaluates to true.
message The message to be printed if the comparison succeeds. If the
string contains a printf(3) format specification, the value from
the file (with any specified masking performed) is printed using
the message as the format string. If the string begins with
“\b”, the message printed is the remainder of the string with no
whitespace added before it: multiple matches are normally sepa‐
rated by a single space.
An APPLE 4+4 character APPLE creator and type can be specified as:
!:apple CREATYPE
A slash-separated list of commonly found filename extensions can be spec‐
ified as:
!:ext ext[/ext...]
i.e. the literal string “!:ext” followed by a slash-separated list of
commonly found extensions; for example for JPEG images:
!:ext jpeg/jpg/jpe/jfif
A MIME type is given on a separate line, which must be the next non-blank
or comment line after the magic line that identifies the file type, and
has the following format:
!:mime MIMETYPE
i.e. the literal string “!:mime” followed by the MIME type.
An optional strength can be supplied on a separate line which refers to
the current magic description using the following format:
!:strength OP VALUE
The operand OP can be: +, -, *, or / and VALUE is a constant between 0
and 255. This constant is applied using the specified operand to the
currently computed default magic strength.
Some file formats contain additional information which is to be printed
along with the file type or need additional tests to determine the true
file type. These additional tests are introduced by one or more > char‐
acters preceding the offset. The number of > on the line indicates the
level of the test; a line with no > at the beginning is considered to be
at level 0. Tests are arranged in a tree-like hierarchy: if the test on
a line at level n succeeds, all following tests at level n+1 are per‐
formed, and the messages printed if the tests succeed, until a line with
level n (or less) appears. For more complex files, one can use empty
messages to get just the "if/then" effect, in the following way:
0 string MZ
>0x18 uleshort <0x40 MS-DOS executable
>0x18 uleshort >0x3f extended PC executable (e.g., MS Windows)
Offsets do not need to be constant, but can also be read from the file
being examined. If the first character following the last > is a ( then
the string after the parenthesis is interpreted as an indirect offset.
That means that the number after the parenthesis is used as an offset in
the file. The value at that offset is read, and is used again as an off‐
set in the file. Indirect offsets are of the form: (x
[[.,][bBcCeEfFgGhHiIlmosSqQ]][+-][ y ]). The value of x is used as an
offset in the file. A byte, id3 length, short or long is read at that
offset depending on the [bBcCeEfFgGhHiIlLmsSqQ] type specifier. The
value is treated as signed if “,” is specified or unsigned if “.” is
specified. The capitalized types interpret the number as a big endian
value, whereas the small letter versions interpret the number as a little
endian value; the m type interprets the number as a middle endian
(PDP-11) value. To that number the value of y is added and the result is
used as an offset in the file. The default type if one is not specified
is long. The following types are recognized:
Type Sy Mnemonic Sy Endian Sy Size
bcBC Byte/Char N/A 1
efg Double Little 8
EFG Double Big 8
hs Half/Short Little 2
HS Half/Short Big 2
i ID3 Little 4
I ID3 Big 4
l Long Little 4
L Long Big 4
m Middle Middle 4
o Octal Textual Variable
q Quad Little 8
Q Quad Big 8
That way variable length structures can be examined:
# MS Windows executables are also valid MS-DOS executables
0 string MZ
>0x18 uleshort <0x40 MZ executable (MS-DOS)
# skip the whole block below if it is not an extended executable
>0x18 uleshort >0x3f
>>(0x3c.l) string PE\0\0 PE executable (MS-Windows)
>>(0x3c.l) string LX\0\0 LX executable (OS/2)
This strategy of examining has a drawback: you must make sure that you
eventually print something, or users may get empty output (such as when
there is neither PE\0\0 nor LE\0\0 in the above example).
If this indirect offset cannot be used directly, simple calculations are
possible: appending [+-*/%&|^]number inside parentheses allows one to
modify the value read from the file before it is used as an offset:
# MS Windows executables are also valid MS-DOS executables
0 string MZ
# sometimes, the value at 0x18 is less that 0x40 but there's still an
# extended executable, simply appended to the file
>0x18 uleshort <0x40
>>(4.s*512) leshort 0x014c COFF executable (MS-DOS, DJGPP)
>>(4.s*512) leshort !0x014c MZ executable (MS-DOS)
Sometimes you do not know the exact offset as this depends on the length
or position (when indirection was used before) of preceding fields. You
can specify an offset relative to the end of the last up-level field us‐
ing ‘&’ as a prefix to the offset:
0 string MZ
>0x18 uleshort >0x3f
>>(0x3c.l) string PE\0\0 PE executable (MS-Windows)
# immediately following the PE signature is the CPU type
>>>&0 leshort 0x14c for Intel 80386
>>>&0 leshort 0x8664 for x86-64
>>>&0 leshort 0x184 for DEC Alpha
Indirect and relative offsets can be combined:
0 string MZ
>0x18 uleshort <0x40
>>(4.s*512) leshort !0x014c MZ executable (MS-DOS)
# if it's not COFF, go back 512 bytes and add the offset taken
# from byte 2/3, which is yet another way of finding the start
# of the extended executable
>>>&(2.s-514) string LE LE executable (MS Windows VxD driver)
Or the other way around:
0 string MZ
>0x18 uleshort >0x3f
>>(0x3c.l) string LE\0\0 LE executable (MS-Windows)
# at offset 0x80 (-4, since relative offsets start at the end
# of the up-level match) inside the LE header, we find the absolute
# offset to the code area, where we look for a specific signature
>>>(&0x7c.l+0x26) string UPX \b, UPX compressed
Or even both!
0 string MZ
>0x18 uleshort >0x3f
>>(0x3c.l) string LE\0\0 LE executable (MS-Windows)
# at offset 0x58 inside the LE header, we find the relative offset
# to a data area where we look for a specific signature
>>>&(&0x54.l-3) string UNACE \b, ACE self-extracting archive
If you have to deal with offset/length pairs in your file, even the sec‐
ond value in a parenthesized expression can be taken from the file it‐
self, using another set of parentheses. Note that this additional indi‐
rect offset is always relative to the start of the main indirect offset.
0 string MZ
>0x18 uleshort >0x3f
>>(0x3c.l) string PE\0\0 PE executable (MS-Windows)
# search for the PE section called ".idata"...
>>>&0xf4 search/0x140 .idata
# ...and go to the end of it, calculated from start+length;
# these are located 14 and 10 bytes after the section name
>>>>(&0xe.l+(-4)) string PK\3\4 \b, ZIP self-extracting archive
If you have a list of known values at a particular continuation level,
and you want to provide a switch-like default case:
# clear that continuation level match
>18 clear x
>18 lelong 1 one
>18 lelong 2 two
>18 default x
# print default match
>>18 lelong x unmatched 0x%x
SEE ALSO
file(1) - the command that reads this file.
BUGS
The formats long, belong, lelong, melong, short, beshort, and leshort do
not depend on the length of the C data types short and long on the plat‐
form, even though the Single UNIX Specification implies that they do.
However, as OS X Mountain Lion has passed the Single UNIX Specification
validation suite, and supplies a version of file(1) in which they do not
depend on the sizes of the C data types and that is built for a 64-bit
environment in which long is 8 bytes rather than 4 bytes, presumably the
validation suite does not test whether, for example long refers to an
item with the same size as the C data type long. There should probably
be type names int8, uint8, int16, uint16, int32, uint32, int64, and
uint64, and specified-byte-order variants of them, to make it clearer
that those types have specified widths.
BSD November 27, 2024 BSD