Замечания по реализации.
Три шага оптимизации.
Целью описываемой в настоящей статье реализации ГОСТа было не создание максимального по эффективности кода любой ценой, целью было создание близкого к оптимальному по быстродействию, но при этом компактного и легкого для восприятия программистом кода.
Программирование алгоритмов ГОСТа «в лоб» даже на языке ассемблера дает результат, очень далекий от возможного оптимума. Задача создания эффективной реализации указанных алгоритмов для 16-разрядных процессоров Intel 8088–80286 представляет собой хотя и не сверхсложную, но все же и не вполне тривиальную задачу, и требует очень хорошего знания архитектуры и системы команд упомянутого семейства процессоров. Трудность здесь заключается в том, что для достижения максимальной производительности программная реализация должна как можно большую часть операций с данными выполнять в регистрах и как можно реже обращаться к памяти, а регистров у рассматриваемых процессоров не так много и все они 16-разрядные. С 32-разрядными процессорами этой же линии (Intel 80386 и старше) все намного проще именно в силу их 32-разрядности, здесь не будет трудностей даже у новичка.
В реализации алгоритмов были использованы изложенные ниже подходы, позволившие достигнуть максимальной производительности. Первые два из них достаточно очевидны, настолько, что встречаются практически в каждой реализации ГОСТа.
-
Базовые циклы ГОСТа содержат вложенные циклы (звучит коряво, но по-другому не скажешь), причем во внутреннем цикле порядок использования восьми 32-битных элементов ключа может быть прямой или обратный. Существенно упростить реализацию и повысить эффективность базовых циклов можно, если избежать использования вложенных циклов и просматривать последовательность элементов ключа только один раз. Для этого необходимо предварительно сформировать последовательность элементов ключа в том порядке, в котором они используются в соответствующем базовом цикле.
-
В основном шаге криптопреобразования 8 раз выполняется подстановка 4-битных групп данных. Целевой процессор реализации не имеет команды замены 4-битных групп, однако имеет удобную команду байтовой замены (xlat). Ее использование дает следующие выгоды:
-
за одну команду выполняются сразу две замены;
-
исчезает необходимость выделять полубайты из двойных слов для выполнения замены, а затем из 4-битовых результатов замен вновь формировать двойное слово.
Этим достигается значительное увеличение быстродействия кода, однако мир устроен так, что за все приходится платить, и в данном случае платой является необходимость преобразования таблицы замен. Каждая из четырех пар 4-разрядных узлов замен заменяется одним 8-разрядным узлом, который, говоря языком математики, представляет собой прямое произведение узлов, входящих в пару. Пара 4-разрядных узлов требует для своего представления 16 байтов, один 8-разрядный – 256 байтов. Таким образом, размер таблицы замен, которая должна храниться в памяти компьютера, увеличивается до 4·256=1024 байтов, или до одного килобайта. Конечно, такая плата за существенное увеличение эффективности реализации вполне приемлема.
-
После выполнения подстановок кода по таблице замен основной шаг криптопреобразования предполагает циклический сдвиг двойного слова влево на 11 бит. В силу 16-разрядной архитектуры рассматриваемых процессоров вращение 32-разрядного блока даже на 1 бит невозможно реализовать менее, чем за три ассемблерные команды, а вращение на большее число разрядов только как последовательность отдельных вращений на 1 разряд. К счастью, вращение на 11 бит влево можно представить как вращение на 8 бит, а затем еще на 3 бита влево. Думаю, для всех очевидно, что первое вращение реализуется тремя командами обмена байтовых регистров (xchg). Но секрет третьей оптимизации даже не в этом. Замена одного байта по таблице замен осуществляется командой xlat, которая выполняет операцию над аргументом в регистре AL, для того, чтобы заменить все байты двойного слова, их надо последовательно помещать в этот регистр. Секрет третьей оптимизации заключается в том, что эти перестановки можно организовать так, что в результате двойное слово окажется повернутым на 8 бит влево, то есть в совмещении замены по таблице и во вращении на байт влево. Еще один момент, на который стоит обратить внимание, это оптимальное кодирование трех последовательных вращений на 1 бит, это может быть реализовано по-разному и важно было выбрать оптимальный способ, который оказался вовсе не очевидным, поскольку потребовал выхода за пределы логики битовых сдвигов и использования команды суммирования с битами переноса (adc), то есть бит помещается на свою позицию не командой сдвига, а командой суммирования!