ftwin — консольная утилита для поиска файлов с одинаковым содержимым.
ftwin рекурсивно сканирует заданный каталог в поисках дубликатов файлов или похожих данных. Файлы сравниваются по размеру, именам файлов и содержимому, для сравнения графических файлов используется библиотека Libpuzzle (The Puzzle library).
Libpuzzle — библиотека созданная для быстрого поиска визуального сходства изображений (форматов GIF, PNG и JPG), даже если они были изменены. С помощью библиотеки изображение разбивается на участки, автоматически исключаются участки не несущие значимой информации, разницу между смежными блоками формирует вектор (подпись картинки). Сходство изображений определяется расстоянием между двумя такими векторами, поэтому обычные преобразования применяемые к изображениям не влияют на результат сравнения.
С помощью дополнительных опций ftwin позволяет выставить "порог подобия" файлов, минимальный размер файлов для обработки, можно задать список имён файлов (регулярных выражений) для игнорирования, ограничить использование памяти (при этом увеличится время поиска) и многое другое, функции удаления дубликатов (похожих) файлов не имеется.
Лицензия: Apache License Version 2.0