Шрифты несут в себе сильные эмоциональные и социальные сигналы и могут существенно влиять на взаимодействие с пользователем
Тугба Кулахчиоглу (Tugba Kulahcioglu), Ратгерский университет, США, Жерар де Мело (Gerard de MeloAuthors), Институт Хассо Платтнера и Потсдамский университет, Германия, "Шрифты, похожие на этот, но более жизнерадостные: новый способ поиска шрифтов", в материалах 28-й Международной конференции по мультимедиа, 12–16 октября 2020 г., Сиэтл.
Шрифты несут в себе сильные эмоциональные и социальные сигналы и могут существенно влиять на взаимодействие с пользователем. Следовательно, выбор правильного шрифта является очень важным шагом в разработке многомодального артефакта с текстом. В настоящее время исследование шрифтов часто осуществляется с помощью связанных социальных тегов. Ожидается, что пользователи будут просматривать тысячи шрифтов, помеченных определенными концепциями, чтобы найти тот, который лучше всего подходит для их варианта использования.
ассоциации шрифтов
В этом исследовании авторы предлагают новый метод, который позволяет обнаружить оригинальные шрифты, а пользователи предоставляют эталонный шрифт вместе с изменениями, которые они хотели бы получить, чтобы приблизиться к своему идеалу. Это обеспечивает эффективную и целенаправленную навигацию по пространству шрифтов и обнаружение шрифтов, которые в противном случае, вероятно, были бы пропущены. Достигается это путем изучения кросс-модальных векторных представлений, которые связывают шрифты и поисковые слова.
ВВЕДЕНИЕ Учитывая, что тысячи шрифтов сейчас находятся в свободном доступе в Интернете, выбор среди них обычно осуществляется с помощью связанных социальных тегов. Однако, когда выбор шрифтов основан только на таких тегах, помогать пользователям в их выборе становится сложной задачей. Возможность пользователей изучать различные шрифты ограничена как неполнотой тегов, так и ограниченным набором тегов. С ростом набора тегов увеличивается риск пропуска тегов для шрифтов. Даже в идеальном сценарии с большим набором тегов и при отсутствии каких-либо ассоциаций с отсутствующими тегами пользователи всё равно будут страдать от большого количества шрифтов, которые им придётся просматривать, чтобы найти идеальный шрифт для своего варианта использования.
В исследовании пользователей Ву и др. опросили дизайнеров об их процессе выбора шрифтов и трудностях, с которыми они столкнулись. Неудивительно, что одной из основных трудностей, о которых сообщили участники, было определение шрифтов, соответствующих определенному семантическому профилю. Один из участников сообщил об этом следующим образом:
«Когда я ищу определенный шрифт, я знаю, какое чувство я хочу, чтобы он вызывал. Но я потратил так много времени, просматривая и просматривая, и все еще не мог найти тот самый».
Это говорит о необходимости систем, поддерживающих более открытую форму поиска шрифтов, позволяющую пользователям искать произвольные слова запроса атрибутов, в том числе те, которые вообще не присутствуют в качестве тегов в данных. В том же исследовании пользователей участники также выразили желание немного изменить шрифты, которые в остальном частично удовлетворяли их потребностям, но были «совсем немного не такими». Они также подчеркнули необходимость уникальных шрифтов, чтобы избегать очень популярных шрифтов и лучше отличать свой дизайн-продукт от продуктов конкурентов.
В данной статье авторы предлагают новый мультимодальный метод поиска шрифтов, при котором пользователи предоставляют эталонный шрифт, визуально похожий на тот, который они ищут, но лишь частично удовлетворяющий их потребностям, а также изменения, которые они хотели бы получить, чтобы приблизиться к своему идеальному шрифту.
Если пользователю нравится стиль определенного шрифта, но ему нужна более удобная версия, он может предоставить этот шрифт в качестве эталона и указать желаемые изменения. Используя этот механизм, пользователи не только удовлетворяют свою потребность в небольшом изменении шрифта, но и имеют возможность исследовать нишевые разделы доступного набора шрифтов, чтобы найти уникальный шрифт, не тратя усилий на просмотр шрифтов, которые далеки от того, что им нужно.
Реализуют эту форму стратегии поиска, встраивая шрифты и слова в единое кросс-модальное пространство представления, что позволяет использовать мультимодальную векторную арифметику. Вышеуказанный метод не только позволяет использовать новые методы обнаружения шрифтов, но и помогает преодолеть другие семантические проблемы, в частности, проблемы ограниченного набора тегов и отсутствия связей между шрифтами и тегами. Пользователи получают доступ ко всему словарю, предоставляемому языком (в нашем случае английским), и шрифт не обязательно помечать конкретными словами, с которыми его ассоциируют пользователи, поскольку метод способен выводить такие связи.
ДАННЫЕ О ТЕГИРОВАНИИ ШРИФТОВ В исследовании предполагается наличие большой коллекции шрифтов с существенной (хотя и неполной) социальной маркировкой. Далее следует описание, как получен такой набор данных.
Сканирование данных Собрали ассоциации шрифтов и тегов с сайта 1001fonts.com, который каталогизирует файлы шрифтов вместе с назначенными пользователями тегами.
Как и в большинстве подобных веб-ресурсов, семейства шрифтов тегируются целиком, например, курсивные или полужирные версии шрифта не тегируются отдельно. Vы используем в нашем наборе данных «обычную» версию семейства шрифтов. Однако, в отличие от предыдущих исследований, мы применяем ряд шагов очистки данных, чтобы максимально снизить уровень шума.
Очистка данных Отфильтровали нерелевантные шрифты и теги, пытаясь очистить веб-данные, которые иначе были бы зашумлены.
Фильтрация шрифтов. Шрифты «дингбат» - это шрифты, состоящие исключительно из символов, а не из букв или цифр. Они используются в декоративных или символьных целях. Поскольку они не важны для отображения текста, мы отбрасываем все шрифты с тегом «дингбат» в данных, что составляет около 600 шрифтов.
Фильтрация атрибутов Поскольку нас интересуют теги, описывающие семантические атрибуты шрифтов и позволяющие обнаруживать шрифты по этим атрибутам (например, «happier»), мы отбрасываем около 100 тегов, которые просто обозначают семейства шрифтов (например, serif, sans-serif, slab serif) или другие типы информации (например, google web, 10pt, 12pt), не имеющие прямого отношения к семантике шрифта. Мы также удаляем несколько тегов, написанных не на английском языке. Мы сохраняем типографские теги, которые могут обеспечивать семантические связи, например, «широкий», «рукописный», «готический», «плакат» и «контурный». В качестве конкретного примера, для шрифта, представленного на рисунке 2, теги serif, text, google web и medium были удалены, оставив шрифт с тегами christmas, bouncy, staggered, curly, cute, playful, casual, warm, fun, handwritten и light.
Сводка по набору данных После вышеуказанной фильтрации результирующий набор данных содержит около 10,4 тыс. шрифтов, 2,6 тыс. тегов и 54 тыс. назначений шрифтов-тегов, со средним количеством тегов 5 на шрифт.
Большинство тегов используются для тегирования менее сотни шрифтов, и большинство шрифтов имеют менее 10 тегов. На рисунке 4 представлены три примера шрифтов для 9 выбранных тегов из набора данных, чтобы дать представление о диапазоне семантических связей. На рисунке 5 представлены примеры шрифтов для некоторых атрибутов, выражающих эмоции. На рисунке 8 в разделе 5 также представлены примеры шрифтов для 10 наиболее часто встречающихся атрибутов.
Обучение кросс-модальному представлению Индуцируются вложения шрифтов с помощью глубокой сверточной нейронной сети, а вложения слов - путём модификации предварительно обученных распределённых вложений слов для лучшего соответствия ограничениям антонимии и синонимии. Заключительным шагом является объединение вышеупомянутых вложений шрифта и слов в единое кросс-модальное векторное пространство.
Индукция встраивания шрифтов Первая цель - получить матрицу встраивания шрифтов, строки которой содержат n-мерное векторное представление для каждого шрифта. Ожидается, что эти векторные представления будут отражать визуальное сходство, т. е. шрифты которые визуально похожи, должны иметь похожие векторы. Для этого для каждого шрифта мы генерируем изображение, отображающее фиксированный набор из 14 различных букв алфавита, используя этот шрифт, чтобы продемонстрировать его визуальные характеристики. Затем мы передаем эти изображения в глубокую сверточную нейронную сеть с остаточными связями, а именно в модель ResNet-18, предварительно обученную на ImageNet. Для каждого шрифта извлекаем результирующее 512-мерное скрытое представление из среднего слоя пулинга модели. Наконец, для снижения размерности до 300 измерений применяем главный компонентный анализ (PCA) и проецируем каждое скрытое представление шрифта в пространство, охватываемое первыми главными компонентами, чтобы получить искомую матрицу.
Индукция вложений слов Следующая цель - индуцировать векторные представления тегов. Начнём с широко используемых 300-мерных векторов word2vec, предварительно обученных на большом наборе данных Google News, который предоставляет матрицу вложений слов для большого словаря V английских слов. Векторы основаны на контекстной информации, а соответствующие векторные сходства отражают дистрибутивное сходство. Однако дистрибутивное сходство в целом и векторы слов word2vec в частности, как правило, дают схожие представления слов с противоположным значением, таких как «формальный» и «неформальный». Чтобы решить эту проблему, применяем алгоритм контрподгонки для преобразования исходной матрицы вложений слов W в новую матрицу вложений W, с учётом ограничений антонимии и ограничений синонимии. Алгоритм минимизирует функцию потерь.
Чтобы определить отображение, решаеется так называемая задача Прокруста, которую, согласно Шёнеману (1966), можно решить, вычислив сингулярное разложение (SVD) матрицы для получения ортогональных проекционных матриц U и V двух пространств в одно целевое пространство.
Описанный выше метод используется для извлечения подходящих шрифтов для атрибута без каких-либо аннотаций этого атрибута. На рисунке показаны 3 лучших шрифта, предсказанных этим методом для 10 наиболее частых атрибутов.
Например, для атрибута «handwritten» представления индуцируются на данных, исключая любую пометку шрифтов тегом «handwritten». Три шрифта, представленные для «handwritten», - это шрифты с векторами шрифтов с наибольшим косинусным сходством с нашим векторным представлением слова «handwritten». Галочки рядом со шрифтами указывают на то, что шрифт отмечен соответствующим атрибутом в веб-наборе данных, и, следовательно, прогноз считается точным. Второй шрифт для рукописного текста отмечен этим символом, что подтверждает его точность. Тем не менее, поскольку в веб-наборе данных, как известно, отсутствуют аннотации тегов, отсутствие связи в наборе данных не обязательно означает, что прогноз неточный. В случае рукописного текста все три предсказанных шрифта, по-видимому, соответствуют атрибуту, поэтому прогнозы точны.
Для количественной оценки результатов в этой настройке точность и полнота не подходят из-за неполных аннотаций тегов.
Результаты Основываясь на результатах, наш метод извлекает шрифты, помеченные соответствующим тегом в веб-наборе данных, на самых ранних позициях ранжированного списка; т.е. примерно на втором месте для 50 самых популярных атрибутов и на третьем месте для 100 самых популярных атрибутов при использовании для обучения. Процедура полной кросс-модальной индукции обеспечивает лучшую производительность по сравнению с вариантом без ограничений, поскольку последний с большей вероятностью объединяет атрибуты с разными значениями.
На рисунке показаны 3 лучших прогноза для атрибутов «широкий» и «узкий» с использованием варианта без ограничений.
Шрифты, по-видимому, представляют атрибуты, являющиеся антонимами предполагаемых атрибутов. Это объясняет разницу в производительности между двумя подходами.
В некоторых случаях предполагаемое значение атрибута в веб-наборе данных отличается от векторов слов. Например, слово black в качестве тега шрифта обычно используется для представления очень толстых шрифтов, в то время как на основе векторов слов оно, по-видимому, интерпретируется как темное и пессимистическое понятие в предсказании на основе атрибутов с нулевым выстрелом.
Результаты довольно близки к результатам, полученным в работе О’Донована и др., которым удалось достичь общей точности индивидуального выбора пользователя 76,04% (при верхней границе оракула 80,79%) на том же наборе данных, за исключением одного отсутствующего шрифта.
ЗАКЛЮЧЕНИЕ В данной статье мы разрабатываем кросс-модальное представление для шрифтов и слов и используем его для обеспечения поиска шрифтов по атрибутам с нулевой точностью, а также поиска шрифтов по сходству. Наши эксперименты дают представление о свойствах кросс-модальных вложений для шрифтов и слов. Поиск по тегам требует точного пространства представления, которое должным образом отражает различия между различными атрибутами. Соответственно, наш полный метод, основанный на семантических ограничениях и фильтрации обучающих данных top, показывает улучшенные результаты по сравнению с базовым методом без ограничений.
Так же показываем, что поиск по шрифтам и атрибутам можно объединить, предложив новую многомодальную стратегию поиска шрифтов, которая позволяет пользователю указывать эталонный шрифт вместе с изменениями, которые он хочет запросить. Это позволяет пользователям быстро находить новые шрифты, которые могут лучше соответствовать их требованиям к дизайну. В данном исследовании в основном фокус на семантических, а не на типографских атрибутах.
15.08.2025
Комментарий:
Шнобелевская премия 2018 питание
Джеймс Коула (James Cole) из Университета Брайтона в Британии расчет калорийност среднего человека (125 килокалорий) и доказал, что это не идет ни в какое сравнение с калорийностью мамонта, дикого оленя или бизона подробнее
Шнобелевская премия 2012 нейрология
Сложная аппаратура дает ложные сигналы. Магнитно-резонансные томографы очень сложная аппаратура. Иногда они регистрируют ложные сигналы, Для доказательства этого факта, Крэйг Беннетт и его компания отправились в супермаркет и купили лососей атлантических подробнее