С маркированным набором данных нам нужен какой
Posted: Sat Jul 05, 2025 8:40 am
Скриншот вкладки классификации изображений в приложении Gradio, на которой показана столбчатая диаграмма с наиболее часто прогнозируемыми метками для изображений, присваиваемыми моделью компьютерного зрения.
Мы можем найти модель, которая уже хорошо работает с нашим набором данных. Если же нет, нам, возможно, придется рассмотреть возможность обучения модели.
Обучение вашей собственной модели компьютерного зрения
Последняя вкладка нашей демонстрации Gradio позволяет вам экспортировать набор данных изображений в формат, который может быть загружен Label Studio, инструментом с открытым исходным кодом для аннотирования данных при подготовке к задачам машинного обучения. В Label Studio мы можем определить метки, которые мы хотели бы применить к нашему набору данных. Например, мы можем решить, что нам интересно извлечь определенные типы изображений из этой коллекции. Мы можем использовать Label Studio для создания аннотированной версии нашего набора данных с этими метками. Для этого нам нужно назначить метки изображениям в нашем наборе данных с правильными метками. Хотя этот процесс может занять некоторое время, он может быть полезным способом дальнейшего изучения набора данных и убедиться, что ваши метки имеют смысл.
-то способ обучения модели. Для этого мы можем использовать AutoTrain . Этот инструмент позволяет обучать модели машинного обучения без написания кода. Использование этого подхода поддерживает создание модели, обученной на нашем наборе данных, которая База данных по азартным играм использует интересующие нас метки. В рамках этой статьи мы не сможем охватить все функции AutoTrain, но эта статья дает полезный обзор того, как это работает.
Следующие шаги
Как упоминалось во введении, вы можете самостоятельно изучить ARCH Image Dataset Explorer Demo . Если вы немного знаете Python, вы также можете продублировать Space и адаптировать или изменить текущую функциональность, которую он поддерживает для исследования набора данных.
Internet Archive и Hugging Face планируют организовать практический хакатон в этом году, посвященный использованию инструментов машинного обучения с открытым исходным кодом из экосистемы Hugging Face для работы с веб-архивами. Мероприятие будет включать создание интерфейсов для наборов данных веб-архива, совместное аннотирование и обучение моделей машинного обучения. Сообщите нам, если вы заинтересованы в участии, заполнив эту форму .
Мы можем найти модель, которая уже хорошо работает с нашим набором данных. Если же нет, нам, возможно, придется рассмотреть возможность обучения модели.
Обучение вашей собственной модели компьютерного зрения
Последняя вкладка нашей демонстрации Gradio позволяет вам экспортировать набор данных изображений в формат, который может быть загружен Label Studio, инструментом с открытым исходным кодом для аннотирования данных при подготовке к задачам машинного обучения. В Label Studio мы можем определить метки, которые мы хотели бы применить к нашему набору данных. Например, мы можем решить, что нам интересно извлечь определенные типы изображений из этой коллекции. Мы можем использовать Label Studio для создания аннотированной версии нашего набора данных с этими метками. Для этого нам нужно назначить метки изображениям в нашем наборе данных с правильными метками. Хотя этот процесс может занять некоторое время, он может быть полезным способом дальнейшего изучения набора данных и убедиться, что ваши метки имеют смысл.
-то способ обучения модели. Для этого мы можем использовать AutoTrain . Этот инструмент позволяет обучать модели машинного обучения без написания кода. Использование этого подхода поддерживает создание модели, обученной на нашем наборе данных, которая База данных по азартным играм использует интересующие нас метки. В рамках этой статьи мы не сможем охватить все функции AutoTrain, но эта статья дает полезный обзор того, как это работает.
Следующие шаги
Как упоминалось во введении, вы можете самостоятельно изучить ARCH Image Dataset Explorer Demo . Если вы немного знаете Python, вы также можете продублировать Space и адаптировать или изменить текущую функциональность, которую он поддерживает для исследования набора данных.
Internet Archive и Hugging Face планируют организовать практический хакатон в этом году, посвященный использованию инструментов машинного обучения с открытым исходным кодом из экосистемы Hugging Face для работы с веб-архивами. Мероприятие будет включать создание интерфейсов для наборов данных веб-архива, совместное аннотирование и обучение моделей машинного обучения. Сообщите нам, если вы заинтересованы в участии, заполнив эту форму .