Най-добрите 10 алгоритми в извличането на данни

Извличането на данни постига важни изводи чрез големи количества сложни наблюдения.

Решението дървета

Алгоритмите на дървото за решения се състоят в организиране на данните в конкуриращи се избори, които формират клонове на влияние след първоначално решение. Багажникът на дървото представлява първоначалното решение и започва с въпрос "да" или "не", как да закусваме или не. Приемането на закуска и не вземането на закуска ще са двата отклоняващи се клона на дървото и всеки следващ избор ще има свои собствени разклонени клони, които водят до крайна точка.

Алгоритъмът на K-средства

Алгоритъмът на K-средства се основава на анализа на групите. Опитайте се да разделите събраните данни на отделни "клъстери", групирани по общи характеристики.

Поддържа векторни машини

Алгоритмите на машините за поддържащи вектори приемат входни данни и прогнозират коя от двете възможни категории включват входните данни. Пример за това е да се съберат пощенски кодове от група избиратели и да се предскаже дали даден избирател е демократ или републиканец.

Алгоритъмът a priori

Алгоритъмът a priori обикновено контролира данните за транзакциите. Например в магазин за дрехи алгоритъмът може да контролира кои ризи обикновено купуват заедно.

ЕМ алгоритъмът

Този алгоритъм определя параметрите чрез анализиране на данните и прогнозира възможността за бъдещо изходно или случайно събитие в рамките на параметрите на данните. Например алгоритъмът EM може да се опита да предвиди времето за следващо изригване на гейзер въз основа на данните за времето на изригвания от миналото.

Алгоритъм на PageRank

Алгоритъмът PageRank е основен алгоритъм за търсачките. Оценявайте и преценявайте съответствието на дадено парче данни в голям набор, като например един уебсайт в рамките на по-голям набор от всички интернет страници.

Алгоритъм на AdaBoost

Алгоритъмът на AdaBoost работи в рамките на други алгоритми за обучение, които предвиждат поведение според наблюдаваните данни, така че да са чувствителни към статистически крайности. Въпреки че ЕМ алгоритъмът може да бъде предубеден поради гейзер, който има две изригвания за по-малко от една минута, когато обикновено има обрив веднъж дневно, алгоритъмът AdaBoost ще промени изхода на ЕМ алгоритъма, като анализира значението на крайната точка.

Алгоритъм на най-близкия k съсед

Този алгоритъм разпознава моделите в местоположението на данните и ги свързва с данни с по-голям идентификатор. Например, ако искате да зададете пощенска служба на всяко географско местоположение на дома и имате набор от данни за всяко географско местоположение на дома, алгоритъмът на най-близкия k съсед ще разпредели къщите на най-близката поща на базата на тяхната близост.

Naive Baye

Алгоритъмът Naive Baye прогнозира изхода на една идентичност въз основа на данните от известни наблюдения. Например, ако човек има височина от 1, 97 м и носи размер 14 обувки, алгоритъмът Naive Baye може да предвиди с определена вероятност, че човекът е човек.

CART Алгоритъм

"CART" е акроним на английски, който означава анализ и класификация на регресионното дърво. Подобно на анализа на дърветата за вземане на решения, тя организира данните според конкуриращи се опции, сякаш човек е оцелял от земетресение. За разлика от алгоритмите на дърветата за вземане на решения, които могат да класифицират изход или цифрова продукция въз основа на регресия, алгоритъмът CART може да използва и двете, за да предскаже вероятността за събитие.