Kaip jums pasakys visi, kada nors buvę santykiuose, žmogaus emocijos yra sudėtinga sąvoka. Tai ypač pasakytina apie rinkodaros specialistus, kurie bando suprasti savo produkto ar paslaugos kokybinę naudą - vertę, kuri viršija pagrindinio funkcionalumo ribas. Nesunku suprasti, ką veikia jūsų produktas, bet ar žinote, kaip tai priverčia jūsų vartotojus jaustis?





Jei naudojatumėte socialinės klausos nuotaikos analizę, tikslinės auditorijos nefiltruotos socialinės žiniasklaidos svarstymai būtų išskaidyti į strategines įžvalgas. Atsižvelgiant į visus socialiniai duomenys, pasiekiami „Twitter“ skirstymas į teigiamą, neigiamą ar neutralų nusiteikimą yra pagrindinis užsiėmimas, ir nėra sukurta dviejų lygių metodų. Štai kodėl HASHTAGS sukūrė hibridinę nuotaikos analizės sistemą, apjungiančią du pagrindinius metodus - Taisyklių sąrašus ir Mašinų mokymąsi.



Taisyklių sąrašai

Vienas paprasčiausių būdų spręsti nuotaikos analizę yra naudoti žmonių sukurtas taisykles ar žodynus. Taikydama šį metodą, sistema remiasi žodžių ar frazių sąrašu, tiesiogiai susiejančiu su konkrečia nuotaika. Pvz., Bet koks „Tweet“, kuriame yra žodis „aukšti penki“, gali būti pažymėtas kaip teigiamas, o „Tweet“ su „siaubinga“ - neigiamas. Tokias sistemas kaip galima pritaikyti ir jas galima išplėsti įtraukiant tūkstančius žodžių ir frazių taisyklių.



Neigiama yra tai, kad taisyklių sistemos kovoja su „Tweets“, atitinkančiomis prieštaraujančias taisykles, pavyzdžiui, „Filmas nebuvo toks siaubingas, kaip tikėjausi“. Čia „siaubinga“ gali būti pažymėta neigiama, o „numatoma“ - teigiama. Prieštaraujančios taisyklės žymi „Tweet“ kaip neutralų, o kai kurie skaitytojai interpretuos jį kaip šiek tiek teigiamą, o kiti - šiek tiek neigiamą.

Papildomas taisyklėmis pagrįstų sistemų apribojimas yra priklausomybė nuo žmogaus pastangų ir supratimo. Kalba sparčiai vystosi (ypač „Twitter“), o taisyklėmis paremta sistema reikalauja, kad kas nors pateiktų nuolatinį naujų terminų ir frazių srautą. Nuotaikos sistemos atnaujinimas ne visada yra svarbiausias prioritetas ir sistema gali greitai pasenti. Net stebint akylai, gali būti sunku nustatyti besikeičiančias kalbos tendencijas ir nustatyti, kada reikia įtraukti naujas taisykles.

Mašininis mokymasis

Naudojamos pažangesnės nuotaikų analizės sistemos Mašininis mokymasis (ML) metodai (kartais dar vadinami dirbtiniu intelektu arba Natūralios kalbos apdorojimas ). Mašininis mokymasis yra metodų grupė, pagal kurią statistika ir tikimybė nustato sudėtingus modelius, kurie gali būti naudojami elementams žymėti.



Skirtingai nuo taisyklėmis pagrįstų sistemų, ML sistemos yra pakankamai lanksčios aptikti panašumus, kurie žmogui nėra akivaizdūs. Žvelgdama į daugybę daugybės pavyzdžių, sistema sužino modelius, kurie paprastai siejami su teigiamais, neigiamais ar neutraliais jausmais.



Pavyzdžiui, ML nuotaikų analizės sistema gali pastebėti, kad „Tweets“, kuriuose yra žodis „lietus“ ir kurie baigiasi vienu šauktuku, yra neigiami, o „Tweets“ su „lietus“ ir dviem šauktukais yra teigiami. Žmogus gali nepastebėti šio modelio ir nesuprasti, kodėl jis atsiranda, tačiau ML sistema gali jį naudoti labai tiksliam nuspėjimui.

Nors mašininio mokymosi sistemos gali duoti puikių rezultatų, jos turi keletą trūkumų. Kai kalba yra labai įvairi, ML sistemai gali būti sunku išsijoti triukšmą, kad atsirinktų modelius. Kai egzistuoja tvirti modeliai, jie gali nustelbti rečiau paplitusius modelius ir priversti ML sistemą ignoruoti subtilius ženklus.



Sprout's Approach

Norėdami sukurti savo nuotaikų analizės sistemą, mes sukūrėme hibridinę sistemą, kurioje derinamos geriausios tiek taisyklėmis pagrįstos, tiek mašininio mokymosi metodikos. Mes išanalizavome dešimtis tūkstančių „Tweets“, norėdami nustatyti vietas, kuriose kovoja ML modeliai, ir pristatėme taisyklėmis pagrįstas strategijas, kurios padėtų įveikti tuos trūkumus.



Pridėdami statistinius modelius žmonių supratimu, mes sukūrėme tvirtą sistemą, kuri gerai veikia įvairiais būdais.



daigų nuotaikos analizė

Viskas apie tikslumą

Iš esmės nuotaikų analizė atrodo gana paprasta - tiesiog nuspręskite, ar „Tweet“ yra teigiamas, neigiamas ar neutralus. Žmonių kalba ir emocijos vis dėlto yra sudėtingos, o nuotaikos aptikimas tvite atspindi šį sudėtingumą.


707 angelo numeris

Apsvarstykite šiuos „Tweets“. Ar jie teigiami, neigiami ar neutralūs?

https://twitter.com/alex/status/917406154321420289

Galite jaustis užtikrintai atsakę, tačiau didelė tikimybė, kad ne visi su jumis sutiks. Tyrimai parodė, kad žmonės sutaria tik dėl „Tweets“ nuotaikos 60–80% laiko.

Galite būti skeptiškas. Mes taip pat buvome.


angelo skaičiaus 919 reikšmė

Norėdami tai išbandyti, du mūsų „Data Science“ komandos nariai pažymėjo tą patį 1000 „Tweets“ rinkinį kaip teigiamą, neigiamą ar neutralų. Mes supratome, kad „mes kasdien dirbame su„ Tweets “; mes tikriausiai turėsime beveik tobulą mudviejų susitarimą “.

Apskaičiavome rezultatus ir tada juos patikrinome dvigubai ir trigubai. Tyrimas buvo atliekamas vietoje - sutarėme tik dėl 73% „Tweets“.

Sentimentų analizės iššūkiai

Tyrimai (kartu su mūsų mažu eksperimentu) rodo, kad nuotaikos analizė nėra paprasta. Kodėl taip keblu? Pažvelkime į keletą didžiausių iššūkių.

Kontekstas

„Twitter“ yra nedidelis momentinis vaizdas. Nors kai kurie yra vieni, „Tweets“ dažnai yra vykstančio pokalbio ar informacinės informacijos dalis, turinti prasmę tik tada, jei žinote autorių. Be šių užuominų gali būti sunku interpretuoti autoriaus jausmus.

Sarkazmas

Sarkazmo aptikimas yra dar vienas konteksto iššūkio skonis. Neturėdami papildomos informacijos, nuotaikų analizės sistemos dažnai painioja pažodinę žodžių prasmę su jų ketinimu. Sarkazmas yra aktyvi akademinių tyrimų sritis, todėl artimiausiu metu galime pamatyti sistemas, kurios supranta snarką.

Palyginimai

Nuotaika darosi kebli, kai „Tweets“ palygina. Jei atlieku daržovių rinkos tyrimus ir kažkas iš „Tweets“, „Morkos geriau nei moliūgai“, ar šis „Twitter“ teigiamas ar neigiamas? Tai priklauso nuo jūsų perspektyvos. Panašiai kažkas gali tweetinti: „A įmonė yra geresnė už B įmonę“. Jei dirbu A įmonėje, šis tweetas yra teigiamas, bet jei esu su įmone B, tai neigiamas.

Emojis

Jaustukai yra jų pačių kalba . Nors mėgstami jaustukai reiškia gana akivaizdų jausmą, kiti yra ne tokie universalūs. Kurdami savo nuotaikų analizės sistemą atidžiai išnagrinėjome, kaip žmonės naudoja jaustukus, pastebėdami, kad net ir įprasti jaustukai gali sukelti painiavą. beveik vienodai vartojamas reiškia „toks laimingas, kad verkiu“ arba „toks liūdnas, kad verkiu“. Jei žmonės negali susitarti dėl jaustuko reikšmės, negali ir nuotaikų analizės sistema.

Apibrėžti neutralų

Net „neutralus“ nusiteikimas ne visada yra tiesus. Apsvarstykite naujienų antraštę apie tragišką įvykį. Nors visi sutikome, kad įvykis yra baisus, dauguma naujienų antraštių yra faktiniai, informatyvūs teiginiai. Sentimentų analizės sistemos yra skirtos nustatyti turinio autoriaus emocijas, o ne skaitytojo reakciją. Nors gali pasirodyti keista matyti baisias naujienas, pažymėtas „neutraliomis“, tai atspindi autoriaus ketinimą perduoti faktinę informaciją.

Sentimento analizės sistemos taip pat skiriasi tuo, kaip apibrėžiama neutralumas. Kai kurie mano, kad neutrali yra visuotinio „Tweet“ kategorija, kai sistema negali nuspręsti tarp teigiamo ar neigiamo. Tose sistemose „neutralus“ yra „aš nesu tikras“ sinonimas. Tačiau iš tikrųjų yra daugybė „Tweets“, kurie neišreiškia emocijų, pavyzdžiui, žemiau pateiktas pavyzdys.

Mūsų sistema aiškiai klasifikuoja neemocinius „Tweets“ kaip neutralius, o ne naudoja neutralius kaip numatytąją dviprasmiškų „Tweets“ etiketę.

Sentimento analizės įvertinimas

Turint tiek daug nuotaikų analizės iššūkių, verta investuoti į namų darbus prieš investuojant į naują įrankį. Pardavėjai bando padėti sumažinti sudėtingumą, sutelkdami dėmesį į statistiką apie savo produkto tikslumą. Tačiau tikslumas ne visada yra obuolių ir obuolių palyginimas. Jei planuojate naudoti tikslumą kaip matavimo lazdelę, pateikite keletą dalykų, kurių turėtumėte paklausti.

Ar nurodytas tikslumas yra didesnis nei 80%?
Kadangi žmonės tarpusavyje sutaria tik 60–80% laiko, jokiu būdu negalima sukurti bandomojo duomenų rinkinio, kuriame visi sutiks, kad yra „teisingos“ sentimentų etiketės. Kalbant apie nuotaiką, „teisinga“ yra subjektyvu. Kitaip tariant, testuojant tikslumą nėra auksinio standarto.

Viršutinė nuotaikų analizės sistemos tikslumo riba visada bus žmogaus lygio susitarimas: apie 80 proc. Jei pardavėjas teigia, kad tikslumas didesnis nei 80%, verta būti skeptiškam. Dabartiniai tyrimai rodo, kad net 80% tikslumas yra mažai tikėtinas; geriausi šios srities ekspertai tikslumą paprastai pasiekia 60-ųjų viduryje ir viršutinėje dalyje.

Kiek nuotaikų kategorijų prognozuojama?
Kai kurie pardavėjai tikslumą vertina tik „Tweets“, kuriuos žmonių vertintojai nustatė kaip teigiamą ar neigiamą, išskyrus visus neutralius „Tweets“. Kur kas lengviau sistemos tikslumas pasirodyti labai aukštas dirbant su labai emocingais „Tweets“ ir tik dviem galimais rezultatais (teigiamais arba neigiamais).

Tačiau laukinėje gamtoje dauguma „Tweets“ yra neutralūs arba dviprasmiški. Kai sistema vertinama tik teigiamai ir neigiamai, neįmanoma žinoti, kaip sistema gerai susidoroja su neutraliais „Tweets“ - dauguma to, ką iš tikrųjų pamatysite.

Kokie „Tweets“ tipai yra įtraukti į jų testų rinkinį?
Reikėtų sukurti nuotaikų analizės sistemą ir išbandyti ją naudojant „Tweets“, kurie atspindi realias sąlygas. Kai kurios nuotaikos analizės sistemos kuriamos naudojant domenui skirtus „Tweets“, kurie buvo filtruoti ir išvalyti, kad sistemai būtų kuo lengviau suprasti.

Pvz., Pardavėjas galėjo rasti jau egzistuojantį duomenų rinkinį, kuriame yra tik labai emocionalūs „Tweets“ apie oro linijų industriją, neįtraukiant bet kokio šlamšto ar temų, susijusių su tema. Dėl to tikslumas būtų didelis, tačiau tik tada, kai naudojamas labai panašiuose „Tweets“. Jei dirbate kitame domene arba gaunate bet kokių temų ar šlamšto „Tweets“, matysite daug mažesnį tikslumą.

Kiek didelis buvo bandomasis duomenų rinkinys?
Seanso analizės sistemos turėtų būti įvertintos keliais tūkstančiais „Tweets“, kad būtų galima įvertinti sistemos našumą įvairiais scenarijais. Negausite tikro sistemos tikslumo mato, kai sistema bus išbandyta tik keliuose šimtuose „Tweets“.

Čia, „Sprout“, mes sukūrėme savo modelį ant 50 000 „Tweets“ kolekcijos, sudarytos iš atsitiktinės „Twitter“ imties. Kadangi „Tweets“ nėra būdingi domenams, mūsų nuotaikų analizės sistema gerai veikia įvairiuose domenuose.

Be to, mes atskirai prognozuojame teigiamas, neigiamas ir neutralias kategorijas; netaikome neutraliai, kai kitos prognozės nepavyksta. Mūsų tikslumas buvo patikrintas naudojant 10 000 „Tweets“, iš kurių nė vienas nebuvo naudojamas kuriant sistemą.

Žiūrėkite „Sprout“ nuotaikų analizę tiesiogiai su klausytojais

Visi pasaulio tyrimai nepakeičia sistemos įvertinimo iš pirmų lūpų. Duokite mūsų naujai nuotaikos analizės sistemai išbandyti savo naujausiame socialinio klausymosi įrankių rinkinyje, Klausytojai ir pažiūrėkite, kaip tai veikia jums. Galų gale geriausias socialinio klausymo įrankis yra tas, kuris atitinka jūsų poreikius ir padeda jums gauti didesnę socialinės vertės vertę. Leiskite mums padėti jums pradėti šiandien.

Dalykitės Su Savo Draugais: