www.capital.bg | 6.09.2015г.
Българската компания Оntotext създава технологии, чрез които медиите могат да персонализират съдържание за читателите си
Пътуваш в автобуса и нямаш много време. Искаш обаче да разбереш най-интересните новини и коментари от деня. Зареждаш уебсайта на любимата си медиа, а началната й страница е персонализирана специално за теб и твоите интереси. След това сайтът ти предлага още материали, които са подбрани така, че да отговарят максимално на темите, които те вълнуват точно в този момент. Не, това не е реклама на нова услуга от голям технологичен играч като Apple или Google, а технология за т.нар. dynamic semantic publishing, разработена от българската компания Ontotext и използвана в редица от водещите световни медии.
Как работи
"Ние знаем определени неща за света. Знаем, че София е в България, знаем, че Бойко Борисов е премиер на тази страна, знаем, че това е политическа позиция и има кабинет, в който има определени министри, и т.н.", обяснява принципа на технологията Милена Янкова, маркетинг директор на Ontotext. "Искаме тези данни да са свързани и да имат свой уникален адрес, чрез който да бъдат достъпни", допълва тя.
Това става чрез т.нар. smart data или semantic web"(тенденции в технологиите, които описват създаването на свързаност между информацията онлайн – бел. авт.). Зад тях застава инициативата Linked Open Data, подета от сър Тим Бърнърс-Ли, създател на уеб протокола http. Идеята е да се намери връзката между споменаванията на определени понятия, като по този начин се "начертае" семантична карта на онлайн пространството. Именно върху тези принципи стъпва и системата dynamic semantic publishing (DSP) на Ontotext. Какво обаче представлява тази технология и как работи?
Всъщност DSP анализира даден текст и открива определени понятия в него, като създава тагове (или "семантични анотации") за всяко от тях. "Не трябва просто да знаем, че има една подредба от букви, а да накараме компютъра да разбере, че те всъщност реферират към даден човек например", разказва Янкова. И допълва: "Трудността идва, когато става въпрос за две еднакви понятия, но с различни значения." Като пример за това тя дава възможната интерпретация на Парис Хилтън (Paris Hilton на английски). Тук системата за семантичен анализ трябва да "изчете" материала, за да разбере дали става въпрос за хотел "Хилтън" в Париж или за самата Парис Хилтън. Това става по сравнително лесен начин: ако текстът споменава например "тя", "нея" и т.н., то е ясно, че се говори за човек. След като се създаде този таг, системата компилира база данни със свързана с него информация, която после лесно може да бъде достигната и извадена за бъдещо използване.
Какви са ползите
"Виждали сме издателите да ползват технологията по различен начин", казва Милена Янкова. Като най-пресен пример тя дава работата на Оntotext с Financial Times, които използват системата, за да подредят съдържанието си съобразно интересите на конкретния читател. Медиата използва dynamic semantic publishing платформата на българската компания, която, комбинирана със събраните данни за всеки посетител, генерира автоматично начална страница с най-подходящите за него новини, подбрани измежду всички нови материали във Financial Times. "Можем да се запитаме защо го правят. Отговорът е "за да те задържат за по-дълго, да намериш това, което ти трябва, и да продължиш да четеш, а не да отвориш друга медиа за свързани по дадена интересна тема новини", обяснява Янкова.
Това е и една от основните причини за представянето на технологията за семантичен анализ в медийната среда. Първата медиа, която приема новата система за "умни данни", е британската BBC по време на Световната купа по футбол през 2010 г. Проблемът, който срещат британците, е свързан с това, че създават ново съдържание на всеки 10 секунди. "Невъзможно е да има човек, който на такъв интервал да получава нов материал и да пренареди съответната страница в сайта", разказват от Ontotext и допълват: "Това, което те правиха, преди да въведат нашите технологии, беше да използват стандартна база данни с колони и редове, в които се търсят определени записи. В този мащаб обаче използването на този метод беше немислимо, защото обемът на данните беше прекалено голям."
BBC използват семантичната уеб технология и по друг пионерски начин – чрез т.нар. topic страници (тематични страници – бел. авт.). Това са отново автоматично генерирани страници, които обаче "издърпват" от базата данни най-важната, свързана и нова информация по дадена тема. "Ако става въпрос за Гърция например, дори не е необходимо показаните материали да съдържат тази дума. Достатъчно е да се споменава Ципрас например, защото ние знаем, че той е част от политическия живот в държавата", обяснява Милена Янкова.
Тя посочва още, че примерът с BBC е особено интересен, защото медиата държи всеки текст и неговите ключови думи и т.нар. metadata да са ръчно валидирани от журналист. По този начин се подсигурява това, че материалът ще е наистина релевантен на търсеното от потребителите съдържание. "При Financial Times това не е така. Те разчитат изцяло на автоматичния процес, дори той да е 90% сигурен", разказва маркетинг директорката.
Сред другите приложения на системата за dynamic semantic publishing е и възможността да се подпомогнат журналистически проучвания по дадена тема. По подобен начин на този, чрез който се извеждат релевантни статии за потребителите, технологията на Ontotext може да намери материали по дадената тема от други медии, за да се открие какво са писали те по нея например. "Би могло да има дори и приложение за автоматизиране на CMS (content management systems – бел. авт.) системите, но не е това фокусът ни", уточнява Милена Янкова. Всъщност от компанията разказват, че всяка медиа, с която работят, сама избира как да използва предлаганата от тях информация за свързаност на съдържанието, за да се увеличи читателският интерес. Така например данните, събрани чрез технологията, могат да послужат за създаването на интерактивни графики и нестандартна навигация, които да привлекат вниманието на потребителите и да ги задържат по-дълго.
Освен BBC и Financial Times Ontotext работят по внедряването на технологията и в британските Euromoney и Press Association, както и в няколко американски издания. "Имаме и партньор в България, но проектът е във финалната си фаза и не можем да говорим официално за него", казва Янкова.
News On the Web
Това, че Ontotext работят предимно с някои от най-утвърдените медии, не е случайно. Според маркетинг директорката на компанията обяснението е, че все още е доста скъпо да се въведе такава система. "Това, че самото прилагане на системата е сложно, е онзи праг, който ни пречи да излезем на масовия пазар", допълва тя. Всъщност оскъпяването идва от два факта: самата технология е скъпа, но и изисква екип от поне 10 души от страна на медиата. От друга страна, проблемът идва и от дългото технически време, необходимо за въвеждането на dynamic semantic publishing – около година – година и половина.
За да направят продукта си по-масов обаче, от Ontotext са подготвили демонстративната платформа NOW (News On the Web). Тя агрегира свързани тематични новини от мрежата, като използва за основа същата технология, въведена в BBC и Financial Times. "Чрез NOW ние искаме да представим системата пред по-малки медии, които нямат претенцията да създават всяко технологично решение сами", разказва Милена Янкова. Готовата платформа е всъщност продукт, който може по модулен начин да се приложи във всяка медиа, стига тя да обучи своя IT отдел. "За да бъде успешен проектът, трябва да променим нагласата на техническите хора в медиите за това как се организират данните. Едва тогава те ще могат да използват нашите системи", обяснява трудностите пред NOW Янкова. От компанията обаче вярват в това начинание и уточняват, че амбицията им е да осигурят "технологично преимущество и на малките играчи".
Какво ново в медиите
Технологиите отдавна променят предимствата и тенденциите при медиите. "Американската вестникарска асоциация" например отчита през 2015 г., че потреблението на новини в дигитална среда е достигнало до близо 80%, като само при мобилните устройства се забелязва повишение от 53% в последната година. Това е основната тенденция, която отбелязва и Милена Янкова от Ontotext. "Това е най-голямата технологична революция в последните две години. Тя промени начина, по който хората потребяват медии", смята тя. Според маркетинг директорката медийните компании трябва да могат да предложат персонализирано съдържание на всеки читател в зависимост от това на какво устройство е той в момента. В допълнение към това се прибавя и тенденцията за интерактивността на материалите, т.е. начинът, по който потребителите взаимодействат със съдържанието. Това може да се случва чрез коментари и споделяния например. "Говори се много за това, че при millennium поколението (между 18 и 35 години – бел. авт.) обменната валута е именно присъствието в социалните мрежи. За да са адекватни на това, медиите трябва да са готови да предложат наистина подходящо съдържание", коментира Янкова и уточнява, че работата на Оntotext е да помогне именно за това.