Back

ⓘ Извличане на информация



                                     

ⓘ Извличане на информация

Извличане на информация е област от информатиката и компютърната лингвистика, чийто предмет е извличането на документи, на информация от документи и на метаданни за документите, чрез търсене в релационни бази данни и Интернет. Областта е интердисциплинарна, на границата между информатиката, математиката, библиотечното дело, когнитивната психология, лингвистиката, статистиката и физиката.

Съществува известно припокриване между понятията извличане на информация, извличане на данни, извличане на текст, извличане на знания от данни сондиране на данни, data mining, но за всяко от тях може да се посочи самостоятелен корпус от научна литература, теоретико-приложни резултати и технологии.

Автоматизираните системи за извличане на информация се използват, за да се намалят ефектите от феномена "информационно пренасищане". Най-популярните приложения за извличане на информация са уеб-базираните търсачки. Много университети и публични библиотеки използват такива системи, за да осигурят достъп до книги, списания и други документи.

                                     

1. Обща постановка

Процесът на извличане на информация започва с въвеждането от потребителя на заявка към системата. Заявките са формални описания на информационната потребност, например низ въведен в полето на търсачката. При извличането на информация с една заявка не се идентифицира по уникален начин един-единствен обект от съвкупността. Напротив, обикновено на заявката отговарят повече от един обекта, вероятно с различни степени на релевантност. Под "обект" се разбира запис, който съхранява определен обем от информация в базата данни, като в зависимост от приложението, обектът може да е текстов, графичен, аудио- или видео-документ.

Повечето системи за извличане на информация изчисляват числов коефициент на релевантност на всеки от документите в базата по отношение на изпратената от потребителя заявка, и ранжират подреждат в намаляващ ред така оценените документи според техния коефициент. Най-високо ранжираните обекти са тези, които се връщат като резултат на потребителя. Процесът може да претърпи и повече от една итерация, ако потребителят не е удовлетворен от резултата и желае да прецизира заявката си.

                                     

2. Оценки на резултата

Съществуват различни техники за измерване и оценка на резултата от работата на системите за извличане на информация. Всяка от тях изисква съвкупност от документи и потребителска заявка.

Важни показатели за оценка и управление на качеството са:

  • Релевантност / Съответност на данни Relevance – Този показател изисква стойностите на данните да попадат в приемлив обсег или да са от определена типизирана съвкупност.
  • Навременност / Свежест на данни Timeliness/Freshness – Този параметър използва времето за записване на данните и времето, когато данните се смятат актуални. Разликата между тези времена би показала дали данните са свежи, или са стари.
  • Съгласуваност на данни Consistency – Съгласувани данни са тези, при които при възможно наличие на дублиране на данни, те са с еднакво и налично съдържание.
  • Пълнота на данните Completeness – параметър, измерващ съществуването или отсъствието на данни.
  • Наличност / Достъпност на данните Availability
                                     

2.1. Оценки на резултата Точност на оценяване

Точност на оценяване Precision е отношението на броя извлечени документи, които са релевантни на информационната потребност на потребителя, към общия брой извлечени документи, т.е.

Точността на оценяване взема предвид всички върнати документи, но може да се постави и ограничение по ранг, като се пресмята на база най-високо ранжираните n резултати.

                                     

2.2. Оценки на резултата Брак

Брак Fall-out е съотношението на нерелевантните извлечени документи към всички налични нерелевантни документи, т.е.

При бинарна класификация, бракът е тясно свързан със специфичността, като я допълва до 1. Може да се разглежда като вероятността заявката да върне нерелевантен документ.

Тривиално е да се доведе този показател до 0%, като на отправената заявка в резултат не се върне нито един документ.

                                     

2.3. Оценки на резултата F-мярка

Претеглената средна хармонична на точността на оценяване и точността на връщане, наречена F-мярка или още

Free and no ads
no need to download or install

Pino - logical board game which is based on tactics and strategy. In general this is a remix of chess, checkers and corners. The game develops imagination, concentration, teaches how to solve tasks, plan their own actions and of course to think logically. It does not matter how much pieces you have, the main thing is how they are placement!

online intellectual game →