Ich möchte meinen Blog in Zukunft als Platform für Ideen nutzen, die ich selbst gerne implementiert sähe, zu deren Umsetzung mir jedoch die Zeit fehlt. Gerne würde ich an dieser Stelle sehen, wie ihr den vorgestellten Wunsch realisiert habt oder wie ihr ihn lösen würdet. Kommentare und Ideen sind gerne gesehen! Vielleicht habt ihr auch bessere Ideen / Ansätze, die den vorgestellten Wunsch überflüssig machen.

Wunsch

Der erste Wunsch, den ich vorstellen möchte ist, erhaltene Informationen zu priorisieren. Die Unmengen an Informationen, in Form von beispielsweise e-Mails oder Feeds, die auf mich einprasseln führen bei mir oft zu einer Überforderung, alle Informationen durchzugehen und sinnvoll auszusortieren. Ich hätte gerne eine semi-automatisierte Lösung, die durch Training durch mich meine Prioritäten lernt und anschließend neue Informationen entsprechend klassifiziert.

Ich habe bereits von Googlemails “Priority Inbox” gehört. Jedoch würde ich meine Daten ungern aus der Hand geben. Ich verwende seit langem Thunderbird und würde aus diesem Grund ein Thunderbird Addon bevorzugen.

Lösungsvorschlag

Mein intuitiver Ansatz wäre folgender:

  • Verwende einen Klassifikator/Predictor, um für eine eingehende Information eine Priorität vorherzusagen. Ein simpler Ansatz wäre ein Naive Bayes Klassifikator.
  • Trainiere den Klassifikator mit meinen eigenen Prioritäten: Eingehende e-Mails werden entweder auf einer kontinuierlichen Skala (von minimaler bis maximaler Priorität) oder in Kategorien (zwischen Wichtig, Interessant, …, Unwichtig) bewertet. Im Falle eines Naive Bayes Klassifikators wird die eingehende e-Mail in ihre Einzelwörter zerlegt, und für jedes Wort die Wahrscheinlichkeit aktualisiert, dass sie Teil einer e-Mail ist, die der gewählten Priorität zugeordnet wird.
  • Neue eingehende e-Mails werden dann basierend auf den Wahrscheinlichkeiten der Einzelwörter in bestimmte Klassen zugeordnet.

Alternativ zum Naive Bayes Klassifikator, und von mir eigentlich bevorzugt, könnte man einen Predictor verwenden, der Prioritäten einer kontinuierlichen Prioritäten-Skala vorhersagt. Beispielsweise ein Lineares Regressions Modell.

Außerdem wird beim Einzelwort-Klassifikator vernachlässigt, dass Kombinationen von Wörtern andere Bedeutungen (sprich Prioritäten) haben könnten, als die der Einzelwörter. Dies könnte in komplexeren Modellen berücksichtigt werden.

Quick & Dirty

Ich behelfe mir nun notdürftig, indem ich meine e-Mails / Feeds in 5 Klassen (Tags) einordnen lasse. Dazu verwende ich das TaQuilla Addon für Thunderbird, welches mithilfe eines Naive Bayes Klassifikators und der Einzelwörter der Mails / Feeds Wahrscheinlichkeiten für jeden Tag vorhersagt und dann die Mails automatisch entsprechend tagged. Dies funktioniert aus den oben genannten Gründen semi-gut. Häufiges Problem ist, dass für eine Mail / einen Feed mehrere Prioritäten verhergesagt werden. Außerdem werden Wort-Kombinationen nicht berücksichtigt.