Vanliga frågor om AI (AI Modules FAQ)
1. Databehandling och integritet
Frågor om informationskällor: Vilka datakällor kommer att användas för utbildning och drift av den automatiska sammanfattningsmodulen? Är dessa källor i enlighet med personuppgiftslagen?
Svar: Vi använder data från flera offentligt tillgängliga anbudskällor. Vi använder både Mercell-genererad anbudsmetadata samt dokument som ingår i anbudet. OBS: Vi använder grundläggande modeller (LLMs som OpenAI:s GPT-4o) och använder dem på ett sätt så att vår data uttryckligen väljs bort för utbildning. Vi utbildar därför inte modeller.
Frågor om informationslagring: Var kommer informationen att lagras och vilka åtgärder finns för att skydda denna information från obehörig åtkomst?
Svar: Vi lagrar informationen i ett dedikerat AWS-konto som följer samma allmänna riktlinjer som Mercells återstående AWS-konton. Det finns två sätt att få åtkomst:
AWS IAM-användare/roller med lämpliga behörigheter kan få åtkomst. I skrivande stund är det bara utvecklare som arbetar med systemet som har tillstånd.
Med rätt användaruppgifter kan åtkomst erhållas via REST API. Detta säkras endast genom det oauth2-kompatibla klientinloggningsflödet. Inloggningsuppgifter måste skapas av utvecklingsteamet.
2. Transparens och förklaringar
Fråga om modellförklaring: Är AI-modellens beslutsprocess dokumenterad och förståelig för användarna?
Svar: Beslutsprocessen för AI-modellen har inte offentliggjorts, och den är också omöjlig att uppnå. Vi använder patentskyddade grundmodeller som inte dokumenterar hur de har utbildats eller hur de genererar resultat. Vi kan komma att dela information om processen som använder denna modell och hur modellen används. Information om själva modellen är inte tillgänglig.
Granskningsbarhet: Vilka mekanismer finns på plats för att granska AI-modulens resultat? Hur säkerställer man att svaren motsvarar förväntad standard?
Svar: Vi har flera kvalitetskontrollmekanismer:
Mänsklig utvärdering av stickprov. Våra experter tar prov på sammanfattningarna och kontrollerar noggrannhet och fullständighet (precision och återkallelse)
Maskinell utvärdering av stickprov. Vi använder olika referensvärden för att utvärdera sammanfattningsresultatet mot referenssammanfattningar. Detta gör det möjligt att kvantifiera sammanfattningens riktighet och fullständighet.
Maskinutvärdering i stor skala. Vi använder en uppsättning riktmärken och acceptanskriterier för att utvärdera varje abstrakt innan det presenteras för kunden/användaren.
Användarutvärdering. Slutanvändarna kan ge feedback på sammanfattningarna, både binära (är det en bra eller dålig sammanfattning) samt kvalitativ (vad saknas, vad kan förbättras). Denna feedback ingår i både mänsklig och maskinell utvärdering av resultat.
Av dessa utvärderingar är 1 och 2 på plats. 3 och 4 är under planering.
3. Fördomar och rättvisa
Frågor om att minska bias: Vilka åtgärder vidtas för att identifiera och minska eventuella fördomar i AI-modellens träningsdata och resultat.
Svar: Vi använder inte den interna kunskapen om grundmodellerna direkt, utan de fungerar snarare som ett sätt att behandla dokumenten. Modellerna instrueras att endast använda den information som finns i dokumenten. Detta lämnar minimalt med utrymme för andra fördomar än vad som redan finns i handlingarna.
Frågor om rättvisekontroll: Hur säkerställer vi att sammanfattningar är rättvisa och icke-diskriminerande för olika typer av förfrågningsunderlag?
Svar: Modellen utvärderar alla dokument och letar efter den mest korrekta informationen. Modellens resultat är inte 100% deterministiska och vi kan därför inte garantera att resultatet blir 100% detsamma hela tiden, utan i princip behandlar vi faktiska dokument och hämtar information från alla. Vi har inga mekanismer på plats för att ge särbehandling av vissa typer av dokument.
4. Prestanda och noggrannhet
Frågor om utvärderingsmätningar: Vad används för att utvärdera prestanda och noggrannhet hos AI-sammanfattningarna?
Svar: Se svar under "2. Granskbarhet"
Frågor om kontinuerlig övervakning: Hur övervakar vi AI-systemets prestanda över tid för att säkerställa regelbunden kvalitet och noggrannhet?
Svar: Se svar under "2. Reviderbarhetspunkt 3 och 4"
5. Användarinteraktion och feedback
Frågor om feedback från användare: Hur samlar vi in och använder användarfeedback för att förbättra AI-sammanfattningar?
Svar: Användare kan ge feedback på två sätt: En tummen upp/ner-knapp (eller liknande) och ett inläggsfält för att ge kvalitativ feedback. Denna feedback kommer att utvärderas av AI-teamet och användas för att förbättra produkten.
Frågor om felrapportering: Hur kan användare rapportera fel eller felaktigheter i sammanfattningarna?
Svar: Se tidigare svar. Dessutom kan de använda Mercells befintliga återkopplingssystem.
AI Modules FAQ
1. Data Management and Privacy
Data Sources: What data sources will be used for training and operating the AI summarization module? Are these sources compliant with relevant data protection laws?
We are using data from several publicly available tender sources. We are using both the Mercell generated tender metadata as well as documents included in the tender. NOTE: We are using foundational models (LLMs like OpenAI’s GPT-4o) and are using it in a way that our data is explicitly opted out for training. Hence, we are not training any models.
Data Storage: Where will the data be stored, and what measures are in place to protect this data from unauthorized access?
We are storing the data in a dedicated AWS account which follows the same general policies as other Mercell AWS accounts. Access is possible in two ways:
Through AWS IAM users/roles having the right permission set. At time of writing this is only available for developers working on the system
Through our REST API while having the right user credentials. This is secured through the oauth2 compliant client credentials flow only. Credentials need to be created by the developer team.
2. Transparency and Explainability
Model Explainability: How will the AI model's decision-making process be documented and made understandable to users?
The decision process of the AI model is not transparent and this is also impossible to achieve. We are using proprietary foundational models which do not document how they have been trained or how they generate results. We can provide transparency for the process that is using this model and how the model is used. The model itself is a black box.
Auditability: What mechanisms are in place for auditing the AI module’s outputs and ensuring they align with expected standards?
We have several quality control mechanisms:
Human evaluation of samples. We check our summaries with expert knowledge from within Mercell for accuracy and completeness (precision and recall).
Machine evaluation of samples. We use a set of different benchmark scores to evaluate the summary output against a set of reference summaries. This makes it possible to quantify the summary accuracy and completeness.
Machine evaluation at scale. We use a the same set of benchmark scores and acceptability criteria and evaluate each summary before it is being presented to the customer/user.
User evaluation. The end-users can provide feedback on the summaries, both binary (is it a good or bad summary) as well as qualitative (what is missing, what can be improved). This feedback will be incorporated in both our human as well as our machine evaluation of results.
Out of these evaluations, 1 and 2 are currently in place. 3 and 4 are being planned.
3. Bias and Fairness
Bias Mitigation: What steps are being taken to identify and mitigate any biases in the AI model’s training data and outputs?
We are not using the foundational models’ internal knowledge, but instead are using it as a way to process the documents. We instruct the models to only use the information available in the documents. This leaves minimal room for bias outside of the possible bias encaptured in the document themselves.
Fairness Checks: How will we ensure that the summarization is fair and non-discriminatory across different types of tender documents?
The model is evaluating all the documents and will look for the most accurate information. Since the output of the model is not 100% deterministic it cannot be guaranteed that it will be 100% the same all the time, but in principle we are processing factual documents and retrieving factual information out of all of them. No mechanism is in place to provide special treatment to certain types of documents.
4. Performance and Accuracy
Evaluation Metrics: What metrics will be used to evaluate the performance and accuracy of the AI summaries?
See answer at “2. Auditability”
Continuous Monitoring: How will we monitor the AI system's performance over time to ensure consistent quality and accuracy?
See answer at “2. Auditability” point 3 and 4.
5. User Interaction and Feedback
User Feedback Mechanism: How will we collect and incorporate user feedback to improve the AI summaries?
There will be two ways for users to provide feedback. A thumbs up/down button (or equivalent) and an input field to provide qualitative inputs in summary quality. This feedback will be evaluated by the AI team and used to improve the product.
Error Reporting: What processes will be in place for users to report errors or inaccuracies in the summaries?
See previous answer. On top of that they can use the same feedback/support system Mercell has in place currently.